Why can someone watching my encrypted LLM traffic still infer what I asked?

Oportunidad

Whisper Leak, disclosed in late 2025, demonstrated that analyzing packet timing and size patterns in encrypted streaming LLM responses classifies prompt topics with greater than 98% precision across 28 major providers. Some providers including OpenAI and Mistral deployed fixes, but those mitigations address token-length patterns only. A separate attack exploits speculative decoding: the number of tokens accepted per decoding step varies with output content, and that signal leaks through even padded connections because padding does not eliminate the acceptance-rate fluctuation. Proposed defenses such as token batching reduce attack accuracy by 50% but do not eliminate it, and random padding imposes up to 8.7x payload overhead with residual leakage. No provider has shipped a complete mitigation for the speculative decoding variant.

Por qué importa

Any user querying a streaming LLM from a network that logs traffic is leaking the topic of their query regardless of TLS encryption, including users who believe they are communicating privately with a medical, legal, or financial assistant.

Cómo evalúo la oportunidad

La Puntuación de Oportunidad es mi propia lectura, no una medición: cuánto duele, con qué frecuencia aparece y qué tan poco existe para resolverlo hoy. Un valor más alto significa que creo que vale más la pena construirlo.

Gravedad8/10

Cuánto dolor causa cuando aparece.

Frecuencia8/10

Con qué frecuencia la gente se topa con ello.

Espacio en blanco8/10

Qué tan pocas herramientas buenas existen para ello hoy.

Más problemas que vale la pena resolver

¿Por qué toda aplicación de IA me olvida en el momento en que cierro la pestaña?

¿Por qué aprender una nueva área sigue dependiendo de saber qué preguntar?

¿Por qué una persona sin experiencia no puede verificar lo que una IA acaba de decirle?

¿Por qué probamos los modelos en benchmarks pero los lanzamos a producción guiándonos por la intuición?

¿Por qué los agentes de IA no tienen memoria de sus propios errores?

¿Por qué no puedo auditar en qué fue entrenado realmente un modelo?

← Todos los problemas que vale la pena resolver Sobre Anurag →