Why can someone watching my encrypted LLM traffic still infer what I asked?

Opportunité

Whisper Leak, disclosed in late 2025, demonstrated that analyzing packet timing and size patterns in encrypted streaming LLM responses classifies prompt topics with greater than 98% precision across 28 major providers. Some providers including OpenAI and Mistral deployed fixes, but those mitigations address token-length patterns only. A separate attack exploits speculative decoding: the number of tokens accepted per decoding step varies with output content, and that signal leaks through even padded connections because padding does not eliminate the acceptance-rate fluctuation. Proposed defenses such as token batching reduce attack accuracy by 50% but do not eliminate it, and random padding imposes up to 8.7x payload overhead with residual leakage. No provider has shipped a complete mitigation for the speculative decoding variant.

Pourquoi c'est important

Any user querying a streaming LLM from a network that logs traffic is leaking the topic of their query regardless of TLS encryption, including users who believe they are communicating privately with a medical, legal, or financial assistant.

Comment j'évalue l'opportunité

Le Score d'Opportunité est mon évaluation personnelle, pas une mesure : l'intensité de la douleur, sa fréquence et le peu de solutions qui existent aujourd'hui. Plus il est élevé, plus je pense que le problème vaut la peine d'être résolu.

Gravité8/10

L'intensité de la douleur qu'il provoque lorsqu'il se manifeste.

Fréquence8/10

La fréquence à laquelle les gens y sont réellement confrontés.

Espace libre8/10

Le peu de bons outils qui existent pour y remédier aujourd'hui.

D'autres problèmes qui méritent d'être résolus

Pourquoi chaque application IA m'oublie-t-elle dès que je ferme l'onglet ?

Pourquoi apprendre un nouveau domaine est-il encore conditionné par le fait de savoir quoi demander ?

Pourquoi un non-expert ne peut-il pas vérifier ce qu'une IA vient de lui dire ?

Pourquoi teste-t-on les modèles sur des benchmarks mais les déploie-t-on à l'instinct ?

Pourquoi les agents IA n'ont-ils aucun souvenir de leurs propres erreurs ?

Pourquoi ne puis-je pas vérifier sur quoi un modèle a réellement été entraîné ?

← Tous les problèmes qui méritent d'être résolus À propos d'Anurag →