Why can someone watching my encrypted LLM traffic still infer what I asked?

Möglichkeit

Whisper Leak, disclosed in late 2025, demonstrated that analyzing packet timing and size patterns in encrypted streaming LLM responses classifies prompt topics with greater than 98% precision across 28 major providers. Some providers including OpenAI and Mistral deployed fixes, but those mitigations address token-length patterns only. A separate attack exploits speculative decoding: the number of tokens accepted per decoding step varies with output content, and that signal leaks through even padded connections because padding does not eliminate the acceptance-rate fluctuation. Proposed defenses such as token batching reduce attack accuracy by 50% but do not eliminate it, and random padding imposes up to 8.7x payload overhead with residual leakage. No provider has shipped a complete mitigation for the speculative decoding variant.

Warum es wichtig ist

Any user querying a streaming LLM from a network that logs traffic is leaking the topic of their query regardless of TLS encryption, including users who believe they are communicating privately with a medical, legal, or financial assistant.

Wie ich die Chance bewerte

Der Opportunity Score ist meine persönliche Einschätzung, keine Messung: wie stark es schmerzt, wie oft es auftritt und wie wenig heute existiert, um es zu lösen. Ein höherer Wert bedeutet, dass ich es für lohnender halte, es umzusetzen.

Schweregrad8/10

Wie viel Schmerz es verursacht, wenn es auftritt.

Häufigkeit8/10

Wie oft Menschen tatsächlich darauf stoßen.

Whitespace8/10

Wie wenig gute Werkzeuge dafür heute existieren.

Weitere lösungswürdige Probleme

Warum vergisst mich jede KI-App in dem Moment, in dem ich den Tab schließe?

Warum setzt das Erlernen eines neuen Fachgebiets immer noch voraus, die richtigen Fragen zu kennen?

Warum kann eine fachfremde Person nicht überprüfen, was eine KI ihr gerade gesagt hat?

Warum testen wir Modelle an Benchmarks, aber bringen sie nach Bauchgefühl in die Produktion?

Warum haben KI-Agenten kein Gedächtnis für ihre eigenen Fehler?

Warum kann ich nicht nachprüfen, womit ein Modell tatsächlich trainiert wurde?

← Alle lösungswürdigen Probleme Über Anurag →