Warum brechen Modell-Leaderboard-Ergebnisse ein, wenn der Testdatensatz nie im Training gesehen wurde?

Opportunity

Statische Benchmarks wie MMLU weisen Kontaminationsraten von bis zu 45% auf, und paraphrasierte oder übersetzte Versionen von Testaufgaben überstehen die Exact-Match-Dekontaminierung, während sie die veröffentlichten Ergebnisse weiterhin verzerren. Ein Modell kann auf einem Leaderboard bei einer kontaminierten Aufgabe an der Spitze stehen und dieselbe Aufgabe scheitern, wenn sie sauber umformuliert wird. Dynamische Benchmarks, die Aufgaben regelmäßig aktualisieren, existieren, besitzen jedoch keine standardisierten Designkriterien, sodass Ergebnisse weder untereinander verglichen noch als repräsentativ für die angeblich gemessene Fähigkeit verifiziert werden können. Jede Fähigkeits- und Sicherheitsaussage, die auf einem Leaderboard veröffentlicht wird, beruht auf Zahlen, die keine unabhängige Partei als sauber validieren kann.

Why it matters

Vertrauenswürdige Evaluierung ist die Voraussetzung für jede nachgelagerte Sicherheits- und Deployment-Entscheidung, und die Zahlen, auf denen diese Entscheidungen beruhen, sind derzeit nicht vertrauenswürdig.

Wie ich die Chance bewerte

The Opportunity Score is my own read, not a measurement: how much it hurts, how often it bites, and how little exists to solve it today. Higher means I think it is more worth building.

Schweregrad8/10

How much pain it causes when it shows up.

Häufigkeit8/10

How often people actually run into it.

Whitespace8/10

How little good tooling exists for it today.

Weitere lösungswürdige Probleme

Warum vergisst mich jede KI-App in dem Moment, in dem ich den Tab schließe?

Warum setzt das Erlernen eines neuen Fachgebiets immer noch voraus, die richtigen Fragen zu kennen?

Warum kann eine fachfremde Person nicht überprüfen, was eine KI ihr gerade gesagt hat?

Warum testen wir Modelle an Benchmarks, aber bringen sie nach Bauchgefühl in die Produktion?

Warum haben KI-Agenten kein Gedächtnis für ihre eigenen Fehler?

Warum kann ich nicht nachprüfen, womit ein Modell tatsächlich trainiert wurde?

← Alle lösungswürdigen Probleme About Anurag →