Skip to content
AI

Pourquoi les scores des classements de modèles s'effondrent-ils lorsque l'ensemble de test n'a jamais été vu à l'entraînement ?

82

Opportunity

Les benchmarks statiques comme MMLU présentent des taux de contamination pouvant atteindre 45 %, et les versions paraphrasées ou traduites des éléments de test survivent à la décontamination par correspondance exacte tout en continuant à gonfler les scores publiés. Un modèle peut dominer un classement sur une tâche contaminée et échouer sur la même tâche lorsqu'elle est reformulée proprement. Des benchmarks dynamiques qui actualisent périodiquement les tâches existent, mais ils manquent de critères de conception standardisés, de sorte que les résultats ne peuvent pas être comparés entre eux ni vérifiés comme représentatifs de la compétence qu'ils prétendent mesurer. Toute affirmation de capacité ou de sécurité publiée dans un classement repose sur des chiffres qu'aucune partie indépendante ne peut valider comme étant propres.

Why it matters

Une évaluation digne de confiance est le prérequis pour toute décision de sécurité et de déploiement en aval, et les chiffres sur lesquels reposent ces décisions ne sont pas actuellement fiables.

Comment j'évalue l'opportunité

The Opportunity Score is my own read, not a measurement: how much it hurts, how often it bites, and how little exists to solve it today. Higher means I think it is more worth building.

Gravité8/10

How much pain it causes when it shows up.

Fréquence8/10

How often people actually run into it.

Espace libre8/10

How little good tooling exists for it today.

D'autres problèmes qui méritent d'être résolus