Pourquoi les scores des classements de modèles s'effondrent-ils lorsque l'ensemble de test n'a jamais été vu à l'entraînement ?

Opportunity

Les benchmarks statiques comme MMLU présentent des taux de contamination pouvant atteindre 45 %, et les versions paraphrasées ou traduites des éléments de test survivent à la décontamination par correspondance exacte tout en continuant à gonfler les scores publiés. Un modèle peut dominer un classement sur une tâche contaminée et échouer sur la même tâche lorsqu'elle est reformulée proprement. Des benchmarks dynamiques qui actualisent périodiquement les tâches existent, mais ils manquent de critères de conception standardisés, de sorte que les résultats ne peuvent pas être comparés entre eux ni vérifiés comme représentatifs de la compétence qu'ils prétendent mesurer. Toute affirmation de capacité ou de sécurité publiée dans un classement repose sur des chiffres qu'aucune partie indépendante ne peut valider comme étant propres.

Why it matters

Une évaluation digne de confiance est le prérequis pour toute décision de sécurité et de déploiement en aval, et les chiffres sur lesquels reposent ces décisions ne sont pas actuellement fiables.

Comment j'évalue l'opportunité

The Opportunity Score is my own read, not a measurement: how much it hurts, how often it bites, and how little exists to solve it today. Higher means I think it is more worth building.

Gravité8/10

How much pain it causes when it shows up.

Fréquence8/10

How often people actually run into it.

Espace libre8/10

How little good tooling exists for it today.

D'autres problèmes qui méritent d'être résolus

Pourquoi chaque application IA m'oublie-t-elle dès que je ferme l'onglet ?

Pourquoi apprendre un nouveau domaine est-il encore conditionné par le fait de savoir quoi demander ?

Pourquoi un non-expert ne peut-il pas vérifier ce qu'une IA vient de lui dire ?

Pourquoi teste-t-on les modèles sur des benchmarks mais les déploie-t-on à l'instinct ?

Pourquoi les agents IA n'ont-ils aucun souvenir de leurs propres erreurs ?

Pourquoi ne puis-je pas vérifier sur quoi un modèle a réellement été entraîné ?

← Tous les problèmes qui méritent d'être résolus About Anurag →