Pourquoi les scores des classements de modèles s'effondrent-ils lorsque l'ensemble de test n'a jamais été vu à l'entraînement ?
Opportunity
Les benchmarks statiques comme MMLU présentent des taux de contamination pouvant atteindre 45 %, et les versions paraphrasées ou traduites des éléments de test survivent à la décontamination par correspondance exacte tout en continuant à gonfler les scores publiés. Un modèle peut dominer un classement sur une tâche contaminée et échouer sur la même tâche lorsqu'elle est reformulée proprement. Des benchmarks dynamiques qui actualisent périodiquement les tâches existent, mais ils manquent de critères de conception standardisés, de sorte que les résultats ne peuvent pas être comparés entre eux ni vérifiés comme représentatifs de la compétence qu'ils prétendent mesurer. Toute affirmation de capacité ou de sécurité publiée dans un classement repose sur des chiffres qu'aucune partie indépendante ne peut valider comme étant propres.
Why it matters
Une évaluation digne de confiance est le prérequis pour toute décision de sécurité et de déploiement en aval, et les chiffres sur lesquels reposent ces décisions ne sont pas actuellement fiables.
Comment j'évalue l'opportunité
The Opportunity Score is my own read, not a measurement: how much it hurts, how often it bites, and how little exists to solve it today. Higher means I think it is more worth building.
How much pain it causes when it shows up.
How often people actually run into it.
How little good tooling exists for it today.
D'autres problèmes qui méritent d'être résolus
Pourquoi chaque application IA m'oublie-t-elle dès que je ferme l'onglet ?
AIPourquoi apprendre un nouveau domaine est-il encore conditionné par le fait de savoir quoi demander ?
AIPourquoi un non-expert ne peut-il pas vérifier ce qu'une IA vient de lui dire ?
AIPourquoi teste-t-on les modèles sur des benchmarks mais les déploie-t-on à l'instinct ?
AIPourquoi les agents IA n'ont-ils aucun souvenir de leurs propres erreurs ?
AIPourquoi ne puis-je pas vérifier sur quoi un modèle a réellement été entraîné ?