Por que as pontuações dos modelos em leaderboards despencam quando o conjunto de testes nunca foi visto durante o treinamento?
Opportunity
Benchmarks estáticos como o MMLU apresentam taxas de contaminação de até 45%, e versões parafraseadas ou traduzidas dos itens de teste sobrevivem à descontaminação por correspondência exata enquanto ainda inflam as pontuações publicadas. Um modelo pode liderar um leaderboard em uma tarefa contaminada e falhar na mesma tarefa quando ela é reformulada de forma limpa. Benchmarks dinâmicos que atualizam as tarefas periodicamente existem, mas carecem de critérios de design padronizados, de modo que os resultados não podem ser comparados entre eles nem verificados como representativos da habilidade que afirmam medir. Cada alegação de capacidade e segurança publicada em um leaderboard se baseia em números que nenhuma parte independente pode validar como limpos.
Why it matters
A avaliação confiável é o pré-requisito para toda decisão de segurança e implantação subsequente, e os números sobre os quais essas decisões se baseiam não são, atualmente, confiáveis.
Como avalio a oportunidade
The Opportunity Score is my own read, not a measurement: how much it hurts, how often it bites, and how little exists to solve it today. Higher means I think it is more worth building.
How much pain it causes when it shows up.
How often people actually run into it.
How little good tooling exists for it today.
Mais problemas que merecem ser resolvidos
Por que todo aplicativo de IA me esquece no momento em que fecho a aba?
AIPor que aprender uma nova área ainda depende de saber o que perguntar?
AIPor que uma pessoa sem especialização não consegue verificar o que uma IA acabou de dizer?
AIPor que testamos modelos em benchmarks mas os lançamos em produção no achismo?
AIPor que agentes de IA não têm memória dos próprios erros?
AIPor que não consigo auditar em que um modelo foi realmente treinado?