Por que as pontuações dos modelos em leaderboards despencam quando o conjunto de testes nunca foi visto durante o treinamento?

Opportunity

Benchmarks estáticos como o MMLU apresentam taxas de contaminação de até 45%, e versões parafraseadas ou traduzidas dos itens de teste sobrevivem à descontaminação por correspondência exata enquanto ainda inflam as pontuações publicadas. Um modelo pode liderar um leaderboard em uma tarefa contaminada e falhar na mesma tarefa quando ela é reformulada de forma limpa. Benchmarks dinâmicos que atualizam as tarefas periodicamente existem, mas carecem de critérios de design padronizados, de modo que os resultados não podem ser comparados entre eles nem verificados como representativos da habilidade que afirmam medir. Cada alegação de capacidade e segurança publicada em um leaderboard se baseia em números que nenhuma parte independente pode validar como limpos.

Why it matters

A avaliação confiável é o pré-requisito para toda decisão de segurança e implantação subsequente, e os números sobre os quais essas decisões se baseiam não são, atualmente, confiáveis.

Como avalio a oportunidade

The Opportunity Score is my own read, not a measurement: how much it hurts, how often it bites, and how little exists to solve it today. Higher means I think it is more worth building.

Gravidade8/10

How much pain it causes when it shows up.

Frequência8/10

How often people actually run into it.

Lacuna8/10

How little good tooling exists for it today.

Mais problemas que merecem ser resolvidos

Por que todo aplicativo de IA me esquece no momento em que fecho a aba?

Por que aprender uma nova área ainda depende de saber o que perguntar?

Por que uma pessoa sem especialização não consegue verificar o que uma IA acabou de dizer?

Por que testamos modelos em benchmarks mas os lançamos em produção no achismo?

Por que agentes de IA não têm memória dos próprios erros?

Por que não consigo auditar em que um modelo foi realmente treinado?

← Todos os problemas que merecem ser resolvidos About Anurag →