Skip to content
AI

Por que as pontuações dos modelos em leaderboards despencam quando o conjunto de testes nunca foi visto durante o treinamento?

82

Opportunity

Benchmarks estáticos como o MMLU apresentam taxas de contaminação de até 45%, e versões parafraseadas ou traduzidas dos itens de teste sobrevivem à descontaminação por correspondência exata enquanto ainda inflam as pontuações publicadas. Um modelo pode liderar um leaderboard em uma tarefa contaminada e falhar na mesma tarefa quando ela é reformulada de forma limpa. Benchmarks dinâmicos que atualizam as tarefas periodicamente existem, mas carecem de critérios de design padronizados, de modo que os resultados não podem ser comparados entre eles nem verificados como representativos da habilidade que afirmam medir. Cada alegação de capacidade e segurança publicada em um leaderboard se baseia em números que nenhuma parte independente pode validar como limpos.

Why it matters

A avaliação confiável é o pré-requisito para toda decisão de segurança e implantação subsequente, e os números sobre os quais essas decisões se baseiam não são, atualmente, confiáveis.

Como avalio a oportunidade

The Opportunity Score is my own read, not a measurement: how much it hurts, how often it bites, and how little exists to solve it today. Higher means I think it is more worth building.

Gravidade8/10

How much pain it causes when it shows up.

Frequência8/10

How often people actually run into it.

Lacuna8/10

How little good tooling exists for it today.

Mais problemas que merecem ser resolvidos