Skip to content
AI

Por que testamos modelos em benchmarks mas os lançamos em produção no achismo?

81

Opportunity

As equipes escolhem um modelo de um leaderboard e o colocam em produção com quase nenhuma avaliação contínua, barata e específica para a tarefa. Quando a qualidade cai, ninguém percebe até um usuário reclamar. As ferramentas para realmente medir se o seu recurso de IA ainda está bom faltam para a maioria dos desenvolvedores.

Why it matters

Você não pode operar o que não consegue medir, e hoje a maioria dos recursos de IA não é medida.

Como avalio a oportunidade

The Opportunity Score is my own read, not a measurement: how much it hurts, how often it bites, and how little exists to solve it today. Higher means I think it is more worth building.

Gravidade7/10

How much pain it causes when it shows up.

Frequência8/10

How often people actually run into it.

Lacuna8/10

How little good tooling exists for it today.

Mais problemas que merecem ser resolvidos