Skip to content
AI

¿Por qué colapsan las puntuaciones de los modelos en los rankings cuando el conjunto de pruebas nunca ha aparecido en el entrenamiento?

82

Oportunidad

Los benchmarks estáticos como MMLU tienen tasas de contaminación de hasta el 45%, y las versiones parafraseadas o traducidas de los elementos de prueba sobreviven a la descontaminación por coincidencia exacta mientras siguen inflando las puntuaciones publicadas. Un modelo puede encabezar un ranking con una tarea contaminada y fallar esa misma tarea cuando se reformula con limpieza. Existen benchmarks dinámicos que actualizan las tareas periódicamente, pero carecen de criterios de diseño estandarizados, por lo que los resultados no pueden compararse entre ellos ni verificarse como representativos de la habilidad que pretenden medir. Toda reclamación de capacidad y seguridad publicada en un ranking se sustenta en cifras que ningún tercero independiente puede validar como limpias.

Por qué importa

La evaluación confiable es el prerrequisito para toda decisión posterior de seguridad y despliegue, y las cifras sobre las que descansan esas decisiones no son actualmente confiables.

Cómo evalúo la oportunidad

La Puntuación de Oportunidad es mi propia lectura, no una medición: cuánto duele, con qué frecuencia aparece y qué tan poco existe para resolverlo hoy. Un valor más alto significa que creo que vale más la pena construirlo.

Gravedad8/10

Cuánto dolor causa cuando aparece.

Frecuencia8/10

Con qué frecuencia la gente se topa con ello.

Espacio en blanco8/10

Qué tan pocas herramientas buenas existen para ello hoy.

Más problemas que vale la pena resolver