¿Por qué colapsan las puntuaciones de los modelos en los rankings cuando el conjunto de pruebas nunca ha aparecido en el entrenamiento?

Oportunidad

Los benchmarks estáticos como MMLU tienen tasas de contaminación de hasta el 45%, y las versiones parafraseadas o traducidas de los elementos de prueba sobreviven a la descontaminación por coincidencia exacta mientras siguen inflando las puntuaciones publicadas. Un modelo puede encabezar un ranking con una tarea contaminada y fallar esa misma tarea cuando se reformula con limpieza. Existen benchmarks dinámicos que actualizan las tareas periódicamente, pero carecen de criterios de diseño estandarizados, por lo que los resultados no pueden compararse entre ellos ni verificarse como representativos de la habilidad que pretenden medir. Toda reclamación de capacidad y seguridad publicada en un ranking se sustenta en cifras que ningún tercero independiente puede validar como limpias.

Por qué importa

La evaluación confiable es el prerrequisito para toda decisión posterior de seguridad y despliegue, y las cifras sobre las que descansan esas decisiones no son actualmente confiables.

Cómo evalúo la oportunidad

La Puntuación de Oportunidad es mi propia lectura, no una medición: cuánto duele, con qué frecuencia aparece y qué tan poco existe para resolverlo hoy. Un valor más alto significa que creo que vale más la pena construirlo.

Gravedad8/10

Cuánto dolor causa cuando aparece.

Frecuencia8/10

Con qué frecuencia la gente se topa con ello.

Espacio en blanco8/10

Qué tan pocas herramientas buenas existen para ello hoy.

Más problemas que vale la pena resolver

¿Por qué toda aplicación de IA me olvida en el momento en que cierro la pestaña?

¿Por qué aprender una nueva área sigue dependiendo de saber qué preguntar?

¿Por qué una persona sin experiencia no puede verificar lo que una IA acaba de decirle?

¿Por qué probamos los modelos en benchmarks pero los lanzamos a producción guiándonos por la intuición?

¿Por qué los agentes de IA no tienen memoria de sus propios errores?

¿Por qué no puedo auditar en qué fue entrenado realmente un modelo?

← Todos los problemas que vale la pena resolver Sobre Anurag →