¿Por qué probamos los modelos en benchmarks pero los lanzamos a producción guiándonos por la intuición?

Oportunidad

Los equipos eligen un modelo de un ranking y lo despliegan en producción con casi ninguna evaluación continua, económica y específica para la tarea. Cuando la calidad se deteriora, nadie lo nota hasta que un usuario se queja. Las herramientas para medir realmente si tu funcionalidad de IA sigue siendo buena no existen para la mayoría de los desarrolladores.

Por qué importa

No puedes gestionar lo que no puedes medir, y ahora mismo la mayoría de las funcionalidades de IA no se miden.

Cómo evalúo la oportunidad

La Puntuación de Oportunidad es mi propia lectura, no una medición: cuánto duele, con qué frecuencia aparece y qué tan poco existe para resolverlo hoy. Un valor más alto significa que creo que vale más la pena construirlo.

Gravedad7/10

Cuánto dolor causa cuando aparece.

Frecuencia8/10

Con qué frecuencia la gente se topa con ello.

Espacio en blanco8/10

Qué tan pocas herramientas buenas existen para ello hoy.

Más problemas que vale la pena resolver

¿Por qué toda aplicación de IA me olvida en el momento en que cierro la pestaña?

¿Por qué aprender una nueva área sigue dependiendo de saber qué preguntar?

¿Por qué una persona sin experiencia no puede verificar lo que una IA acaba de decirle?

¿Por qué los agentes de IA no tienen memoria de sus propios errores?

¿Por qué no puedo auditar en qué fue entrenado realmente un modelo?

¿Por qué un documento malicioso puede exfiltrar silenciosamente todo lo que mi asistente sabe sobre mí?

← Todos los problemas que vale la pena resolver Sobre Anurag →