¿Por qué no puedo confiar en la puntuación de confianza de un modelo cuando más importa?

Oportunidad

Los modelos de lenguaje modernos producen rutinariamente tokens de alta confianza en respuestas incorrectas y tokens de baja confianza en respuestas correctas. La brecha entre la probabilidad declarada y la precisión real, denominada error de calibración, ha sido documentada en modelos de frontera en un estudio de 2025 que cubre métodos basados en entropía, logits y perturbaciones. Los agentes en producción que utilizan estas puntuaciones para decidir cuándo diferir o abstenerse heredan directamente la mala calibración, por lo que o bien alucinan con falsa certeza o rechazan respuestas correctas innecesariamente. Ningún primitivo listo para usar ofrece una señal de incertidumbre calibrada y accionable lo suficientemente económica como para ejecutarse en tiempo de inferencia en cada token de salida en una respuesta en streaming.

Por qué importa

La calibración es el primitivo de confianza que subyace a cada decisión agéntica, y sin ella cada umbral de seguridad posterior descansa sobre arena.

Cómo evalúo la oportunidad

La Puntuación de Oportunidad es mi propia lectura, no una medición: cuánto duele, con qué frecuencia aparece y qué tan poco existe para resolverlo hoy. Un valor más alto significa que creo que vale más la pena construirlo.

Gravedad9/10

Cuánto dolor causa cuando aparece.

Frecuencia9/10

Con qué frecuencia la gente se topa con ello.

Espacio en blanco7/10

Qué tan pocas herramientas buenas existen para ello hoy.

Más problemas que vale la pena resolver

¿Por qué toda aplicación de IA me olvida en el momento en que cierro la pestaña?

¿Por qué aprender una nueva área sigue dependiendo de saber qué preguntar?

¿Por qué una persona sin experiencia no puede verificar lo que una IA acaba de decirle?

¿Por qué probamos los modelos en benchmarks pero los lanzamos a producción guiándonos por la intuición?

¿Por qué los agentes de IA no tienen memoria de sus propios errores?

¿Por qué no puedo auditar en qué fue entrenado realmente un modelo?

← Todos los problemas que vale la pena resolver Sobre Anurag →