Pourquoi ne puis-je pas faire confiance au score de confiance d'un modèle quand cela compte le plus ?

Opportunity

Les modèles de langage modernes produisent régulièrement des tokens à haute confiance sur des réponses erronées et des tokens à faible confiance sur des réponses correctes. L'écart entre la probabilité annoncée et la précision réelle, appelé erreur de calibration, a été documenté sur les modèles frontières dans une étude de 2025 couvrant les méthodes basées sur l'entropie, les logits et la perturbation. Les agents en production qui utilisent ces scores pour décider quand différer ou s'abstenir héritent directement de cette mauvaise calibration, si bien qu'ils hallucinent avec une fausse certitude ou refusent inutilement des réponses correctes. Aucune primitive prête à l'emploi ne fournit un signal d'incertitude calibré et actionnable, suffisamment peu coûteux pour être exécuté à l'inférence sur chaque token de sortie dans une réponse en streaming.

Why it matters

La calibration est le primitif de confiance à la base de chaque décision agentique, et sans elle, chaque seuil de sécurité en aval repose sur du sable.

Comment j'évalue l'opportunité

The Opportunity Score is my own read, not a measurement: how much it hurts, how often it bites, and how little exists to solve it today. Higher means I think it is more worth building.

Gravité9/10

How much pain it causes when it shows up.

Fréquence9/10

How often people actually run into it.

Espace libre7/10

How little good tooling exists for it today.

D'autres problèmes qui méritent d'être résolus

Pourquoi chaque application IA m'oublie-t-elle dès que je ferme l'onglet ?

Pourquoi apprendre un nouveau domaine est-il encore conditionné par le fait de savoir quoi demander ?

Pourquoi un non-expert ne peut-il pas vérifier ce qu'une IA vient de lui dire ?

Pourquoi teste-t-on les modèles sur des benchmarks mais les déploie-t-on à l'instinct ?

Pourquoi les agents IA n'ont-ils aucun souvenir de leurs propres erreurs ?

Pourquoi ne puis-je pas vérifier sur quoi un modèle a réellement été entraîné ?

← Tous les problèmes qui méritent d'être résolus About Anurag →