Pourquoi ne puis-je pas faire confiance au score de confiance d'un modèle quand cela compte le plus ?
Opportunity
Les modèles de langage modernes produisent régulièrement des tokens à haute confiance sur des réponses erronées et des tokens à faible confiance sur des réponses correctes. L'écart entre la probabilité annoncée et la précision réelle, appelé erreur de calibration, a été documenté sur les modèles frontières dans une étude de 2025 couvrant les méthodes basées sur l'entropie, les logits et la perturbation. Les agents en production qui utilisent ces scores pour décider quand différer ou s'abstenir héritent directement de cette mauvaise calibration, si bien qu'ils hallucinent avec une fausse certitude ou refusent inutilement des réponses correctes. Aucune primitive prête à l'emploi ne fournit un signal d'incertitude calibré et actionnable, suffisamment peu coûteux pour être exécuté à l'inférence sur chaque token de sortie dans une réponse en streaming.
Why it matters
La calibration est le primitif de confiance à la base de chaque décision agentique, et sans elle, chaque seuil de sécurité en aval repose sur du sable.
Comment j'évalue l'opportunité
The Opportunity Score is my own read, not a measurement: how much it hurts, how often it bites, and how little exists to solve it today. Higher means I think it is more worth building.
How much pain it causes when it shows up.
How often people actually run into it.
How little good tooling exists for it today.
D'autres problèmes qui méritent d'être résolus
Pourquoi chaque application IA m'oublie-t-elle dès que je ferme l'onglet ?
AIPourquoi apprendre un nouveau domaine est-il encore conditionné par le fait de savoir quoi demander ?
AIPourquoi un non-expert ne peut-il pas vérifier ce qu'une IA vient de lui dire ?
AIPourquoi teste-t-on les modèles sur des benchmarks mais les déploie-t-on à l'instinct ?
AIPourquoi les agents IA n'ont-ils aucun souvenir de leurs propres erreurs ?
AIPourquoi ne puis-je pas vérifier sur quoi un modèle a réellement été entraîné ?