为什么在最关键的时刻，我无法信任模型的置信度分数？

Opportunity

现代语言模型经常在错误答案上输出高置信度词元，在正确答案上输出低置信度词元。这种声称概率与实际准确率之间的差距被称为校准误差，已在 2025 年一项涵盖熵、logit 和扰动方法的调查中针对前沿模型进行了记录。使用这些分数来决定何时推迟或弃权的生产代理直接继承了错误校准，因此它们要么以虚假的确定性产生幻觉，要么不必要地拒绝正确答案。目前没有任何开箱即用的原语能够提供校准后的、可操作的不确定性信号，且廉价到可以在推理时对流式响应中的每个输出词元运行。

Why it matters

校准是每一个代理决策背后的信任原语，没有它，所有下游安全阈值都建立在沙上。

我如何评估机会

The Opportunity Score is my own read, not a measurement: how much it hurts, how often it bites, and how little exists to solve it today. Higher means I think it is more worth building.

严重性9/10

How much pain it causes when it shows up.

频率9/10

How often people actually run into it.

空白空间7/10

How little good tooling exists for it today.

为什么在最关键的时刻，我无法信任模型的置信度分数？

我如何评估机会

更多值得解决的问题