Skip to content
AI

Comment savoir si le brouillon d'un modèle de raisonnement a réellement guidé sa réponse ?

85

Opportunity

Les modèles frontier qui émettent des traces de chaîne de pensée visibles parviennent souvent à une réponse avant ou indépendamment de ces étapes, puis génèrent un raisonnement vraisemblable comme rationalisation a posteriori. Les métriques de fidélité existantes ne concordent pas entre elles selon la façon dont le classificateur est construit, ce qui signifie qu'il n'existe pas de vérité terrain acceptée sur ce à quoi ressemble une trace fidèle. Aucun outil de production ne signale un raisonnement infidèle au moment de l'inférence ni n'attache de niveau de confiance à la question de savoir si la trace a causé la sortie. Les secteurs réglementés et les examens de sécurité qui traitent le raisonnement visible comme une explication du comportement du modèle s'appuient sur quelque chose qui peut être un récit construit après coup.

Why it matters

Si une trace de raisonnement est une rationalisation a posteriori, tout audit, toute affirmation de responsabilité ou tout contrôle de conformité construit sur cette base est invalide.

Comment j'évalue l'opportunité

The Opportunity Score is my own read, not a measurement: how much it hurts, how often it bites, and how little exists to solve it today. Higher means I think it is more worth building.

Gravité9/10

How much pain it causes when it shows up.

Fréquence7/10

How often people actually run into it.

Espace libre9/10

How little good tooling exists for it today.

D'autres problèmes qui méritent d'être résolus