Pourquoi teste-t-on les modèles sur des benchmarks mais les déploie-t-on à l'instinct ?
Opportunity
Les équipes choisissent un modèle dans un classement, puis l'exécutent en production avec presque aucune évaluation continue, abordable et spécifique à la tâche. Quand la qualité dérive, personne ne s'en aperçoit jusqu'à ce qu'un utilisateur se plaigne. Les outils permettant de mesurer réellement si votre fonctionnalité IA est encore performante manquent à la plupart des développeurs.
Why it matters
On ne peut pas exploiter ce qu'on ne peut pas mesurer, et à l'heure actuelle la plupart des fonctionnalités IA ne sont pas mesurées.
Comment j'évalue l'opportunité
The Opportunity Score is my own read, not a measurement: how much it hurts, how often it bites, and how little exists to solve it today. Higher means I think it is more worth building.
How much pain it causes when it shows up.
How often people actually run into it.
How little good tooling exists for it today.
D'autres problèmes qui méritent d'être résolus
Pourquoi chaque application IA m'oublie-t-elle dès que je ferme l'onglet ?
AIPourquoi apprendre un nouveau domaine est-il encore conditionné par le fait de savoir quoi demander ?
AIPourquoi un non-expert ne peut-il pas vérifier ce qu'une IA vient de lui dire ?
AIPourquoi les agents IA n'ont-ils aucun souvenir de leurs propres erreurs ?
AIPourquoi ne puis-je pas vérifier sur quoi un modèle a réellement été entraîné ?
AIPourquoi un document empoisonné peut-il exfiltrer silencieusement tout ce que mon assistant sait sur moi ?