Pourquoi teste-t-on les modèles sur des benchmarks mais les déploie-t-on à l'instinct ?

Opportunity

Les équipes choisissent un modèle dans un classement, puis l'exécutent en production avec presque aucune évaluation continue, abordable et spécifique à la tâche. Quand la qualité dérive, personne ne s'en aperçoit jusqu'à ce qu'un utilisateur se plaigne. Les outils permettant de mesurer réellement si votre fonctionnalité IA est encore performante manquent à la plupart des développeurs.

Why it matters

On ne peut pas exploiter ce qu'on ne peut pas mesurer, et à l'heure actuelle la plupart des fonctionnalités IA ne sont pas mesurées.

Comment j'évalue l'opportunité

The Opportunity Score is my own read, not a measurement: how much it hurts, how often it bites, and how little exists to solve it today. Higher means I think it is more worth building.

Gravité7/10

How much pain it causes when it shows up.

Fréquence8/10

How often people actually run into it.

Espace libre8/10

How little good tooling exists for it today.

D'autres problèmes qui méritent d'être résolus

Pourquoi chaque application IA m'oublie-t-elle dès que je ferme l'onglet ?

Pourquoi apprendre un nouveau domaine est-il encore conditionné par le fait de savoir quoi demander ?

Pourquoi un non-expert ne peut-il pas vérifier ce qu'une IA vient de lui dire ?

Pourquoi les agents IA n'ont-ils aucun souvenir de leurs propres erreurs ?

Pourquoi ne puis-je pas vérifier sur quoi un modèle a réellement été entraîné ?

Pourquoi un document empoisonné peut-il exfiltrer silencieusement tout ce que mon assistant sait sur moi ?

← Tous les problèmes qui méritent d'être résolus About Anurag →