Warum testen wir Modelle an Benchmarks, aber bringen sie nach Bauchgefühl in die Produktion?
Opportunity
Teams wählen ein Modell aus einem Leaderboard und betreiben es dann in der Produktion mit kaum kontinuierlicher, günstiger, aufgabenspezifischer Evaluation. Wenn die Qualität nachlässt, bemerkt es niemand, bis sich ein Nutzer beschwert. Die Werkzeuge, um tatsächlich zu messen, ob ein KI-Feature noch gut funktioniert, fehlen den meisten Entwicklern.
Why it matters
Was man nicht messen kann, kann man nicht steuern, und derzeit sind die meisten KI-Features ungemessen.
Wie ich die Chance bewerte
The Opportunity Score is my own read, not a measurement: how much it hurts, how often it bites, and how little exists to solve it today. Higher means I think it is more worth building.
How much pain it causes when it shows up.
How often people actually run into it.
How little good tooling exists for it today.
Weitere lösungswürdige Probleme
Warum vergisst mich jede KI-App in dem Moment, in dem ich den Tab schließe?
AIWarum setzt das Erlernen eines neuen Fachgebiets immer noch voraus, die richtigen Fragen zu kennen?
AIWarum kann eine fachfremde Person nicht überprüfen, was eine KI ihr gerade gesagt hat?
AIWarum haben KI-Agenten kein Gedächtnis für ihre eigenen Fehler?
AIWarum kann ich nicht nachprüfen, womit ein Modell tatsächlich trainiert wurde?
AIWarum kann ein vergiftetes Dokument lautlos alles exfiltrieren, was mein Assistent über mich weiß?