Warum testen wir Modelle an Benchmarks, aber bringen sie nach Bauchgefühl in die Produktion?

Opportunity

Teams wählen ein Modell aus einem Leaderboard und betreiben es dann in der Produktion mit kaum kontinuierlicher, günstiger, aufgabenspezifischer Evaluation. Wenn die Qualität nachlässt, bemerkt es niemand, bis sich ein Nutzer beschwert. Die Werkzeuge, um tatsächlich zu messen, ob ein KI-Feature noch gut funktioniert, fehlen den meisten Entwicklern.

Why it matters

Was man nicht messen kann, kann man nicht steuern, und derzeit sind die meisten KI-Features ungemessen.

Wie ich die Chance bewerte

The Opportunity Score is my own read, not a measurement: how much it hurts, how often it bites, and how little exists to solve it today. Higher means I think it is more worth building.

Schweregrad7/10

How much pain it causes when it shows up.

Häufigkeit8/10

How often people actually run into it.

Whitespace8/10

How little good tooling exists for it today.

Weitere lösungswürdige Probleme

Warum vergisst mich jede KI-App in dem Moment, in dem ich den Tab schließe?

Warum setzt das Erlernen eines neuen Fachgebiets immer noch voraus, die richtigen Fragen zu kennen?

Warum kann eine fachfremde Person nicht überprüfen, was eine KI ihr gerade gesagt hat?

Warum haben KI-Agenten kein Gedächtnis für ihre eigenen Fehler?

Warum kann ich nicht nachprüfen, womit ein Modell tatsächlich trainiert wurde?

Warum kann ein vergiftetes Dokument lautlos alles exfiltrieren, was mein Assistent über mich weiß?

← Alle lösungswürdigen Probleme About Anurag →