Skip to content
AI

Warum testen wir Modelle an Benchmarks, aber bringen sie nach Bauchgefühl in die Produktion?

81

Opportunity

Teams wählen ein Modell aus einem Leaderboard und betreiben es dann in der Produktion mit kaum kontinuierlicher, günstiger, aufgabenspezifischer Evaluation. Wenn die Qualität nachlässt, bemerkt es niemand, bis sich ein Nutzer beschwert. Die Werkzeuge, um tatsächlich zu messen, ob ein KI-Feature noch gut funktioniert, fehlen den meisten Entwicklern.

Why it matters

Was man nicht messen kann, kann man nicht steuern, und derzeit sind die meisten KI-Features ungemessen.

Wie ich die Chance bewerte

The Opportunity Score is my own read, not a measurement: how much it hurts, how often it bites, and how little exists to solve it today. Higher means I think it is more worth building.

Schweregrad7/10

How much pain it causes when it shows up.

Häufigkeit8/10

How often people actually run into it.

Whitespace8/10

How little good tooling exists for it today.

Weitere lösungswürdige Probleme