AI
モデルをベンチマークでテストしながら、なぜ感覚だけで本番に投入するのか?
81
Opportunity
チームはリーダーボードからモデルを選び、継続的で低コストなタスク固有の評価をほぼ行わないまま本番環境で動かす。品質が低下しても、ユーザーが不満を言うまで誰も気づかない。AIフィーチャーが今も機能しているかを実際に測定するツールは、ほとんどの開発者には存在しない。
Why it matters
測定できないものは運用できない。そして今、ほとんどのAIフィーチャーは測定されていない。
機会をどう評価するか
The Opportunity Score is my own read, not a measurement: how much it hurts, how often it bites, and how little exists to solve it today. Higher means I think it is more worth building.
深刻度7/10
How much pain it causes when it shows up.
頻度8/10
How often people actually run into it.
ホワイトスペース8/10
How little good tooling exists for it today.