モデルをベンチマークでテストしながら、なぜ感覚だけで本番に投入するのか？

Opportunity

チームはリーダーボードからモデルを選び、継続的で低コストなタスク固有の評価をほぼ行わないまま本番環境で動かす。品質が低下しても、ユーザーが不満を言うまで誰も気づかない。AIフィーチャーが今も機能しているかを実際に測定するツールは、ほとんどの開発者には存在しない。

Why it matters

測定できないものは運用できない。そして今、ほとんどのAIフィーチャーは測定されていない。

機会をどう評価するか

The Opportunity Score is my own read, not a measurement: how much it hurts, how often it bites, and how little exists to solve it today. Higher means I think it is more worth building.

深刻度7/10

How much pain it causes when it shows up.

頻度8/10

How often people actually run into it.

ホワイトスペース8/10

How little good tooling exists for it today.

解決する価値のある問題をもっと見る

タブを閉じた瞬間にすべてのAIアプリが自分のことを忘れるのはなぜか？

新しい分野の学習が今もなお、何を質問すべきかを知ることを前提としているのはなぜか？

専門家でない人が、AIの言ったことを確認できないのはなぜか？

なぜAIエージェントは自分自身のミスを記憶しないのか？

なぜモデルが実際に何で訓練されたかを監査できないのか？

汚染されたドキュメントが、アシスタントが私について知っているすべてを、なぜ気づかれることなく外部に流出させることができるのか？

← 解決する価値のあるすべての問題 About Anurag →