모델을 벤치마크로 테스트하고 감으로 배포하는 이유는 무엇일까?
Opportunity
팀들은 리더보드에서 모델을 고른 뒤, 지속적이고 저렴한 과업별 평가 없이 프로덕션에 그대로 투입한다. 품질이 떨어져도 사용자가 불만을 제기하기 전까지 아무도 알아채지 못한다. AI 기능이 여전히 제대로 작동하는지 실제로 측정할 수 있는 도구는 대부분의 개발자에게 없다.
Why it matters
측정할 수 없는 것은 운영할 수 없다. 지금 이 순간 대부분의 AI 기능은 측정조차 되지 않고 있다.
기회 평가 방식
The Opportunity Score is my own read, not a measurement: how much it hurts, how often it bites, and how little exists to solve it today. Higher means I think it is more worth building.
How much pain it causes when it shows up.
How often people actually run into it.
How little good tooling exists for it today.
해결할 가치 있는 더 많은 문제들
탭을 닫는 순간 모든 AI 앱이 나를 잊어버리는 이유는 무엇일까?
AI새로운 분야를 배우는 것이 여전히 무엇을 물어야 할지 아는 것에 의해 제한받는 이유는 무엇일까?
AI비전문가는 왜 AI가 말한 내용을 검증할 수 없을까?
AIWhy do AI agents have no memory of their own mistakes?
AIWhy can't I audit what a model was actually trained on?
AIWhy can a poisoned document silently exfiltrate everything my assistant knows about me?