لماذا تنهار درجات لوائح الصدارة للنماذج حين لم تُشاهَد مجموعة الاختبار قط خلال التدريب؟

الفرصة

تحمل المعايير الثابتة كـ MMLU معدلات تلوث تصل إلى 45%، وتنجو النسخ المُعاد صياغتها أو المترجمة من عناصر الاختبار من إزالة التلوث بالمطابقة الحرفية مع بقاء تأثيرها في تضخيم الدرجات المنشورة. يمكن لنموذج أن يتصدر لائحة الصدارة في مهمة ملوّثة ثم يخفق في المهمة ذاتها حين تُعاد صياغتها بشكل نظيف. ثمة معايير ديناميكية تجدّد المهام دورياً لكنها تفتقر إلى معايير تصميم موحدة، فلا يمكن مقارنة نتائجها ببعضها أو التحقق من تمثيلها للمهارة التي تدّعي قياسها. كل ادعاء بالقدرة أو السلامة منشور في لائحة صدارة يستند إلى أرقام لا يستطيع أي طرف مستقل التحقق من خلوّها من التلوث.

لماذا تهم

التقييم الموثوق شرط أساسي لكل قرار يتعلق بالسلامة والنشر في المراحل اللاحقة، والأرقام التي ترتكز عليها تلك القرارات غير موثوقة في الوقت الراهن.

كيف أقيّم الفرصة

نقاط الفرصة هي قراءتي الشخصية لا قياس دقيق: مدى تأثير المشكلة، وتكرار مواجهتها، وشُح الحلول المتاحة لها اليوم. كلما ارتفعت النقاط، كان البناء في رأيي أجدر بالاهتمام.

الحدّة8/10

مقدار الألم الذي تسببه حين تظهر.

التكرار8/10

مدى تكرار مواجهة الناس لها فعلياً.

الفراغ السوقي8/10

مدى شُح الأدوات الجيدة المتاحة لها اليوم.

مزيد من المشكلات التي تستحق الحل

لماذا تنساني كل تطبيقات الذكاء الاصطناعي في اللحظة التي أغلق فيها التبويب؟

لماذا لا يزال تعلم مجال جديد رهيناً بمعرفة الأسئلة الصحيحة؟

لماذا لا يستطيع غير المتخصص التحقق مما أخبره به الذكاء الاصطناعي للتو؟

لماذا نختبر النماذج على المعايير القياسية ثم نطلقها بناءً على الحدس؟

لماذا لا تملك وكلاء الذكاء الاصطناعي ذاكرة لأخطائها الخاصة؟

لماذا لا يمكنني مراجعة ما تدرّب عليه النموذج فعلاً؟

← جميع المشكلات التي تستحق الحل عن Anurag →