لماذا تنهار درجات لوائح الصدارة للنماذج حين لم تُشاهَد مجموعة الاختبار قط خلال التدريب؟
الفرصة
تحمل المعايير الثابتة كـ MMLU معدلات تلوث تصل إلى 45%، وتنجو النسخ المُعاد صياغتها أو المترجمة من عناصر الاختبار من إزالة التلوث بالمطابقة الحرفية مع بقاء تأثيرها في تضخيم الدرجات المنشورة. يمكن لنموذج أن يتصدر لائحة الصدارة في مهمة ملوّثة ثم يخفق في المهمة ذاتها حين تُعاد صياغتها بشكل نظيف. ثمة معايير ديناميكية تجدّد المهام دورياً لكنها تفتقر إلى معايير تصميم موحدة، فلا يمكن مقارنة نتائجها ببعضها أو التحقق من تمثيلها للمهارة التي تدّعي قياسها. كل ادعاء بالقدرة أو السلامة منشور في لائحة صدارة يستند إلى أرقام لا يستطيع أي طرف مستقل التحقق من خلوّها من التلوث.
لماذا تهم
التقييم الموثوق شرط أساسي لكل قرار يتعلق بالسلامة والنشر في المراحل اللاحقة، والأرقام التي ترتكز عليها تلك القرارات غير موثوقة في الوقت الراهن.
كيف أقيّم الفرصة
نقاط الفرصة هي قراءتي الشخصية لا قياس دقيق: مدى تأثير المشكلة، وتكرار مواجهتها، وشُح الحلول المتاحة لها اليوم. كلما ارتفعت النقاط، كان البناء في رأيي أجدر بالاهتمام.
مقدار الألم الذي تسببه حين تظهر.
مدى تكرار مواجهة الناس لها فعلياً.
مدى شُح الأدوات الجيدة المتاحة لها اليوم.
مزيد من المشكلات التي تستحق الحل
لماذا تنساني كل تطبيقات الذكاء الاصطناعي في اللحظة التي أغلق فيها التبويب؟
AIلماذا لا يزال تعلم مجال جديد رهيناً بمعرفة الأسئلة الصحيحة؟
AIلماذا لا يستطيع غير المتخصص التحقق مما أخبره به الذكاء الاصطناعي للتو؟
AIلماذا نختبر النماذج على المعايير القياسية ثم نطلقها بناءً على الحدس؟
AIلماذا لا تملك وكلاء الذكاء الاصطناعي ذاكرة لأخطائها الخاصة؟
AIلماذا لا يمكنني مراجعة ما تدرّب عليه النموذج فعلاً؟