من فضلك تسجيل الدخول أو تسجيل لتفعل ذلك.

ليس من السهل أن تكون أحد المعايير المفضلة لدى وادي السيليكون.

تم إطلاق SWE-BENCE (SWEE BENCH “) في نوفمبر 2024 لتقييم مهارة ترميز نموذج الذكاء الاصطناعي ، باستخدام أكثر من 2000 مشكلة في البرمجة في العالم الحقيقي التي تم سحبها من مستودعات Github العامة لـ 12 مشروعًا مختلفًا على أساس بيثون.

في الأشهر منذ ذلك الحين ، سرعان ما أصبحت واحدة من أكثر الاختبارات شعبية في الذكاء الاصطناعي. أصبحت درجة Swe-bench بمثابة الدعامة الأساسية للإصدارات النموذجية الرئيسية من Openai ، و Nothropic ، و Google-وخارج نماذج الأساس ، فإن التقييمات في شركات الذكاء الاصطناعى في منافسة مستمرة لمعرفة من الذي يمكن أن يرتفع فوق الحزمة. الجزء العلوي من المتصدرين عبارة عن تراكم بين ثلاثة مواد مختلفة من طراز كلود سونيت من الأنثروبور ووكيل مطور Q Amazon. روفر رمز السيارات – واحد من تعديلات كلود – على المركز الثاني في نوفمبر”https://www.sonarsource.com/company/press-releases/sonar-acquires-autocoderover-to-supercharge-developers-with-ai-agents/”> تم الحصول عليها بعد ثلاثة أشهر فقط.

على الرغم من كل الحماس ، هذا ليس بالضبط تقييمًا صادقًا للنموذج “أفضل”. يقول جون يانغ ، الباحث في الفريق الذي طور Swe-Bench في جامعة برينستون ، مع اكتساب المعيار ، “أنت تبدأ في رؤية أن الناس يريدون حقًا تلك المركز الأول”. ونتيجة لذلك ، بدأ المشاركون في لعبة النظام – مما يدفع العديد من الآخرين إلى التساؤل عما إذا كانت هناك طريقة أفضل لقياس إنجاز الذكاء الاصطناعي.

لا يقوم مطورو عوامل الترميز هذه بالضرورة بعمل الغش المباشر ، لكنهم صياغة مناهج مصممة خصيصًا لتفاصيل المعيار. اقتصرت مجموعة اختبار SWE-CONDER الأولية على البرامج المكتوبة في Python ، مما يعني أن المطورين يمكنهم الحصول على ميزة من خلال تدريب نماذجهم حصريًا على رمز Python. بعد فترة وجيزة ، لاحظ يانغ أن النماذج ذات الدرجات العالية ستفشل تمامًا عند اختبارها على لغات البرمجة المختلفة-مما يؤدي إلى نهج الاختبار الذي يصفه بأنه “مذهب”.

يقول يانغ: “يبدو لطيفًا ولامعًا للوهلة الأولى ، ولكن بعد ذلك تحاول تشغيلها بلغة مختلفة والكامل مجرد نوع من الانفصال”. “في هذه المرحلة ، لا تقوم بتصميم وكيل هندسة البرمجيات. أنت تصمم لتكوين وكيل Swe-Bench ، وهو أقل إثارة للاهتمام.”

إن قضية SWE-CONS هي أحد أعراض المشكلات الأكثر شدة-والمعقدة-في تقييم الذكاء الاصطناعي ، وتأثير بشكل متزايد النقاش الساخن: المعايير التي تستخدمها الصناعة لتوجيه التنمية تنجرف إلى أبعد من تقييم القدرات الفعلية ، وتستدعي قيمتها الأساسية. مما يجعل الوضع أسوأ ، عدة معايير ، أبرزها”https://www.lesswrong.com/posts/8ZgLYwBmB3vLavjKE/some-lessons-from-the-openai-frontiermath-debacle”> FrontierMath و”https://www.404media.co/chatbot-arena-illusion-paper-meta-openai/”> chatbot Arena، تعرضت مؤخرا تحت حرارة بسبب الافتقار المزعوم إلى الشفافية. ومع ذلك ، لا تزال المعايير تلعب دورًا رئيسيًا في تطوير النموذج ، حتى لو كان عدد قليل من الخبراء على استعداد لاتخاذ نتائجهم بالقيمة الاسمية. مؤسس Openai Andrej Karpathy”https://x.com/karpathy/status/1896266683301659068″> الموصوفة مؤخرًا الوضع باعتباره “أزمة تقييم”: لدى الصناعة أساليب موثوقة أقل لقياس القدرات ولا يوجد مسار واضح إلى أفضل.

تقول فانيسا بارلي ، مديرة الأبحاث في معهد الذكاء الاصطناعى الذي يركز على الإنسان: “من الناحية التاريخية ، كانت المعايير هي الطريقة التي قمنا بتقييم أنظمة الذكاء الاصطناعي”. “هل هذه هي الطريقة التي نريد بتقييمها للأنظمة مستمرة؟ وإذا لم يكن الأمر كذلك ، فما هو الطريق؟”

تقوم مجموعة متزايدة من الأكاديميين والباحثين من الذكاء الاصطناعى بتقديم حالة أن الإجابة هي أن تصبح طموحًا أصغر ، حيث يتداول طموحًا كاسلكيًا لنهج مستوحى من العلوم الاجتماعية. على وجه التحديد ، إنهم يريدون التركيز أكثر على اختبار صحة ، والذي يشير إلى علماء الاجتماع الكميين إلى مدى جودة استبيان معين ما يزعم قياسه – وأكثر أهمية ، ما إذا كان ما يتم قياسه له تعريف متماسك. يمكن أن يسبب ذلك مشكلة في المعايير التي تقيم مفاهيم محددة بشكل خطير مثل “التفكير” أو “المعرفة العلمية” – وللمطورين يهدفون إلى الوصول إلى”https://www.technologyreview.com/2025/03/11/1112983/agi-is-suddenly-a-dinner-table-topic/”> كثيرا-“https://www.technologyreview.com/2023/11/16/1083498/google-deepmind-what-is-artificial-general-intelligence-agi/”> hyped هدف الذكاء العام الاصطناعي – لكنه سيضع الصناعة على أرض أكثر ثباتًا لأنها تتطلع إلى إثبات قيمة النماذج الفردية.

يقول أبيجيل جاكوبس ، أستاذ جامعة ميشيغان ، وهو شخصية مركزية في الدفعة الجديدة من أجل الصلاحية: “إن أخذ الصلاحية بجدية يعني سؤال الأشخاص في الأوساط الأكاديمية أو الصناعة أو في أي مكان يظهرون أن نظامهم يفعل ما يقولونه”. “أعتقد أنه يشير إلى ضعف في عالم الذكاء الاصطناعي إذا كانوا يريدون التراجع عن إظهار أنه يمكنهم دعم مطالبهم.”

حدود الاختبار التقليدي

إذا كانت شركات الذكاء الاصطناعي بطيئة في الاستجابة للفشل المتزايد في المعايير ، فهذا جزئيًا لأن نهج تسجيل الاختبار كان فعالًا جدًا لفترة طويلة.

كان أحد أكبر النجاحات المبكرة للذكور المعاصرة هو تحدي ImageNet ، وهو نوع من السوابق المعايير المعاصرة. تم إصدار قاعدة البيانات في عام 2010 كتحدي مفتوح للباحثين ، وحصلت على أكثر من 3 ملايين صورة لأنظمة الذكاء الاصطناعى للتصنيف إلى 1000 فئة مختلفة.

من الأهمية بمكان ، أن الاختبار كان غير مؤلف تمامًا عن الأساليب ، وسرعان ما اكتسب أي خوارزمية ناجحة مصداقية بغض النظر عن كيفية عملها. عندما اندلعت خوارزمية تسمى Alexnet في عام 2012 ، مع شكل غير تقليدي من تدريب GPU ، أصبحت واحدة من النتائج التأسيسية لمنظمة العفو الدولية الحديثة. قليلون كانوا يخمنون مسبقًا أن الشباك العصبية التنازلية لـ Alexnet ستكون سرًا لإلغاء التعرف على الصور – ولكن بعد أن سجلها جيدًا ، لم يجرؤ أحد على النزاع عليها. (أحد مطوري Alexnet ،”https://www.technologyreview.com/2023/10/26/1082398/exclusive-ilya-sutskever-openais-chief-scientist-on-his-hopes-and-fears-for-the-future-of-ai/”> ilya sutskever، سوف يستمر في Openai.)

جزء كبير مما جعل هذا التحدي فعالًا للغاية هو أن هناك اختلافًا عمليًا ضئيلًا بين تحدي تصنيف كائن ImageNet والعملية الفعلية لمطالبة الكمبيوتر بالتعرف على الصورة. حتى لو كانت هناك نزاعات حول الأساليب ، لم يشك أحد في أن النموذج الأعلى تسجيلًا سيكون له ميزة عند نشره في نظام التعرف على الصور الفعلي.

ولكن في غضون 12 عامًا ، قام باحثو الذكاء الاصطناعى بتطبيق نفس الطريقة التي تنطلقها في المهام العامة بشكل متزايد. يستخدم SWE-BECT بشكل شائع كبديل لقدرة الترميز الأوسع ، في حين أن المعايير الأخرى على غرار الامتحان غالباً ما تقف في غالبًا لقدرة التفكير. هذا النطاق الواسع يجعل من الصعب أن تكون صارمًا بشأن التدابير القياسية المحددة – مما يجعل من الصعب استخدام النتائج بدورها.

حيث تنهار الأشياء

أصبحت Anka Reuel ، طالبة الدكتوراه التي كانت تركز على المشكلة القياسية كجزء من بحثها في ستانفورد ، مقتنعًا بأن مشكلة التقييم هي نتيجة هذا الدفعة نحو العمومية. يقول ريويل: “لقد انتقلنا من النماذج الخاصة بالمهمة إلى النماذج للأغراض العامة”. “لم يعد الأمر يتعلق بمهمة واحدة ولكن مجموعة كاملة من المهام ، لذلك يصبح التقييم أكثر صعوبة.”

مثل جاكوبس بجامعة ميشيغان ، يعتقد ريويل أن “القضية الرئيسية مع المعايير هي الصلاحية ، حتى أكثر من التنفيذ العملي” ، مع ملاحظة: “هذا هو المكان الذي تنهار فيه الكثير من الأشياء”. لمهمة معقدة مثل الترميز ، على سبيل المثال ، يكاد يكون من المستحيل دمج كل سيناريو ممكن في مجموعة المشكلات الخاصة بك. نتيجةً لذلك ، من الصعب قياس ما إذا كان النموذج يسجل بشكل أفضل لأنه أكثر مهارة في الترميز أو لأنه قد تم معالجته بشكل أكثر فعالية. ومع وجود الكثير من الضغط على المطورين لتحقيق درجات قياسية ، يصعب مقاومة الاختصارات.

للمطورين ، الأمل هو أن النجاح في الكثير من المعايير المحددة سيضيف ما يصل إلى نموذج قادر بشكل عام. لكن تقنيات AICENCAL AI تعني أن نظام الذكاء الاصطناعي الواحد يمكن أن يشمل مجموعة معقدة من النماذج المختلفة ، مما يجعل من الصعب تقييم ما إذا كان التحسن في مهمة معينة سيؤدي إلى التعميم. يقول ساياش كابور ، عالم الكمبيوتر في برينستون وناقد بارز للممارسات البطيئة في صناعة الذكاء الاصطناعي: “هناك الكثير من المقابض التي يمكنك تشغيلها”. “عندما يتعلق الأمر بالوكلاء ، فقد استسلموا نوعًا ما عن أفضل الممارسات للتقييم.”

في”https://arxiv.org/abs/2407.01502″> ورقة من يوليو الماضي ، استدعى كابور مشكلات محددة في كيفية اقتراب نماذج الذكاء الاصطناعى من معيار Webarena ،”https://webarena.dev/”> صممه باحثو جامعة كارنيجي ميلون في عام 2024 كاختبار لقدرة وكيل AI على اجتياز الويب. يتكون المعيار من أكثر من 800 مهمة يتم تنفيذها على مجموعة من المواقع المستنسخة التي تحاكي Reddit و Wikipedia وغيرها. حدد كابور وفريقه اختراقًا واضحًا في النموذج الفائز ، يسمى الخطوة. تضمنت الخطوة تعليمات محددة حول كيفية قيام Reddit بإنشاء عناوين URL ، مما يسمح للطرز بالانتقال مباشرة إلى صفحة ملف تعريف المستخدم المعطى (عنصر متكرر في مهام Webarena).

لم يكن هذا الاختصار غشًا تمامًا ، لكن كابور يرى أنه “تحريف خطير لمدى نجاح الوكيل الذي شاهدته المهام في Webarena لأول مرة.” نظرًا لأن هذه التقنية كانت ناجحة ، فقد تم تبني سياسة مماثلة من قبل شركة Openai’s Web Agent. (“تم تصميم إعداد التقييم الخاص بنا لتقييم مدى جودة العميل الذي يمكنه حل المهام نظرًا لبعض التعليمات حول هياكل موقع الويب وتنفيذ المهام” ، قال ممثل Openai عند التوصل إليه للتعليق. “هذا النهج يتسق مع كيفية استخدام الآخرين وأبلغوا عن نتائج مع Webarena.” لم تستجب الخطوة لطلب التعليق.)

يسلط الضوء على المشكلة مع معايير الذكاء الاصطناعى ، أواخر الشهر الماضي كابور وفريق من الباحثين”https://arxiv.org/pdf/2504.20879″> كتب ورقة كشفت عن مشاكل كبيرة في chatbot Arena ، نظام التقييم المشهور. وفقا للورقة ، تم التلاعب بلوحة المتصدرين. كانت العديد من نماذج الأساس العليا تجري اختبارات خاصة غير معلنة وإطلاق درجاتها بشكل انتقائي.

اليوم ، حتى ImageNet نفسها ، والدة جميع المعايير ، بدأت في الوقوع ضحية لمشاكل الصلاحية.”https://proceedings.neurips.cc/paper_files/paper/2023/file/4eb33c53ed5b14ce9028309431f565cc-Paper-Datasets_and_Benchmarks.pdf”> دراسة 2023 من الباحثين في جامعة واشنطن وأبحاث Google ، وجد أنه عندما تم حرض خوارزميات ImageNet على ست مجموعات بيانات في العالم الحقيقي ، فإن تحسين الهندسة المعمارية “أدى إلى القليل من التقدم” ، مما يشير إلى أن الصلاحية الخارجية للاختبار قد وصلت إلى حدها.

يصبح أصغر

بالنسبة لأولئك الذين يعتقدون أن المشكلة الرئيسية هي الصلاحية ، فإن أفضل حل هو إعادة توصيل المعايير بمهام محددة. على حد تعبير Reuel ، يجب على مطوري الذكاء الاصطناعى “اللجوء إلى هذه المعايير عالية المستوى والتي لا معنى لها تقريبًا للمستهلكين في اتجاه مجرى النهر ، لأن المطورين القياسيين لا يستطيعون توقع مهمة المصب بعد الآن.” فماذا لو كانت هناك طريقة لمساعدة المستهلكين في اتجاه مجرى النهر على تحديد هذه الفجوة؟

في نوفمبر 2024 ، أطلقت Reuel مشروع تصنيف عام يسمى”https://betterbench.stanford.edu/”> BetterBench، والتي تصدر المعايير على العشرات من المعايير المختلفة ، مثل ما إذا كان قد تم توثيق المدونة علنًا. لكن الصلاحية هي موضوع رئيسي ، مع معايير معينة تتحدى المصممين لتوضيح القدرة على اختبار مؤشرهم وكيفية ارتباطها بالمهام التي تشكل المعيار.

يقول ريويل: “تحتاج إلى انهيار هيكلي للقدرات”. “ما هي المهارات الفعلية التي تهتم بها ، وكيف تقوم بتشغيلها في شيء يمكننا قياسه؟”

النتائج مفاجئة. واحدة من أعلى المعايير تسجيلات هي أيضًا أقدم: بيئة التعلم الممرات (ALE) ، التي تم تأسيسها في عام 2013 كوسيلة لاختبار قدرة النماذج على تعلم كيفية لعب مكتبة من ألعاب Atari 2600. واحدة من أدنى تسجيلات هو القياس الهائل لفهم اللغة متعددة المهام (MMLU) ، وهو اختبار يستخدم على نطاق واسع للمهارات اللغوية العامة ؛ وفقًا لمعايير BetterBench ، كانت العلاقة بين الأسئلة والمهارة الأساسية غير محددة للغاية.

لم يكن BetterBench يعني الكثير بالنسبة لسمعة معايير محددة ، على الأقل ليس بعد ؛ لا يزال MMLU يستخدم على نطاق واسع ، وما زالت البيرة هامشية. لكن المشروع قد نجح في دفع الصلاحية في المحادثة الأوسع حول كيفية إصلاح المعايير. في أبريل ، انضم Reuel بهدوء”https://evaleval.github.io/”> مجموعة بحثية جديدة استضافتها Hugging Face ، جامعة إدنبرة ، وإليوثراي ، حيث ستقوم بتطوير أفكارها حول الصلاحية وتقييم نموذج الذكاء الاصطناعي مع شخصيات أخرى في هذا المجال. (من المتوقع إعلان رسمي في وقت لاحق من هذا الشهر.)

إيرين سوليمان ، هو يقول رئيس السياسة العالمية في Goging Face ، إن المجموعة ستركز على بناء معايير صالحة تتجاوز قياس القدرات المباشرة. يقول سوليمان: “هناك الكثير من الجوع لقياس جيد قبالة الرف الذي يعمل بالفعل”. “يحاول الكثير من التقييمات فعل الكثير.”

على نحو متزايد ، يبدو أن بقية الصناعة توافق. في”https://arxiv.org/pdf/2503.05336″> ورقة في مارس، وضع باحثون من Google و Microsoft و Anthropic وغيرهم إطارًا جديدًا لتحسين التقييمات – مع الصلاحية كخطوة أولى.

يقول الباحثون: “يجب على علم تقييم الذكاء الاصطناعي ،” تجاوز الادعاءات الحبيبية الخشنة حول “الذكاء العام” نحو المزيد من التدابير ذات الصلة بالتقدم في العالم الحقيقي. “

قياس الأشياء “اسفنجي”

للمساعدة في إجراء هذا التحول ، يتطلع بعض الباحثين إلى أدوات العلوم الاجتماعية. أ”https://arxiv.org/pdf/2502.00561″> ورقة الوظيفة فبراير جادل بأن “تقييم أنظمة GENAI هو تحدٍ لقياس العلوم الاجتماعية” ، على وجه التحديد ، تفريغ كيف يمكن تطبيق أنظمة الصلاحية المستخدمة في القياسات الاجتماعية على القياس من الذكاء الاصطناعي.

يشير المؤلفون ، الذي يعمل إلى حد كبير من قبل فرع الأبحاث في Microsoft ، لكنهم انضموا إلى الأكاديميين من ستانفورد وجامعة ميشيغان ، إلى المعايير التي يستخدمها علماء الاجتماع لقياس المفاهيم المتنازع عليها مثل الأيديولوجية والديمقراطية والتحيز الإعلامي. تم تطبيقها على معايير الذكاء الاصطناعي ، يمكن أن توفر تلك الإجراءات نفسها طريقة لقياس مفاهيم مثل “التفكير” و “كفاءة الرياضيات” دون الانزلاق إلى تعميمات ضبابية.

في أدب العلوم الاجتماعية ، من المهم بشكل خاص أن تبدأ المقاييس بتعريف صارم للمفهوم الذي يقاس بالاختبار. على سبيل المثال ، إذا كان الاختبار هو قياس مدى كون المجتمع الديمقراطي ، فإنه يحتاج أولاً إلى إنشاء تعريف لـ “مجتمع ديمقراطي” ثم إنشاء أسئلة ذات صلة بهذا التعريف.

لتطبيق هذا على معيار مثل Swe-Betic ، سيحتاج المصممون إلى تخصيص نهج التعلم الآلي الكلاسيكي ، وهو جمع مشاكل البرمجة من Github وإنشاء مخطط للتحقق من الإجابات على أنها حقيقية أو خاطئة. بدلاً من ذلك ، يحتاجون أولاً إلى تحديد ما يهدف هذا المعيار إلى قياسه (“القدرة على حل المشكلات التي تم وضع علامة عليها في البرمجيات” ، على سبيل المثال) ، وتحويل ذلك إلى Subskills (أنواع مختلفة من المشكلات أو أنواع البرامج التي يمكن أن يعالجها نموذج الذكاء الاصطناعي بنجاح) ، ثم تجميع الأسئلة التي تغطي بدقة المختلفين.

إنه تغيير عميق عن كيفية تعامل باحثو الذكاء الاصطناعى عادةً مع المعايير – ولكن بالنسبة للباحثين مثل Jacobs ، وهو مؤلف مشارك في ورقة فبراير ، هذا هو النقطة الأساسية. وتقول: “هناك عدم تطابق بين ما يحدث في صناعة التكنولوجيا وهذه الأدوات من العلوم الاجتماعية”. “لدينا عقود وعقود من التفكير في كيف نريد قياس هذه الأشياء اسفنجي عن البشر.”

على الرغم من أن الفكرة أحدثت تأثيرًا حقيقيًا في عالم الأبحاث ، إلا أنه كان بطيئًا في التأثير على الطريقة التي تستخدم بها شركات الذكاء الاصطناعى المعايير.

شهد الشهرين الأخيرين إصدارات جديدة من النماذج من Openai و Anthropic و Google و Meta ، وكلهما يميلون بشدة على معايير المعرفة متعددة الخيارات مثل MMLU-النهج الدقيق الذي يحاول باحثو الصلاحية تجاوزه. بعد كل شيء ، لا تزال الإصدارات النموذجية ، في معظمها ، حول إظهار الزيادات في الذكاء العام ، ولا تزال المعايير الواسعة تستخدم لدعم هذه المطالبات.

بالنسبة لبعض المراقبين ، هذا جيد بما فيه الكفاية. يقول الأستاذ في وارتون ، إيثان موليك ، إن المعايير “تدابير سيئة للأشياء ، ولكنها أيضًا ما لدينا”. ويضيف: “في الوقت نفسه ، تتحسن النماذج. يتم غفر الكثير من الخطايا بالتقدم السريع.”

في الوقت الحالي ، يبدو أن تركيز الصناعة الطويل الأمد على الذكاء العام الاصطناعي يزدهر على نهج أكثر تركيزًا على أساس الصلاحية. طالما أن نماذج الذكاء الاصطناعى يمكن أن تستمر في النمو في الذكاء العام ، فإن تطبيقات محددة لا تبدو مقنعة – حتى لو ترك الممارسون يعتمدون على الأدوات التي لم يعودوا يثقون بها تمامًا.

يقول Solaiman من Hugging Face: “هذا هو حبل مشدود الذي نسير فيه”. “من السهل للغاية إبعاد النظام ، لكن التقييمات مفيدة حقًا في فهم نماذجنا ، حتى مع هذه القيود.”

راسل براندوم هو كاتب مستقل يغطي الذكاء الاصطناعي. يعيش في بروكلين مع زوجته والقطط.

تم دعم هذه القصة بمنحة من مركز تاربيل لصحافة الذكاء الاصطناعي.

اقرأ المزيد

جدول زمني لخرق بيانات SKT العملاق في كوريا الجنوبية
تم تعيين Openai لتفاخر 3 مليارات دولار على أداة ترميز الذكاء الاصطناعى Windsurf حيث يتطلع مخترع ChatGPT إلى جعل المبرمجين أكثر توترًا قليلاً

Reactions

0
0
0
0
0
0
بالفعل كان رد فعل لهذا المنصب.

ردود الفعل