كشفت Swe-Polybench من Amazon عن السر القذر عن مساعد ترميز الذكاء الاصطناعي الخاص بك

23 أبريل 2025 12:00 مساءً

الائتمان: VentureBeat مصنوع من Midjourney

“content”>

انضم إلى النشرات الإخبارية اليومية والأسبوعية للحصول على أحدث التحديثات والمحتوى الحصري على تغطية الذكاء الاصطناعى الرائدة في الصناعة.”https://venturebeat.com/newsletters/?utm_source=VBsite&utm_medium=desktopNav” نوع البيانات=”link” معرف البيانات=”https://venturebeat.com/newsletters/?utm_source=VBsite&utm_medium=desktopNav”> تعرف على المزيد

Amazon Web Services قدم اليوم”https://aws.amazon.com/blogs/devops/amazon-introduces-swe-polybench-a-multi-lingual-benchmark-for-ai-coding-agents/”> Swe-Polybench، معيار شامل متعدد اللغة مصمم لتقييم مساعدي ترميز الذكاء الاصطناعى عبر مجموعة متنوعة من لغات البرمجة وسيناريوهات العالم الحقيقي. ال”https://amazon-science.github.io/SWE-PolyBench/”> المعيار يعالج القيود المهمة في أطر التقييم الحالية ويقدم للباحثين والمطورين طرقًا جديدة لتقييم مدى فعالية وكلاء الذكاء الاصطناعى في التنقل في قواعد الكود المعقدة.

“لديهم الآن معيار يمكنهم تقييمه لتقييم ما إذا كان وكلاء الترميز قادرين على حل مهام البرمجة المعقدة” ، قال”https://www.amazon.science/author/anoop-deoras”> أنوب ديوراس، مدير العلوم التطبيقية لتطبيقات الذكاء الاصطناعي وتجارب المطورين في AWS ، في مقابلة مع VentureBeat. “يوفر لك العالم الحقيقي مهامًا أكثر تعقيدًا. من أجل إصلاح خطأ أو بناء ميزات ، تحتاج إلى لمس ملفات متعددة ، بدلاً من ملف واحد.”

يأتي هذا الإصدار في الوقت الذي انفجرت فيه أدوات الترميز التي تعمل بذات منظمة العفو الدولية في شعبية ، مع دمجها شركات التكنولوجيا الرئيسية في بيئات التنمية والمنتجات المستقلة. في حين أن هذه الأدوات تُظهر إمكانات مثيرة للإعجاب ، إلا أن تقييم أدائها ظل يمثل تحديًا – خاصةً عبر لغات البرمجة المختلفة وتعقيد المهام المختلفة.

Swe-Polybench يحتوي على أكثر من 2000 تحدٍ للترميز المنسق المستمدة من قضايا GitHub حقيقية تمتد أربع لغات: Java (165 مهمة) ، JavaScript (1،017 مهمة) ، TypeScript (729 مهمة) ، و Python (199 مهمة). يتضمن المعيار أيضًا مجموعة فرعية طبقية من 500 إصدار (SWE-PolyBench500) مصممة لتجريب أسرع.

“كان تنوع المهام وتنوع لغات البرمجة مفقودة” ، أوضح ديوراس عن المعايير الحالية. “في Swe-Bench اليوم ، لا يوجد سوى لغة برمجة واحدة ، Python ، وهناك مهمة واحدة: إصلاحات الأخطاء. في Polybench ، على عكس Swe-Bench ، قمنا بتوسيع هذا المعيار لتشمل ثلاث لغات إضافية.”

المعيار الجديد يعالج القيود مباشرة في”https://www.swebench.com/”> swe-bench، الذي برز كمعيار فعلي لتقييم وكيل الترميز مع أكثر من 50 مذكرات المتصدرين. على الرغم من دورها الرائد ، تركز Swe-Bench فقط على مستودعات Python ، وتتميز في الغالب بمهام تثبيت الأخطاء ، وهي تميل بشكل كبير نحو قاعدة كود واحدة-يمثل مستودع Django أكثر من 45 ٪ من جميع المهام.

“عن قصد ، قررنا أن يكون لدينا القليل من التمثيل لجافا سكريبت و typescript ، لأن لدينا محرك SWE التي لديها مهام بيثون بالفعل” ، أشار ديوراس. “لذا بدلاً من التمثيل على Python ، تأكدنا من أن لدينا ما يكفي من العروض لـ JavaScript و TypeScript بالإضافة إلى Java.”

لماذا لا تروي مقاييس التمرير/الفشل البسيطة القصة بأكملها عن أداء ترميز الذكاء الاصطناعي

ابتكار رئيسي في”https://aws.amazon.com/blogs/devops/amazon-introduces-swe-polybench-a-multi-lingual-benchmark-for-ai-coding-agents/”> Swe-Polybench هو تقديم مقاييس التقييم الأكثر تطوراً إلى ما وراء “معدل النجاح” التقليدي ، والذي يقيس ببساطة ما إذا كان التصحيح الذي تم إنشاؤه يحل بنجاح مشكلة الترميز.

وقال ديوراس: “تم تقييم عوامل الترميز هذه في المقام الأول من خلال المقياس المسمى معدل النجاح”. “معدل النجاح ، باختصار ، هو في الأساس مجرد نسبة من المهام التي نجحت في تطبيق التصحيح الذي ينتجه الوكلاء. لكن هذا الرقم هو إحصاء عالي للغاية ومجتمع.

تتضمن المقاييس الجديدة توطين مستوى الملف ، الذي يقيم قدرة الوكيل على تحديد الملفات التي تحتاج إلى تعديل داخل مستودع ، واسترجاع على مستوى شجرة بناء الجملة (CST) ، والذي يقيم مدى دقة العامل التي يمكن أن يحدد هياكل رمز محددة بدقة تتطلب تغييرات.

“بالإضافة إلى معدل النجاح ، لدينا الدقة والاستدعاء. ومن أجل الوصول إلى مقياس الدقة والاستدعاء ، فإننا نبحث في أداة تحليل البرنامج تسمى شجرة بناء الجملة الخرسانية” ، أوضح ديوراس. “إنه يخبرك كيف يتكون بنية الملف الأساسية الخاصة بك ، بحيث يمكنك النظر إلى عقدة الفصل ، وداخل تلك الفئة ، ما هي العقد والمتغيرات.”

كيف تظل بيثون مهيمنة بينما تعرض المهام المعقدة قيود الذكاء الاصطناعي

كشف تقييم أمازون للعديد من عوامل الترميز مفتوحة المصدر على SWE-Polybench عن عدة أنماط. تظل Python أقوى لغة لجميع العوامل التي تم اختبارها ، على الأرجح بسبب انتشارها في بيانات التدريب والمعايير الحالية. يتدهور الأداء مع زيادة تعقيد المهمة ، لا سيما عند الحاجة إلى التعديلات على ثلاثة ملفات أو أكثر.

تُظهر الوكلاء المختلفة نقاط قوة متفاوتة عبر فئات المهام. على الرغم من أن الأداء في مهام تثبيت الأخطاء ثابت نسبيًا ، إلا أن هناك تباينًا أكبر بين الوكلاء عند التعامل مع طلبات الميزات وإعادة إنشاء الكود.

وجد المعيار أيضًا أن المعلوماتية لبيانات المشكلات تؤثر بشكل كبير على معدلات النجاح ، مما يشير إلى أن أوصاف القضية الواضحة لا تزال حاسمة للمساعدة الفعالة في الذكاء الاصطناعي.

ماذا تعني Swe-Polybench لمطوري المؤسسات الذين يعملون عبر لغات متعددة

Swe-Polybench يصل إلى منعطف حرج في تطوير مساعدي ترميز الذكاء الاصطناعى. مع انتقال هذه الأدوات من بيئات الإنتاج التجريبية إلى بيئات الإنتاج ، تكثفت الحاجة إلى المعايير الصارمة والمتنوعة والممثلة.

“بمرور الوقت ، لم تطورت قدرات LLMS فحسب ، ولكن في الوقت نفسه ، أصبحت المهام أكثر تعقيدًا”. “هناك حاجة للمطورين لحل المزيد من المهام أكثر تعقيدًا بطريقة متزامنة باستخدام هذه العوامل.”

إن دعم اللغة الموسع للمعايير يجعله ذا قيمة خاصة بالنسبة لبيئات المؤسسات حيث يكون تطوير Polyglot شائعًا. تحتل Java و JavaScript و TypeScript و Python باستمرار من بين لغات البرمجة الأكثر شعبية في إعدادات المؤسسات ، مما يجعل تغطية Swe-Polybench ذات صلة بدرجة كبيرة لسيناريوهات تطوير العالم الحقيقي.

جعلت Amazon إطار عمل Swe-Polybench بالكامل”https://amazon-science.github.io/SWE-PolyBench/”> متاح للجمهور. يمكن الوصول إلى مجموعة البيانات”https://huggingface.co/collections/AmazonScience/swe-polybench-67f41a0585f1ecaed5fa3aea”> معانقة الوجه، وتسخير التقييم متاح على”https://github.com/amazon-science/SWE-PolyBench”> github. مكرس”https://amazon-science.github.io/SWE-PolyBench/”> المتصدرين تم إنشاء لتتبع أداء عوامل الترميز المختلفة على المؤشر.

وقال ديوراس: “قمنا بتوسيع خط أنابيب الحصول على بيانات SWE-BECK لدعم هذه اللغات الثلاث الإضافية”. “الأمل هو أننا سنكون قادرين على استقراء هذه العملية بشكل أكبر في المستقبل ونمتد إلى ما وراء أربع لغات ، ويتجاوز المهام الثلاث التي تحدثت عنها ، بحيث يصبح هذا المعيار أكثر شمولاً.”

مع ارتفاع درجة حرارة سوق ترميز الذكاء الاصطناعى مع عروض من كل شركة تقنية رئيسية ، يوفر Swe-Polybench فحصًا حاسمًا على قدراتها الفعلية. يعترف تصميم Benchmark بأن تطوير البرمجيات في العالم الحقيقي يتطلب أكثر من إصلاحات الأخطاء البسيطة في Python-يتطلب العمل عبر اللغات ، وفهم الكود المعقدة ، ومعالجة التحديات الهندسية المتنوعة.

بالنسبة إلى صانعي القرار في المؤسسة الذين يقومون بتقييم أدوات ترميز الذكاء الاصطناعى ، يقدم Swe-Polybench شيئًا لا يقدر بثمن: طريقة لفصل الضجيج التسويقي عن القدرة التقنية الحقيقية. بعد كل شيء ، فإن الاختبار الحقيقي لمساعد ترميز الذكاء الاصطناعى ليس جيدًا في عروض تجريبية مبسطة ، ولكن ما إذا كان بإمكانه التعامل مع التعقيد الفوضوي متعدد اللغات لمشاريع البرمجيات الفعلية-يتصارع المطورون الكونيون كل يوم.

الرؤى اليومية حول حالات استخدام الأعمال مع VB يوميا

إذا كنت ترغب في إقناع رئيسك في العمل ، فقد غطيت VB Daily. نمنحك السبق الصحفي الداخلي على ما تفعله الشركات مع الذكاء الاصطناعي التوليدي ، من التحولات التنظيمية إلى عمليات النشر العملية ، حتى تتمكن من مشاركة رؤى لأقصى عائد على الاستثمار.

اقرأ لدينا”http://venturebeat.com/terms-of-service/”> سياسة الخصوصية

شكرا على الاشتراك. تحقق أكثر”http://venturebeat.com/newsletters/”> النشرات الإخبارية VB هنا.

حدث خطأ.

اقرأ المزيد

كشفت Swe-Polybench من Amazon عن السر القذر عن مساعد ترميز الذكاء الاصطناعي الخاص بك

لماذا لا تروي مقاييس التمرير/الفشل البسيطة القصة بأكملها عن أداء ترميز الذكاء الاصطناعي

كيف تظل بيثون مهيمنة بينما تعرض المهام المعقدة قيود الذكاء الاصطناعي

ماذا تعني Swe-Polybench لمطوري المؤسسات الذين يعملون عبر لغات متعددة

Reactions

ردود الفعل