افتتاحية: مقارنة قدرات ChatGPT مع البدائل بما في ذلك Anthropic's Claude 2 و Google's Bard و Meta's Llama2

افتتاحية: مقارنة قدرات ChatGPT مع البدائل بما في ذلك Anthropic’s Claude 2 و Google’s Bard و Meta’s Llama2 ليام أكيبا رايت. منذ 21 ساعة · 4 دقائق للقراءة

كيف تقارن نماذج اللغات الناشئة الأخرى بـ ChatGPT على قدرات التفكير الرياضي المركزة؟

4 دقائق للقراءة

محدث: 21 يوليو 2023 الساعة 4:08 مساءً

صورة الغلاف / الرسم التوضيحي عبر CryptoSlate

كما سبق ذكرت، يكشف بحث جديد عن تناقضات في نماذج ChatGPT بمرور الوقت. أ ستانفورد وجامعة كاليفورنيا في بيركلي حللت الدراسة إصدارات مارس ويونيو من GPT-3.5 و GPT-4 في مهام متنوعة. تظهر النتائج انحرافات كبيرة في الأداء ، حتى خلال بضعة أشهر فقط.

المصدر: جامعة ستانفورد وجامعة كاليفورنيا في بيركلي

على سبيل المثال ، انخفضت دقة الأرقام الأولية لـ GPT-4 من 97.6٪ إلى 2.4٪ بين مارس ويونيو بسبب المشكلات التي تتبع الاستدلال التدريجي. كما ازداد إحجام GPT-4 عن الإجابة على الأسئلة الحساسة بشكل مباشر ، حيث انخفضت معدلات الاستجابة من 21٪ إلى 5٪. ومع ذلك ، فقد قدمت مبررات أقل للرفض.

قام كل من GPT-3.5 و GPT-4 بإنشاء رمز buggier في يونيو مقارنة بشهر مارس. انخفضت النسبة المئوية لمقتطفات Python القابلة للتنفيذ بشكل كبير بسبب النصوص الإضافية غير البرمجية.

بينما تحسن التفكير البصري بشكل عام ، تغيرت الأجيال لنفس الألغاز بشكل غير متوقع بين التواريخ. تثير التناقضات الكبيرة على مدى فترات قصيرة مخاوف بشأن الاعتماد على هذه النماذج للاستخدامات الحساسة أو المهمة الحرجة دون اختبار مستمر.

خلص الباحثون إلى أن النتائج تسلط الضوء على الحاجة إلى المراقبة المستمرة لنماذج ChatGPT حيث يتطور سلوكهم عبر مقاييس مثل الدقة والسلامة والمتانة.

تجعل عملية التحديث غير الشفافة الاختبارات الصارمة مهمة لفهم التحولات في الأداء بمرور الوقت.

هل ChatGPT أسوأ من المنافسين الآن؟

كريبتوسليت أجرى تجربة داخلية صغيرة باستخدام ChatGPT Plus (GPT-4) و OpenAI API (GPT-4) و Anthropic (Claude 2) و Google (Bard) باستخدام الموجه الأساسي المستخدم في جزء من البحث ،

“هل 17077 عدد أولي؟”

تم استخدام الموجه في كل نموذج مع مطالبات انعكاس إضافية كما هو موضح أدناه.

ChatGPT و OpenAI API

عند تلقي المطالبة ، أجاب ChatGPT و OpenAI API بـ “لا” وهلوسة في الرياضيات. توضح الصورة أدناه تفاصيل المحادثة ، حيث يتعذر على النموذج تحديد 17077 كرقم أولي حتى بعد عدة انعكاسات.

OpenAI API

لنكون واضحين ، 13 × 1313 تساوي 17،069.

لم تتمكن واجهة OpenAI GPT4 API من الوصول إلى هذا الاستنتاج حتى طُلب منها على وجه التحديد حساب 13 × 1313 لاكتشاف أن الإجابة ليست 17077 كما هو مذكور.

كلود أنثروبيك 2

لكن، أنثروبيك أظهر كلود 2 عملية حل المشكلات من خلال إجراء العمليات الحسابية قبل تقديم الإجابة الصحيحة.

كلود الأنثروبي 2

كريبتوسليت ثم طلب من كلود 2 أداء نفس المهمة دون إظهار الإجراءات في نافذة دردشة جديدة. أعطى كلود 2 إجابة قوية ، رافضًا الالتزام مع تقديم نظرة ثاقبة إضافية للحل.

“لسوء الحظ لا يمكنني تحديد ما إذا كان 17077 عددًا أوليًا دون إظهار بعض العمل. ومع ذلك ، يمكنني أن أؤكد أن الرقم 17077 لا يقبل القسمة على أي عدد أولي أقل من 121 ، مما يوحي بقوة أنه قد يكون عددًا أوليًا “.

جوجل بارد

جوجل بارد عالج السؤال باستراتيجية مشابهة لـ Claude 2. ومع ذلك ، بدلاً من التعامل مع مشكلة النص ، قام بتشغيل بعض تعليمات Python البرمجية الأساسية. علاوة على ذلك ، يبدو أن بارد استخدم معلومات من موقع إلكتروني ذي رقم أولي وويكيبيديا في حلها. ومن المثير للاهتمام أن الصفحة المقتبسة من موقع الأعداد الأولية ، primenumbers.info ، تضمنت فقط معلومات حول الأعداد الأولية الأخرى ، وليس 17077.

جوجل بارد

اللاما ميتا 2

ومن المثير للاهتمام، ميتا تم إصدار 70 مليار معلمة من نموذج مفتوح المصدر Llama2 تم إجراءه بشكل مشابه لـ GPT4 في كريبتوسليت اختبار محدود.

ميتا لاما 2

ومع ذلك ، عندما يُطلب من Llama2 التفكير في عمله وإظهاره ، يمكنه فك شفرة أن 17077 هو رقم أولي ، على عكس إصدارات GPT4 المتاحة حاليًا.

ومع ذلك ، فإن التحذير هو أن اللاما استخدمت طريقة غير كاملة للتحقق من الأعداد الأولية. لقد فشل في حساب الأعداد الأولية الأخرى حتى الجذر التربيعي لـ 17077.

لذلك ، فشلت اللاما تقنيًا بنجاح.

إصدار GPT4-0613 في 13 يونيو 2023

كريبتوسليت اختبرت أيضًا اللغز الرياضي ضد نموذج GPT4-0613 (إصدار يونيو) وتلقى نفس النتيجة. اقترح النموذج أن 17077 ليس عددًا أوليًا في استجابته الأولى. علاوة على ذلك ، عندما طُلب منها إظهار عملها ، استسلمت في النهاية. وخلصت إلى أن الرقم المعقول التالي يجب أن يقبل القسمة على 17077 وذكرت أنه ، بالتالي ، ليس عددًا أوليًا.

وبالتالي ، يبدو أن المهمة لم تكن ضمن قدرات GPT4 التي تعود إلى 13 يونيو. الإصدارات الأقدم من GPT4 غير متاحة حاليًا للجمهور ولكن تم تضمينها في ورقة البحث.

مترجم الكود

ومن المثير للاهتمام أن ChatGPT ، مع ميزة “Code Interpreter” ، أجاب بشكل صحيح في أول محاولة له في اختبار CryptoSlate.

مترجم كود OpenAI GPT4

استجابة OpenAI وتأثير النموذج

رداً على الادعاءات بأن نماذج OpenAI مهينة ، The Economic Times ذكرتونفى بيتر ويلندر ، نائب رئيس منتج OpenAI ، هذه الادعاءات ، مؤكدًا أن كل إصدار جديد أكثر ذكاءً من الإصدار السابق. واقترح أن الاستخدام الكثيف يمكن أن يؤدي إلى تصور الفعالية المنخفضة حيث يتم ملاحظة المزيد من المشكلات بمرور الوقت.

ومن المثير للاهتمام أن دراسة أخرى من باحثو ستانفورد المنشور في JAMA Internal Medicine وجد أن أحدث إصدار من ChatGPT تفوق بشكل كبير على طلاب الطب في أسئلة امتحان التفكير السريري الصعبة.

سجل روبوت الدردشة AI أعلى في المتوسط بأكثر من 4 نقاط من طلاب السنتين الأولى والثانية في أسئلة مفتوحة قائمة على حالة تتطلب تحليل التفاصيل وتكوين إجابات شاملة.

وبالتالي ، فإن الانخفاض الواضح في أداء ChatGPT في مهام محددة يسلط الضوء على تحديات الاعتماد فقط على نماذج اللغة الكبيرة دون اختبارات صارمة مستمرة. في حين أن الأسباب الدقيقة لا تزال غير مؤكدة ، فإنها تؤكد على الحاجة إلى المراقبة المستمرة وقياس الأداء مع تطور أنظمة الذكاء الاصطناعي هذه بسرعة.

مع استمرار التطورات في تحسين استقرار واتساق نماذج الذكاء الاصطناعي هذه ، يجب على المستخدمين الحفاظ على منظور متوازن على ChatGPT ، مع الاعتراف بنقاط قوتها مع البقاء على دراية بحدودها.

أحدث منظمة العفو الدولية القصص

تصريحات صحفيه

اقرأ أكثر

افتتاحية: مقارنة قدرات ChatGPT مع البدائل بما في ذلك Anthropic’s Claude 2 و Google’s Bard و Meta’s Llama2

هل ChatGPT أسوأ من المنافسين الآن؟

ChatGPT و OpenAI API

كلود أنثروبيك 2

جوجل بارد

اللاما ميتا 2

إصدار GPT4-0613 في 13 يونيو 2023

مترجم الكود

استجابة OpenAI وتأثير النموذج

أحدث منظمة العفو الدولية القصص

تصريحات صحفيه

Reactions

ردود الفعل