تكشف دراسة Apple عن خلل كبير في الذكاء الاصطناعي في OpenAI وGoogle وMeta LLMs

قد لا تكون مهاراتهم المنطقية متقدمة كما تبدو.

وجد الباحثون بعض العيوب الفادحة في مهارات التفكير لدى ماجستير إدارة الأعمال.الائتمان: جاكوب بورزيكي / نورفوتو / غيتي إيماجز

قد لا تكون نماذج اللغات الكبيرة (LLMs) ذكية كما تبدو، وفقًا لـ أ”https://arxiv.org/pdf/2410.05229″ الهدف=”_blank” data-ga-click=”1″ data-ga-element=”offer” data-ga-label=”$text” data-ga-item=”text-link” data-ga-module=”content_body” العنوان=”(opens in a new window)”>دراسة من”https://mashable.com/category/apple” الهدف=”_self” data-ga-click=”1″ data-ga-element=”offer” data-ga-label=”$text” data-ga-item=”text-link” data-ga-module=”content_body”> أبل الباحثين.

تم الإشادة بطلاب ماجستير إدارة الأعمال من OpenAI وGoogle وMeta وغيرهم لمهاراتهم المنطقية الرائعة. لكن الأبحاث تشير إلى أن ذكائهم المزعوم قد يكون أقرب إلى ذلك “sophisticated pattern matching” من “true logical reasoning.” نعم، حتى OpenAI”https://mashable.com/article/openai-releases-project-strawberry-o1-model?test_uuid=01iI2GpryXngy77uIpA3Y4B&test_variant=b” الهدف=”_self” data-ga-click=”1″ data-ga-element=”offer” data-ga-label=”$text” data-ga-item=”text-link” data-ga-module=”content_body”>o1 نموذج الاستدلال المتقدم.

المعيار الأكثر شيوعًا لمهارات التفكير المنطقي هو اختبار يسمى GSM8K، ولكن نظرًا لأنه شائع جدًا، فهناك خطر تلوث البيانات. وهذا يعني أن طلاب ماجستير القانون قد يعرفون إجابات الاختبار لأنهم تم تدريبهم على تلك الإجابات، وليس بسبب ذكائهم المتأصل.

ولاختبار ذلك، طورت الدراسة معيارًا جديدًا يسمى GSM-Symbolic والذي يحافظ على جوهر مشاكل الاستدلال، ولكنه يغير المتغيرات، مثل الأسماء والأرقام والتعقيد وإضافة معلومات غير ذات صلة. وما اكتشفوه كان مفاجئًا “fragility” في أداء LLM. اختبرت الدراسة أكثر من 20 نموذجًا، بما في ذلك OpenAI’s o1 وGPT-4o، وGemma 2 من Google، وMeta’s Llama 3. مع كل نموذج، انخفض أداء النموذج عند تغيير المتغيرات.

انخفضت الدقة ببضع نقاط مئوية عندما تم تغيير الأسماء والمتغيرات. وكما لاحظ الباحثون، كان أداء نماذج OpenAI أفضل من النماذج الأخرى مفتوحة المصدر. ومع ذلك اعتبر التباين “non-negligible,” مما يعني أنه لا ينبغي أن يحدث أي تباين حقيقي. ومع ذلك، أصبحت الأمور مثيرة للاهتمام حقًا عندما أضاف الباحثون “seemingly relevant but ultimately inconsequential statements” إلى المزيج.

سرعة الضوء ماشابل

ولاختبار الفرضية القائلة بأن طلاب ماجستير إدارة الأعمال اعتمدوا على مطابقة الأنماط أكثر من التفكير الفعلي، أضافت الدراسة عبارات زائدة عن الحاجة إلى مسائل الرياضيات لمعرفة كيفية تفاعل النماذج. على سبيل المثال، “Oliver picks 44 kiwis on Friday. Then he picks 58 kiwis on Saturday. On Sunday, he picks double the number of kiwis he did on Friday, but five of them were a bit smaller than average. How many kiwis does Oliver have?”

وما نتج عن ذلك هو انخفاض كبير في الأداء في جميع المجالات. حققت معاينة o1 الخاصة بـ OpenAI الأفضل، مع انخفاض الدقة بنسبة 17.5 بالمائة. لا يزال هذا سيئًا جدًا، ولكنه ليس سيئًا مثل نموذج Phi 3 من Microsoft الذي كان أداؤه أسوأ بنسبة 65 بالمائة.

في مثال الكيوي، قالت الدراسة إن طلاب LLM يميلون إلى طرح خمس حبات كيوي أصغر من المعادلة دون فهم أن حجم الكيوي لا علاقة له بالمشكلة. وهذا يدل على ذلك “models tend to convert statements to operations without truly understanding their meaning” مما يؤكد صحة فرضية الباحثين بأن طلاب ماجستير القانون يبحثون عن أنماط في مشاكل التفكير، بدلاً من فهم المفهوم بالفطرة.

لم تتقن الدراسة الكلمات حول النتائج التي توصلت إليها. نماذج الاختبار على المعيار الذي يتضمن معلومات غير ذات صلة “exposes a critical flaw in LLMs’ ability to genuinely understand mathematical concepts and discern relevant information for problem-solving.” ومع ذلك، تجدر الإشارة إلى أن مؤلفي هذه الدراسة يعملون لصالح شركة Apple التي من الواضح أنها منافس رئيسي لـ Google وMeta وحتى OpenAI – على الرغم من وجود شراكة بين Apple وOpenAI، إلا أن Apple تعمل أيضًا على نماذج الذكاء الاصطناعي الخاصة بها.

ومع ذلك، لا يمكن تجاهل النقص الواضح في مهارات التفكير الرسمية لدى حاملي شهادة الماجستير في القانون. في نهاية المطاف، يعد هذا بمثابة تذكير جيد للتخفيف من حدة الضجيج حول الذكاء الاصطناعي من خلال الشك الصحي.

سيسلي هي مراسلة تقنية في Mashable وتغطي الذكاء الاصطناعي وApple واتجاهات التكنولوجيا الناشئة. قبل حصولها على درجة الماجستير من كلية كولومبيا للصحافة، أمضت عدة سنوات في العمل مع الشركات الناشئة والشركات ذات التأثير الاجتماعي لصالح Unreasonable Group وB Lab. وقبل ذلك، شاركت في تأسيس شركة استشارية للشركات الناشئة لمراكز ريادة الأعمال الناشئة في أمريكا الجنوبية وأوروبا وآسيا. يمكنك العثور عليها على تويتر في”https://twitter.com/cecily_mauran” الهدف=”_blank” data-ga-click=”1″ data-ga-element=”offer” data-ga-label=”$text” data-ga-item=”text-link” data-ga-module=”content_body” العنوان=”(opens in a new window)”>@cecily_mauran.

قد تحتوي هذه النشرة الإخبارية على إعلانات أو صفقات أو روابط تابعة. الاشتراك في النشرة الإخبارية يشير إلى موافقتك على”https://www.ziffdavis.com/terms-of-use” الهدف=”_blank” rel=”noopener” العنوان=”(opens in a new window)”> شروط الاستخدام و”https://www.ziffdavis.com/ztg-privacy-policy” الهدف=”_blank” rel=”noopener” العنوان=”(opens in a new window)”>سياسة الخصوصية. يمكنك إلغاء الاشتراك في النشرات الإخبارية في أي وقت.

اقرأ المزيد

تكشف دراسة Apple عن خلل كبير في الذكاء الاصطناعي في OpenAI وGoogle وMeta LLMs

Reactions

ردود الفعل