من فضلك تسجيل الدخول أو تسجيل لتفعل ذلك.

ستخبرك شركات مثل OpenAI وGoogle أن الخطوة الكبيرة التالية في تجارب الذكاء الاصطناعي التوليدية قد اقتربت.”https://bgr.com/tech/openai-releases-new-o1-ai-its-first-model-capable-of-reasoning/”> ترقية معاينة o1 الكبيرة لـ ChatGPT يهدف إلى إثبات تجربة الجيل التالي. من المفترض أن تكون معاينة o1، المتاحة لـ ChatGPT Plus والمشتركين المتميزين الآخرين، سببًا في ذلك. يجب أن تكون أداة الذكاء الاصطناعي هذه أكثر فائدة عند محاولة إيجاد حلول للأسئلة المعقدة التي تتطلب تفكيرًا معقدًا.

ولكن إذا كانت ورقة AI جديدة من”http://bgr.com/tag/apple/”> أبل إذا كان الباحثون على حق في استنتاجاتهم، فإن ChatGPT o1 وجميع نماذج genAI الأخرى لا يمكنها التفكير فعليًا. وبدلاً من ذلك، فهم يقومون ببساطة بمطابقة الأنماط من مجموعات بيانات التدريب الخاصة بهم. إنهم جيدون جدًا في التوصل إلى الحلول والأجوبة، نعم. ولكن هذا فقط لأنهم رأوا مشاكل مماثلة ويمكنهم التنبؤ بالإجابة.

تُظهر دراسة الذكاء الاصطناعي التي أجرتها Apple أن تغيير المتغيرات التافهة في مسائل الرياضيات التي لا تخدع الأطفال أو إضافة نص لا يغير كيفية حل المشكلة يمكن أن يؤثر بشكل كبير على الأداء المنطقي لنماذج اللغات الكبيرة.

أبل”_blank” rel=”noopener” href=”https://machinelearning.apple.com/research/gsm-symbolic”>دراسة، متاح كنسخة ما قبل الطباعة”_blank” rel=”noopener” href=”https://arxiv.org/pdf/2410.05229″> على هذا الرابط، تفاصيل أنواع التجارب التي أجراها الباحثون لمعرفة كيف سيختلف الأداء الاستدلالي لمختلف درجات الماجستير في القانون. لقد نظروا إلى النماذج مفتوحة المصدر مثل Llama وPhi وGemma وMistral والنماذج الخاصة مثل ChatGPT o1-preview وo1 mini وGPT-4o.

التكنولوجيا. ترفيه. علوم. البريد الوارد الخاص بك.

قم بالتسجيل للحصول على أخبار التكنولوجيا والترفيه الأكثر إثارة للاهتمام.

بالتسجيل، أنا أوافق على”noopener” href=”https://pmc.com/terms-of-use/” الهدف=”_blank”> شروط الاستخدام وقد راجعت”noopener” href=”https://pmc.com/privacy-policy/” الهدف=”_blank”> إشعار الخصوصية.

ال”_blank” rel=”noopener” href=”https://techcrunch.com/2024/10/11/researchers-question-ais-reasoning-ability-as-models-stumble-on-math-problems-with-trivial-changes/”>الاستنتاجات متطابقة عبر الاختبارات: لا يستطيع حاملو ماجستير إدارة الأعمال التفكير في الأمر حقًا. وبدلاً من ذلك، يحاولون تكرار خطوات التفكير التي ربما شهدوها أثناء التدريب.

العلماء”_blank” rel=”noopener” href=”https://arstechnica.com/ai/2024/10/llms-cant-perform-genuine-logical-reasoning-apple-researchers-suggest/”> المتقدمة نسخة من”_blank” rel=”noopener” href=”https://huggingface.co/datasets/openai/gsm8k”>GSM8K المعيار، وهو عبارة عن مجموعة مكونة من أكثر من 8000 مسألة لفظية رياضية في المدارس الابتدائية يتم اختبار نماذج الذكاء الاصطناعي عليها. تضمنت اختبارات Apple، التي يطلق عليها اسم GSM-Symbolic، إجراء تغييرات بسيطة على المسائل الرياضية، مثل تعديل أسماء الشخصيات وعلاقاتها وأرقامها.

الصورة في التغريدة التالية تقدم مثالا على ذلك. “صوفي” هي الشخصية الرئيسية في مشكلة عد الألعاب. إن استبدال الاسم بشيء آخر وتغيير الأرقام لا ينبغي أن يغير أداء نماذج الذكاء الاصطناعي المنطقية”https://bgr.com/tag/chatgpt/”>الدردشةGPT. بعد كل شيء، لا يزال بإمكان تلميذ الصف حل المشكلة حتى بعد تغيير هذه التفاصيل.

“en” دير=”ltr”>3/ تقديم نظام GSM-Symbolic — أداتنا الجديدة لاختبار حدود ماجستير إدارة الأعمال في التفكير الرياضي. نقوم بإنشاء قوالب رمزية من”_blank” rel=”noopener” href=”https://twitter.com/hashtag/GSM8K?src=hash&ref_src=twsrc%5Etfw”>#GSM8K مجموعة الاختبار، مما يتيح توليد العديد من الحالات وتصميم تجارب يمكن التحكم فيها. نقوم بإنشاء 50 رمز GSM-Symbolic فريدًا…”_blank” rel=”noopener” href=”https://t.co/6lqH0tbYmX”>pic.twitter.com/6lqH0tbYmX— مهرداد فرجتابار (@MFarajtabar)”_blank” rel=”noopener” href=”https://twitter.com/MFarajtabar/status/1844456887158439999?ref_src=twsrc%5Etfw”>10 أكتوبر 2024

أظهر علماء شركة Apple أن متوسط ​​الدقة انخفض بنسبة تصل إلى 10% في جميع الطرز عند التعامل مع اختبار GSM-Symbolic. كان أداء بعض الطرز أفضل من غيرها، حيث انخفضت دقة GPT-4o من 95.2% في GSM9K إلى 94.9% في GSM-Symbolic.

“en” دير=”ltr”>8/ وهذا يطرح السؤال: هل هذه النماذج تفهم حقًا المفاهيم الرياضية؟ تقديم”_blank” rel=”noopener” href=”https://twitter.com/hashtag/GSM_NoOp?src=hash&ref_src=twsrc%5Etfw”>#GSM_NoOp! نضيف عبارة واحدة تبدو ذات صلة ولكنها لا تساهم في المنطق العام (وبالتالي “no-op”). تحقق من ما سيحدث بعد ذلك!”_blank” rel=”noopener” href=”https://t.co/P3I4kyR56L”>pic.twitter.com/P3I4kyR56L— مهرداد فرجتابار (@MFarajtabar)”_blank” rel=”noopener” href=”https://twitter.com/MFarajtabar/status/1844456900290863569?ref_src=twsrc%5Etfw”>10 أكتوبر 2024

وهذا ليس الاختبار الوحيد الذي أجرته شركة آبل. كما قاموا بتزويد الذكاء الاصطناعي بمسائل رياضية تتضمن عبارات لم تكن ذات صلة بحل المشكلة.

اقرأ المزيد

تعلن Google عن ترقيات الذكاء الاصطناعي إلى Google Shopping
مراجعة Google TV Streamer: أفضل ما يمكن الحصول عليه من Google TV

Reactions

0
0
0
0
0
0
بالفعل كان رد فعل لهذا المنصب.

ردود الفعل