من فضلك تسجيل الدخول أو تسجيل لتفعل ذلك.

إحدى نقاط البيع لنماذج الذكاء الاصطناعي التوليدية الرائدة من Google، الجوزاء 1.5 برو و 1.5 فلاش، هي كمية البيانات التي من المفترض أن يقوموا بمعالجتها وتحليلها. في الإحاطات الصحفية والعروض التوضيحية، زعمت جوجل مرارًا وتكرارًا أن النماذج يمكنها إنجاز مهام مستحيلة سابقًا بفضل “سياقها الطويل”، مثل تلخيص عدة مستندات مكونة من مئات الصفحات أو البحث عبر المشاهد في لقطات الفيلم.

لكن الأبحاث الجديدة تشير إلى أن النماذج ليست، في الواقع، جيدة جدًا في هذه الأشياء.

اثنين متفرق دراسات بحثت في مدى نجاح نماذج Gemini من Google وغيرها من النماذج في التعامل مع كمية هائلة من البيانات – فكر في نجاح “الحرب والسلام”. يجد كلاهما أن Gemini 1.5 Pro و1.5 Flash يكافحان للإجابة على الأسئلة المتعلقة بمجموعات البيانات الكبيرة بشكل صحيح؛ وفي سلسلة واحدة من الاختبارات المستندة إلى المستندات، أعطت النماذج الإجابة الصحيحة بنسبة 40% فقط في 50% من الوقت.

قالت مارزينا كاربينسكا، باحثة ما بعد الدكتوراه في جامعة ماساتشوستس أمهرست والمؤلفة المشاركة في إحدى الدراسات، لموقع TechCrunch: “بينما تستطيع نماذج مثل Gemini 1.5 Pro معالجة السياقات الطويلة من الناحية الفنية، فقد رأينا العديد من الحالات التي تشير إلى أن النماذج لا” تفهم “المحتوى فعليًا”.

نافذة سياق الجوزاء مفقودة

يشير سياق النموذج، أو نافذة السياق، إلى بيانات الإدخال (على سبيل المثال، النص) التي يأخذها النموذج في الاعتبار قبل إنشاء المخرجات (على سبيل المثال، نص إضافي). سؤال بسيط – “من فاز في الانتخابات الرئاسية الأمريكية لعام 2020؟” – يمكن أن يكون بمثابة سياق، كما يمكن أن يكون نص فيلم أو عرض أو مقطع صوتي. ومع نمو نوافذ السياق، يتزايد أيضًا حجم المستندات التي يتم وضعها فيها.

يمكن أن تستوعب أحدث الإصدارات من Gemini ما يزيد عن 2 مليون رمز كسياق. (“الرموز” هي أجزاء مقسمة من البيانات الأولية، مثل المقاطع “fan” و”tas” و”tic” في كلمة “fantastic”.) وهذا يعادل حوالي 1.4 مليون كلمة، أو ساعتين من الفيديو أو 22 ساعة من الصوت. – أكبر سياق لأي نموذج متاح تجاريًا.

في مؤتمر صحفي في وقت سابق من هذا العام، عرضت Google العديد من العروض التوضيحية المسجلة مسبقًا والتي تهدف إلى توضيح إمكانات Gemini ذات السياق الطويل. طلب أحدهم من برنامج Gemini 1.5 Pro البحث في نص البث التلفزيوني للهبوط على سطح القمر لمركبة أبولو 11 – حوالي 402 صفحة – بحثًا عن اقتباسات تحتوي على نكات، ثم العثور على مشهد في البث التلفزيوني يبدو مشابهًا لرسم بالقلم الرصاص.

ووصف نائب رئيس الأبحاث في Google DeepMind Oriol Vinyals، الذي قاد الإحاطة، النموذج بأنه “ساحر”.

“[1.5 Pro] “يقوم هذا النوع من المهام الاستدلالية عبر كل صفحة، وكل كلمة”، كما قال.

ربما كان هذا مبالغة.

في إحدى الدراسات المذكورة أعلاه التي تقارن هذه القدرات، طلبت كاربينسكا، إلى جانب باحثين من معهد ألين للذكاء الاصطناعي وجامعة برينستون، من النماذج تقييم عبارات صحيحة/خاطئة حول كتب الخيال المكتوبة باللغة الإنجليزية. اختار الباحثون أعمالاً حديثة حتى لا تتمكن النماذج من “الغش” بالاعتماد على المعرفة المسبقة، وزينوا العبارات بإشارات إلى تفاصيل محددة ونقاط حبكة من المستحيل فهمها دون قراءة الكتب بالكامل.

بالنظر إلى بيان مثل “باستخدام مهاراتها كأبوث، تتمكن نوسيس من إجراء هندسة عكسية لنوع البوابة التي يتم فتحها بواسطة مفتاح الكواشف الموجود في صندوق رونا الخشبي”، كان على جيميني 1.5 برو و1.5 فلاش – بعد تناول الكتاب ذي الصلة – أن يقولوا ما إذا كان البيان صحيحًا أم خاطئًا ويشرحوا منطقهم.

اعتمادات الصورة: يوماس أمهرست

بعد اختباره على كتاب يبلغ طوله حوالي 260 ألف كلمة (~520 صفحة)، وجد الباحثون أن برنامج 1.5 Pro أجاب على أسئلة الصواب والخطأ بشكل صحيح بنسبة 46.7% من الوقت بينما أجاب برنامج Flash بشكل صحيح بنسبة 20% فقط من الوقت. وهذا يعني أن العملة المعدنية أفضل بشكل ملحوظ في الإجابة على الأسئلة المتعلقة بالكتاب من أحدث نموذج للتعلم الآلي من Google. وبحساب متوسط ​​جميع نتائج المعايير، لم يتمكن أي من النموذجين من تحقيق دقة أعلى من الصدفة العشوائية من حيث دقة الإجابة على الأسئلة.

وقالت كاربينسكا: “لقد لاحظنا أن النماذج تواجه صعوبة أكبر في التحقق من الادعاءات التي تتطلب النظر في أجزاء أكبر من الكتاب، أو حتى الكتاب بأكمله، مقارنة بالادعاءات التي يمكن حلها عن طريق استرجاع الأدلة على مستوى الجملة”. “من الناحية النوعية، لاحظنا أيضًا أن النماذج تكافح من أجل التحقق من الادعاءات حول المعلومات الضمنية الواضحة للقارئ البشري ولكن لم يتم ذكرها صراحةً في النص.”

اختبرت الدراسة الثانية، التي شارك في تأليفها باحثون في جامعة كاليفورنيا في سانتا باربرا، قدرة Gemini 1.5 Flash (ولكن ليس 1.5 Pro) على “التفكير المنطقي” في مقاطع الفيديو – أي البحث في الأسئلة المتعلقة بالمحتوى الموجود فيها والإجابة عنها. .

قام المؤلفون المشاركون بإنشاء مجموعة بيانات من الصور (على سبيل المثال، صورة لكعكة عيد ميلاد) مقترنة بأسئلة للنموذج للإجابة عليها حول الأشياء الموضحة في الصور (على سبيل المثال، “ما هي شخصية الرسوم المتحركة الموجودة على هذه الكعكة؟”). لتقييم النماذج، اختاروا إحدى الصور عشوائيًا وأدخلوا صورًا “مشتتة” قبلها وبعدها لإنشاء لقطات تشبه عرض الشرائح.

لم يكن أداء الفلاش جيدًا. في اختبار قام فيه النموذج بنسخ ستة أرقام مكتوبة بخط اليد من “عرض شرائح” مكون من 25 صورة، نجح Flash في تسجيل حوالي 50% من النسخ بشكل صحيح. انخفضت الدقة إلى حوالي 30% بثمانية أرقام.

صرح مايكل ساكسون، طالب الدكتوراه في جامعة كاليفورنيا سانتا باربرا وأحد المشاركين في الدراسة، لموقع TechCrunch: “في مهام الإجابة على الأسئلة الحقيقية عبر الصور، يبدو الأمر صعبًا بشكل خاص بالنسبة لجميع النماذج التي اختبرناها. قد يكون هذا القدر الضئيل من التفكير – التعرف على وجود رقم في إطار وقراءته – هو ما يكسر النموذج”.

جوجل تبالغ في الوعود مع جيميني

لم تتم مراجعة أي من الدراستين من قبل النظراء، كما أنها لم تحقق في إصدارات Gemini 1.5 Pro و1.5 Flash مع سياقات مكونة من 2 مليون رمز مميز. (كلاهما اختبر إصدارات السياق التي تحتوي على مليون رمز مميز.) وليس من المفترض أن يكون Flash قادرًا مثل Pro من حيث الأداء؛ تعلن Google عنه كبديل منخفض التكلفة.

ومع ذلك، على حد سواء يشعل الموقف أن Google كانت تبالغ في تقديم الوعود – وتقلل من الأداء – مع Gemini من البدايةلم ينجح أي من النماذج التي اختبرها الباحثون، بما في ذلك نموذج OpenAI جي بي تي-4o والأنثروبولوجيا سونيت كلود 3.5لقد حققت أداءً جيدًا. ولكن جوجل هي المزود الوحيد للنماذج الذي يمنح نافذة السياق أعلى الفاتورة في إعلاناته.

قال ساكسون: “لا يوجد خطأ في الادعاء البسيط بأن نموذجنا يمكنه استيعاب عدد معين من الرموز بناءً على التفاصيل الفنية الموضوعية. لكن السؤال هو، ما هو الشيء المفيد الذي يمكنك القيام به بهذا؟”

بشكل عام، أصبح الذكاء الاصطناعي التوليدي يخضع لتدقيق متزايد مع تزايد إحباط الشركات (والمستثمرين) من القيود التي تفرضها التكنولوجيا.

فيزوج من المسوحات الأخيرة منفي دراسة أجرتها مجموعة بوسطن الاستشارية، قال حوالي نصف المشاركين – جميعهم من كبار المسؤولين التنفيذيين – إنهم لا يتوقعون أن يحقق الذكاء الاصطناعي التوليدي مكاسب إنتاجية كبيرة وأنهم قلقون بشأن احتمال حدوث أخطاء واختراقات للبيانات ناجمة عن أدوات مدعومة بالذكاء الاصطناعي التوليدي.تم الإبلاغ عنهأنه على مدى ربعين متتاليين، تراجعت عمليات إبرام صفقات الذكاء الاصطناعي في المراحل الأولى، حيث انخفضت بنسبة 76% عن ذروتها في الربع الثالث من عام 2023.

في مواجهة روبوتات الدردشة التي تلخص الاجتماعات والتي تستحضر تفاصيل خيالية عن الأشخاص ومنصات البحث بالذكاء الاصطناعي التي تعادل في الأساس مولدات الانتحال، يبحث العملاء عن عوامل تمييز واعدة. جوجل – التي تسابقت، في بعض الأحيان بشكل أخرق، للحاق بمنافسيها في مجال الذكاء الاصطناعي – كان يائسًا لجعل سياق الجوزاء واحدًا من تلك الفروق.

لكن الرهان كان سابقا لأوانه، على ما يبدو.

“لم نستقر بعد على طريقة لإثبات أن “الاستدلال” أو “الفهم” على وثائق طويلة يحدث بالفعل، وفي الأساس، تقوم كل مجموعة تنشر هذه النماذج بتجميع تقييماتها الخاصة لتقديم هذه الادعاءات”، كما قالت كاربينسكا. “بدون معرفة المدة التي يتم فيها تنفيذ معالجة السياق – والشركات لا تشارك هذه التفاصيل – فمن الصعب أن نقول مدى واقعية هذه الادعاءات”.

ولم تستجب جوجل لطلب التعليق.

يعتقد كل من ساكسون وكاربينسكا أن الترياق للمزاعم المبالغ فيها حول الذكاء الاصطناعي التوليدي هو معايير أفضل، وعلى نفس المنوال، التركيز بشكل أكبر على نقد الطرف الثالث. يلاحظ ساكسون أن أحد الاختبارات الأكثر شيوعًا للسياق الطويل (الذي تستشهد به جوجل بسخاء في موادها التسويقية)، “الإبرة في كومة القش”، يقيس فقط قدرة النموذج على استرجاع معلومات معينة، مثل الأسماء والأرقام، من مجموعات البيانات – وليس الإجابة على أسئلة معقدة حول هذه المعلومات.

وقال ساكسون: “إن جميع العلماء ومعظم المهندسين الذين يستخدمون هذه النماذج متفقون بشكل أساسي على أن ثقافة المعايير المرجعية الحالية لدينا مكسورة، لذلك من المهم أن يفهم الجمهور أنه يجب أخذ هذه التقارير العملاقة التي تحتوي على أرقام مثل “الذكاء العام عبر المعايير المرجعية” بحذر شديد”.

اقرأ أكثر

أحدث هذا الكمبيوتر القابل للارتداء بيانًا في عالم الموضة
يمكنك إضافة دعم HomeKit إلى باب المرآب الخاص بك: وإليك الطريقة

Reactions

0
0
0
0
0
0
بالفعل كان رد فعل لهذا المنصب.

ردود الفعل