لسوء الحظ، أنظمة الذكاء الاصطناعي غير موثوقة بطبيعتها. في غضون أيام من إصدار AI Overviews في الولايات المتحدة، كان المستخدمون يشاركون أمثلة على الردود التي كانت غريبة في أحسن الأحوال. واقترح أن المستخدمين أضف الغراء إلى البيتزا أو تناول صخرة صغيرة واحدة على الأقل يوميًاوذلك الرئيس الأمريكي الأسبق أندرو جونسون حصل على شهادات جامعية بين عامي 1947 و2012، رغم وفاته عام 1875.
يوم الخميس، قالت ليز ريد، رئيسة قسم بحث Google، أعلن أن الشركة تقوم بإجراء تحسينات فنية على النظام لتقليل احتمالية توليد إجابات غير صحيحة، بما في ذلك آليات اكتشاف أفضل للاستفسارات غير المنطقية. كما أنه يحد أيضًا من إدراج المحتوى الساخر والمضحك والمحتوى الذي ينشئه المستخدمون في الردود، نظرًا لأن هذه المواد قد تؤدي إلى نصائح مضللة.
ولكن لماذا تقوم ميزة AI Overviews بإرجاع معلومات غير موثوقة ومن المحتمل أن تكون خطرة؟ وما الذي يمكن فعله، إن وجد، لإصلاحه؟
كيف تعمل نظرة عامة على الذكاء الاصطناعي؟
لكي نفهم لماذا تخطئ محركات البحث المدعمة بالذكاء الاصطناعي في فهم الأمور، نحتاج إلى النظر في كيفية تحسينها للعمل. نحن يعرف تستخدم AI Overviews نموذجًا جديدًا للذكاء الاصطناعي في Gemini، وهي عائلة نماذج اللغات الكبيرة (LLM) من Google، والتي تم تخصيصها لبحث Google. وقد تم دمج هذا النموذج مع أنظمة تصنيف الويب الأساسية من Google وتم تصميمه لسحب النتائج ذات الصلة من فهرس مواقع الويب الخاصة به.
يتنبأ معظم طلاب LLM ببساطة بالكلمة (أو الرمز) التالية في التسلسل، مما يجعلهم يبدون بطلاقة ولكنه يتركهم أيضًا عرضة لاختلاق الأشياء. ليس لديهم حقيقة أساسية يعتمدون عليها، بل يختارون بدلاً من ذلك كل كلمة على أساس حساب إحصائي بحت. وهذا يؤدي إلى الهلوسة. من المحتمل أن نموذج Gemini في AI Overviews يتغلب على هذا باستخدام تقنية الذكاء الاصطناعي التي تسمى الجيل المعزز للاسترجاع (RAG)، والتي تسمح لـ LLM بالتحقق من مصادر محددة خارج البيانات التي تم تدريبها عليها، مثل صفحات ويب معينة، كما يقول شيراج شاه، الأستاذ بجامعة واشنطن والمتخصص في البحث عبر الإنترنت.
بمجرد قيام المستخدم بإدخال استعلام، يتم فحصه مقابل المستندات التي تشكل مصادر معلومات النظام، ويتم إنشاء استجابة. نظرًا لأن النظام قادر على مطابقة الاستعلام الأصلي مع أجزاء محددة من صفحات الويب، فإنه قادر على الاستشهاد بالمكان الذي استمد منه إجابته – وهو أمر لا يستطيع حاملو ماجستير إدارة الأعمال العاديون فعله.
أحد الجوانب الإيجابية الرئيسية لـ RAG هو أن الاستجابات التي تنشئها على استفسارات المستخدم يجب أن تكون أكثر حداثة وأكثر دقة من الناحية الواقعية وأكثر صلة من تلك الواردة من نموذج نموذجي يقوم فقط بإنشاء إجابة بناءً على بيانات التدريب الخاصة به. غالبًا ما تُستخدم هذه التقنية لمحاولة منع LLM من الهلوسة. (لم يؤكد المتحدث باسم Google ما إذا كانت AI Overviews تستخدم RAG.)
فلماذا يعود بإجابات سيئة؟
لكن RAG أبعد ما يكون عن المضمون. لكي يتمكن LLM الذي يستخدم RAG من التوصل إلى إجابة جيدة، يجب عليه استرداد المعلومات بشكل صحيح وإنشاء الاستجابة بشكل صحيح. تنتج الإجابة السيئة عند فشل أحد أجزاء العملية أو كليهما.
في حالة توصية AI Overviews بوصفة بيتزا تحتوي على غراء – مستمدة من منشور مزحة على Reddit – فمن المحتمل أن المنشور بدا ذا صلة باستعلام المستخدم الأصلي حول عدم التصاق الجبن بالبيتزا، ولكن حدث خطأ ما أثناء الاسترداد عملية، يقول شاه. ويقول: “لمجرد أنها ذات صلة لا يعني أنها صحيحة، وجزء التوليد من العملية لا يشكك في ذلك”.
وبالمثل، إذا واجه نظام RAG معلومات متضاربة، مثل دليل السياسة وإصدار محدث من نفس الدليل، فلن يتمكن من تحديد الإصدار الذي سيستمد استجابته منه. وبدلاً من ذلك، قد يتم دمج المعلومات من كليهما لإنشاء إجابة قد تكون مضللة.
تقول سوزان فيربيرن، الأستاذة في جامعة ليدن والمتخصصة في معالجة اللغة الطبيعية: “إن نموذج اللغة الكبير يولد لغة بطلاقة بناءً على المصادر المقدمة، لكن اللغة بطلاقة ليست مثل المعلومات الصحيحة”.
وتقول إنه كلما كان الموضوع أكثر تحديدًا، زادت فرصة التضليل في مخرجات نموذج اللغة الكبيرة، مضيفة: “هذه مشكلة في المجال الطبي، ولكن أيضًا في التعليم والعلوم”.
وفقًا للمتحدث باسم Google، في كثير من الحالات عندما تعرض AI Overviews إجابات غير صحيحة، يكون ذلك بسبب عدم توفر الكثير من المعلومات عالية الجودة المتاحة على الويب لعرضها للاستعلام – أو لأن الاستعلام يتطابق بشكل وثيق مع المواقع الساخرة أو منشورات النكتة.
يقول المتحدث إن الغالبية العظمى من نظرة عامة على الذكاء الاصطناعي توفر معلومات عالية الجودة وأن العديد من أمثلة الإجابات السيئة كانت استجابة لاستفسارات غير شائعة، مضيفًا أن نظرة عامة على الذكاء الاصطناعي التي تحتوي على محتوى قد يكون ضارًا أو فاحشًا أو غير مقبول بأي شكل آخر جاءت ردًا على أقل من واحد من كل 7 ملايين استعلامات فريدة من نوعها. تواصل Google إزالة AI Overviews في بعض الاستعلامات وفقًا لسياسات المحتوى الخاصة بها.
لا يتعلق الأمر فقط ببيانات التدريب السيئة
على الرغم من أن الخطأ الفادح في غراء البيتزا يعد مثالًا جيدًا على الحالة التي أشارت فيها AI Overviews إلى مصدر غير موثوق، إلا أن النظام يمكنه أيضًا إنشاء معلومات خاطئة من مصادر صحيحة بالفعل. بحثت ميلاني ميتشل، الباحثة في مجال الذكاء الاصطناعي في معهد سانتا في في نيو مكسيكو، في محرك البحث جوجل عن “كم عدد الأشخاص الذين يستخدمون الذكاء الاصطناعي؟” الرؤساء المسلمين “هل كان لدى الولايات المتحدة؟” ردت منظمة العفو الدولية: “كان للولايات المتحدة رئيس مسلم واحد، باراك حسين أوباما”.
في حين أن باراك أوباما ليس مسلمًا، مما يجعل رد فعل AI Overviews خاطئًا، إلا أنه استمد معلوماته من فصل في كتاب أكاديمي بعنوان باراك حسين أوباما: أول رئيس مسلم لأمريكا؟ لذلك، لم يكتف نظام الذكاء الاصطناعي بإغفال النقطة الكاملة للمقالة فحسب، بل فسرها على عكس الطريقة المقصودة تمامًا، كما يقول ميتشل. “هناك بعض المشاكل هنا بالنسبة للذكاء الاصطناعي؛ تضيف: “الأمر الأول هو العثور على مصدر جيد ليس مزحة، ولكن الآخر هو تفسير ما يقوله المصدر بشكل صحيح”. “هذا شيء تواجه أنظمة الذكاء الاصطناعي صعوبة في القيام به، ومن المهم ملاحظة أنه حتى عندما تحصل على مصدر جيد، فلا يزال من الممكن أن ترتكب أخطاء.”
هل يمكن حل المشكلة؟
في النهاية، نحن نعلم أن أنظمة الذكاء الاصطناعي غير موثوقة، وطالما أنها تستخدم الاحتمالات لإنشاء نص كلمة بكلمة، فإن الهلوسة ستكون دائمًا خطرًا. وعلى الرغم من أنه من المرجح أن تتحسن ميزة AI Overviews مع قيام Google بتعديلها خلف الكواليس، إلا أننا لا نستطيع التأكد من أنها ستكون دقيقة بنسبة 100%.
قالت Google إنها تضيف قيودًا محفزة للاستعلامات التي لم تثبت فيها “نظرات عامة على الذكاء الاصطناعي” أنها مفيدة بشكل خاص، وأضافت “تحسينات تحفيزية” إضافية للاستعلامات المتعلقة بالصحة. يقول فيربيرن إنه يمكن للشركة إضافة خطوة إلى عملية استرجاع المعلومات المصممة للإبلاغ عن استعلام محفوف بالمخاطر وجعل النظام يرفض إنشاء إجابة في هذه الحالات. يقول المتحدث باسم الشركة إن جوجل لا تهدف إلى عرض نظرة عامة على الذكاء الاصطناعي للمواضيع الصريحة أو الخطيرة، أو للاستفسارات التي تشير إلى موقف ضعيف.
تقنيات مثل التعلم المعزز من ردود الفعل البشرية، والتي تدمج هذه التعليقات في تدريب LLM، يمكن أن تساعد أيضًا في تحسين جودة إجاباتها.
وبالمثل، يمكن تدريب ماجستير إدارة الأعمال خصيصًا لمهمة تحديد متى لا يمكن الإجابة على سؤال ما، وقد يكون من المفيد أيضًا إرشادهم لتقييم جودة المستند المسترجع بعناية قبل إنشاء إجابة، يقول فيربين: “التعليمات المناسبة تساعد كثير!”
على الرغم من أن جوجل أضافت علامة إلى إجابات AI Overviews تقول “Generative AI is تجريبية”، إلا أنها يجب أن تفكر في توضيح أن الميزة في مرحلة تجريبية والتأكيد على أنها ليست جاهزة لتقديم إجابات موثوقة تمامًا، كما يقول شاه. “إلى أن لا يصبح إصدارًا تجريبيًا – وهو ما هو عليه حاليًا بالتأكيد، وسيظل كذلك لبعض الوقت – يجب أن يكون اختياريًا تمامًا. لا ينبغي فرضها علينا كجزء من البحث الأساسي.