أداة جديدة من جوجل تتيح لنماذج اللغة الكبيرة التحقق من صحة ردودها

منذ أن ظهرت برامج الدردشة الآلية، كانت هذه البرامج تختلق أشياء. مثل هذه “الهلوسات” هي”https://www.technologyreview.com/2024/06/18/1093440/what-causes-ai-hallucinate-chatbots/”>الجزء المتأصل ولكن هذه النماذج تشكل مشكلة كبيرة للشركات التي تراهن على الذكاء الاصطناعي، مثل جوجل، لأنها تجعل الاستجابات التي يولدها الذكاء الاصطناعي غير موثوقة.

أطلقت شركة جوجل اليوم أداة جديدة لمعالجة هذه المشكلة. وتسمى الأداة DataGemma، وهي تستخدم طريقتين لمساعدة نماذج اللغة الكبيرة على التحقق من صحة إجاباتها مقابل بيانات موثوقة والاستشهاد بمصادرها بشكل أكثر شفافية للمستخدمين.

الطريقة الأولى من الطريقتين تسمى Retrieval-Interleaved Generation (RIG)، والتي تعمل كنوع من أداة التحقق من الحقائق. إذا طرح مستخدم سؤالاً على النموذج ــ مثل “هل زاد استخدام مصادر الطاقة المتجددة في العالم؟” ــ فسوف يقدم النموذج إجابة “مسودة أولى”. ثم تحدد RIG الأجزاء من مسودة الإجابة التي يمكن التحقق منها مقابل قاعدة بيانات جوجل.”https://datacommons.org/”>بيانات مشتركة، وهو عبارة عن مستودع ضخم للبيانات والإحصائيات من مصادر موثوقة مثل الأمم المتحدة أو مراكز السيطرة على الأمراض والوقاية منها. بعد ذلك، يقوم بإجراء هذه الفحوصات واستبدال أي تخمينات أصلية غير صحيحة بمعلومات صحيحة. كما يستشهد بمصادره للمستخدم.

الطريقة الثانية، والتي تستخدم عادة في نماذج اللغات الكبيرة الأخرى، تسمى التوليد المعزز بالاسترجاع (RAG). خذ في الاعتبار سؤالا مثل “ما التقدم الذي أحرزته باكستان في تحقيق أهداف الصحة العالمية؟” واستجابة لذلك، يفحص النموذج البيانات الموجودة في قاعدة البيانات المشتركة والتي قد تساعده في الإجابة على السؤال، مثل المعلومات حول الوصول إلى مياه الشرب الآمنة، والتطعيمات ضد التهاب الكبد الوبائي ب، ومتوسط العمر المتوقع. ومع وجود هذه الأرقام في متناول اليد، يبني النموذج إجابته على البيانات ويستشهد بمصادرها.

يقول بريم راماسوامي، رئيس قسم البيانات المشتركة في جوجل: “كان هدفنا هنا هو استخدام Data Commons لتعزيز منطق برامج الماجستير في القانون من خلال تأسيسها على بيانات إحصائية من العالم الحقيقي يمكنك الرجوع إليها من حيث حصلت عليها”. ويقول إن القيام بذلك “سيخلق ذكاء اصطناعيًا أكثر موثوقية وجدارة بالثقة”.

لا يزال هذا النظام متاحًا للباحثين فقط في الوقت الحالي، لكن راماسوامي يقول إن الوصول إليه قد يتسع بعد إجراء المزيد من الاختبارات. وإذا نجح الأمر كما هو متوقع، فقد يكون ذلك بمثابة نعمة حقيقية لخطة جوجل لتضمين الذكاء الاصطناعي بشكل أعمق في محرك البحث الخاص بها.

ولكن هذه الطريقة تأتي مع مجموعة من التحذيرات. أولاً، تقتصر فائدة هذه الطرق على ما إذا كانت البيانات ذات الصلة موجودة في قاعدة بيانات كومنز، والتي تعد بمثابة مستودع بيانات أكثر من كونها موسوعة. يمكنها أن تخبرك بالناتج المحلي الإجمالي لإيران، لكنها غير قادرة على تأكيد تاريخ معركة الفلوجة الأولى أو موعد إصدار تايلور سويفت لأحدث أغانيها. في الواقع، وجد باحثو جوجل أنه مع حوالي 75٪ من أسئلة الاختبار، لم تتمكن طريقة RIG من الحصول على أي بيانات قابلة للاستخدام من قاعدة بيانات كومنز. وحتى إذا كانت البيانات المفيدة موجودة بالفعل في قاعدة بيانات كومنز، فإن النموذج لا يصوغ دائمًا الأسئلة الصحيحة للعثور عليها.

ثانيًا، هناك مسألة الدقة. عند اختبار طريقة RAG، وجد الباحثون أن النموذج أعطى إجابات غير صحيحة بنسبة 6% إلى 20% من الوقت. وفي الوقت نفسه، استخرجت طريقة RIG الإحصائية الصحيحة من Data Commons بنسبة 58% فقط من الوقت (على الرغم من أن هذا يمثل تحسنًا كبيرًا مقارنة بمعدل دقة 5% إلى 17% لنماذج اللغة الكبيرة من Google عندما تكون لا (pinging بيانات مشتركة).

يقول راماسوامي إن دقة DataGemma ستتحسن مع تدريبها على المزيد والمزيد من البيانات. تم تدريب الإصدار الأولي على حوالي 700 سؤال فقط، وتطلب ضبط النموذج بدقة من فريقه التحقق يدويًا من كل حقيقة فردية تم إنشاؤها. لتحسين النموذج بشكل أكبر، يخطط الفريق لزيادة مجموعة البيانات هذه من مئات الأسئلة إلى ملايين.

اقرأ المزيد

أداة جديدة من جوجل تتيح لنماذج اللغة الكبيرة التحقق من صحة ردودها

Reactions

ردود الفعل