VentureBeat/Ideogram
انضم إلى نشراتنا الإخبارية اليومية والأسبوعية للحصول على آخر التحديثات والمحتوى الحصري حول تغطية الذكاء الاصطناعي الرائدة في الصناعة.”https://venturebeat.com/newsletters/?utm_source=VBsite&utm_medium=desktopNav” نوع البيانات=”link” معرف البيانات=”https://venturebeat.com/newsletters/?utm_source=VBsite&utm_medium=desktopNav”> اعرف المزيد
الهلوسة، أو الاستجابات غير الدقيقة في الواقع، لا تزال تصيب النماذج اللغوية الكبيرة (LLMs). تتعثر النماذج بشكل خاص عندما يتم تكليفها بمهام أكثر تعقيدًا وعندما يبحث المستخدمون عن استجابات محددة ومفصلة للغاية.
إنه تحدٍ ناضل علماء البيانات للتغلب عليه، والآن الباحثون منه”https://deepmind.google/” الهدف=”_blank” rel=”noreferrer noopener”> جوجل ديب مايند يقولون إنهم اقتربوا خطوة من تحقيق الواقعية الحقيقية في نماذج الأساس. لقد قدموا FACTS Grounding، وهو معيار يقيّم قدرة حاملي شهادة الماجستير في إدارة الأعمال (LLM) على توليد استجابات دقيقة واقعية بناءً على مستندات طويلة. يتم الحكم على النماذج أيضًا بناءً على ما إذا كانت استجاباتها مفصلة بما يكفي لتقديم إجابات مفيدة وذات صلة للمطالبات.
جنبا إلى جنب مع المعيار الجديد، أصدر الباحثون أ”http://www.kaggle.com/facts-leaderboard” الهدف=”_blank” rel=”noreferrer noopener”> حقائق المتصدرين إلى مجتمع علوم البيانات Kaggle.
اعتبارًا من هذا الأسبوع، تصدرت لعبة Gemini 2.0 Flash قائمة المتصدرين، بنتيجة واقعية بلغت 83.6%. ومن بين الشركات الأخرى في المراكز التسعة الأولى، Gemini 1.0 Flash وGemini 1.5 Pro من Google؛ Anthropic’s Clade 3.5 Sonnet و كلود 3.5 هايكو؛ وGPT-4o و4o-mini وo1-mini وo1-preview من OpenAI. كل هذه الأمور حصلت على نسبة أعلى من 61.7% من حيث الدقة.
يقول الباحثون إنه سيتم الحفاظ على لوحة المتصدرين بشكل نشط وتحديثها باستمرار لتشمل نماذج جديدة وتكراراتها المختلفة.
“نعتقد أن هذا المعيار يسد فجوة في تقييم مجموعة واسعة من السلوكيات النموذجية المتعلقة بالواقعية، مقارنة بالمعايير التي تركز على حالات الاستخدام الأضيق … مثل التلخيص وحده”، كما كتب الباحثون في مقالة.”https://arxiv.org/pdf/2501.03200″> ورقة فنية نشرت هذا الأسبوع.
التخلص من الإجابات غير الدقيقة
ضمان”https://venturebeat.com/ai/learn-how-ge-healthcare-used-aws-to-build-a-new-ai-model-that-interprets-mris/”> الدقة الواقعية في استجابات LLM أمر صعب بسبب عوامل النمذجة (الهندسة المعمارية والتدريب والاستدلال) والقياس (منهجيات التقييم والبيانات والمقاييس). يشير الباحثون عادةً إلى أن التدريب المسبق يركز على التنبؤ بالرمز التالي في ضوء الرموز المميزة السابقة.
“على الرغم من أن هذا الهدف قد يعلم النماذج المعرفة العالمية البارزة، إلا أنه لا يعمل على تحسين النموذج بشكل مباشر نحو سيناريوهات الواقعية المختلفة، وبدلاً من ذلك يشجع النموذج على توليد بشكل عام معقول النص “، يكتب الباحثون.
ولمعالجة هذه المشكلة، تتضمن مجموعة بيانات FACTS 1719 مثالًا – 860 عامًا و859 خاصًا – يتطلب كل منها إجابات طويلة بناءً على السياق في المستندات المقدمة. يتضمن كل مثال:
- موجه النظام (system_instruction) مع التوجيهات العامة وترتيب الإجابة فقط بناءً على السياق المقدم؛
- مهمة (طلب_مستخدم) تتضمن سؤالاً محددًا للإجابة عليه؛
- وثيقة طويلة (context_document) تحتوي على المعلومات الضرورية.
لتحقيق النجاح والحصول على لقب “دقيق”،”https://venturebeat.com/ai/what-ai-vendor-should-you-choose-here-are-the-top-7-openai-still-leads/”> النموذج يجب معالجة المستند الطويل وإنشاء استجابة طويلة لاحقة تكون شاملة وتعزى بالكامل إلى المستند. يتم تصنيف الردود على أنها “غير دقيقة” إذا لم تكن مطالبات النموذج مدعومة بشكل مباشر من خلال المستند وليست ذات صلة أو مفيدة إلى حد كبير.
على سبيل المثال، قد يطلب المستخدم من النموذج تلخيص الأسباب الرئيسية لانخفاض إيرادات الشركة في الربع الثالث، وتزويده بمعلومات مفصلة بما في ذلك التقرير المالي السنوي للشركة الذي يناقش الأرباح الربع سنوية والنفقات والاستثمارات المخططة وتحليل السوق.
إذا عاد النموذج بعد ذلك، على سبيل المثال: “واجهت الشركة تحديات في الربع الثالث أثرت على إيراداتها”، فسيتم اعتباره غير دقيق.
ويشير الباحثون إلى أن “الرد يتجنب تحديد أي أسباب، مثل اتجاهات السوق أو المنافسة المتزايدة أو النكسات التشغيلية، والتي من المحتمل أن تكون موجودة في الوثيقة”. “لا يُظهر هذا محاولة للتعامل مع التفاصيل ذات الصلة أو استخراجها.”
على النقيض من ذلك، إذا طلب المستخدم “ما هي بعض النصائح حول توفير المال؟” وقدمت مجموعة من النصائح المصنفة لتوفير المال لطلاب الجامعات، وستكون الإجابة الصحيحة مفصلة للغاية: “استخدم الأنشطة المجانية في الحرم الجامعي، واشتري العناصر بكميات كبيرة وقم بالطهي في المنزل. وأيضًا، حدد أهدافًا للإنفاق، وتجنب بطاقات الائتمان، وحافظ على الموارد.
يستخدم DeepMind شهادات LLM للحكم على LLMs
وللسماح بمدخلات متنوعة، قام الباحثون بتضمين وثائق بأطوال مختلفة، تصل إلى 32000 رمزًا (أو ما يعادل 20000 كلمة). وتغطي هذه المجالات بما في ذلك التمويل والتكنولوجيا وتجارة التجزئة والطب والقانون. طلبات المستخدمين واسعة أيضًا، بما في ذلك إنشاء الأسئلة والأجوبة وطلبات التلخيص وإعادة الكتابة.
يتم الحكم على كل مثال على مرحلتين. أولاً، يتم تقييم الاستجابات للتأكد من أهليتها: إذا لم تلبي طلبات المستخدم، فسيتم استبعادها. ثانيًا، يجب أن تكون الإجابات خالية من الهلوسة ومرتكزة بالكامل على المستندات المقدمة.
يتم حساب درجات الواقعية هذه من قبل ثلاثة محكمين مختلفين في LLM – على وجه التحديد Gemini 1.5 Pro وGPT-4o وClaude 3.5 Sonnet – الذين يحددون الدرجات الفردية بناءً على النسبة المئوية لمخرجات النموذج الدقيقة. وبعد ذلك، يستند تحديد الوقائع النهائي إلى متوسط درجات القضاة الثلاثة.
يشير الباحثون إلى أن النماذج غالبًا ما تكون متحيزة تجاه الأعضاء الآخرين في عائلتها النموذجية – بمتوسط زيادة تبلغ حوالي 3.23% – لذلك كان الجمع بين القضاة المختلفين أمرًا بالغ الأهمية للمساعدة في ضمان أن الإجابات كانت واقعية بالفعل.
في النهاية، يؤكد الباحثون على أن الواقعية والأساس هما عاملان أساسيان لنجاح وفائدة ماجستير إدارة الأعمال في المستقبل. وكتبوا: “نحن نعتقد أن أساليب القياس الشاملة، إلى جانب البحث والتطوير المستمر، ستستمر في تحسين أنظمة الذكاء الاصطناعي”.
ومع ذلك، فقد أقروا أيضًا بما يلي: “نحن ندرك أنه يمكن تجاوز المعايير بسرعة من خلال التقدم، لذا فإن إطلاق معيار FACTS Grounding الخاص بنا ولوحة المتصدرين هو مجرد البداية.”
رؤى يومية حول حالات استخدام الأعمال باستخدام VB Daily
إذا كنت ترغب في إثارة إعجاب رئيسك في العمل، فإن VB Daily يلبي احتياجاتك. نقدم لك السبق الصحفي الداخلي حول ما تفعله الشركات باستخدام الذكاء الاصطناعي التوليدي، بدءًا من التحولات التنظيمية وحتى عمليات النشر العملية، حتى تتمكن من مشاركة الرؤى لتحقيق أقصى عائد على الاستثمار.
اقرأ لدينا”http://venturebeat.com/terms-of-service/”>سياسة الخصوصية
شكرا للاشتراك. تحقق من المزيد”http://venturebeat.com/newsletters/”> النشرات الإخبارية VB هنا.
حدث خطأ.