الصورة الائتمان: VentureBeat مع Imagen 3
انضم إلى النشرات الإخبارية اليومية والأسبوعية للحصول على أحدث التحديثات والمحتوى الحصري على تغطية الذكاء الاصطناعى الرائدة في الصناعة.”https://venturebeat.com/newsletters/?utm_source=VBsite&utm_medium=desktopNav” نوع البيانات=”link” معرف البيانات=”https://venturebeat.com/newsletters/?utm_source=VBsite&utm_medium=desktopNav”> تعرف على المزيد
أ”https://arxiv.org/abs/2502.01839″ الهدف=”_blank” rel=”noreferrer noopener”> ورقة جديدة من قبل الباحثين من”https://research.google/” الهدف=”_blank” rel=”noreferrer noopener”> Google Research و”https://www.berkeley.edu/”> جامعة كاليفورنيا ، بيركلي ، يوضح أن نهج تحجيم وقت الاختبار البسيط بشكل مدهش يمكن أن يعزز قدرات التفكير في نماذج اللغة الكبيرة (LLMS). المفتاح؟ زيادة البحث المستند إلى أخذ العينات ، وهي تقنية تعتمد على توليد استجابات متعددة واستخدام النموذج نفسه للتحقق منها.
الاستنتاج الأساسي هو أنه حتى التنفيذ الحد الأدنى للبحث القائم على أخذ العينات ، باستخدام أخذ العينات العشوائية والتحول الذاتي ، يمكن أن يرفع أداء التفكير في نماذج مثل Gemini 1.5 Pro إلى ما هو أبعد من O1-preview على المعايير الشائعة. يمكن أن يكون للنتائج آثار مهمة على تطبيقات المؤسسات وتحدي الافتراض بأن التدريب المتخصص للغاية أو البنى المعقدة ضرورية دائمًا لتحقيق الأداء الأعلى.
حدود تحجيم وقت الاختبار الحالي
تتمثل الطريقة الشائعة الحالية لتوسيع وقت الاختبار في LLMS لتدريب النموذج من خلال التعلم التعزيز لإنشاء استجابات أطول مع آثار سلسلة (COT). يستخدم هذا النهج في نماذج مثل”https://venturebeat.com/programming-development/openai-opens-its-most-powerful-model-o1-up-to-third-party-developers/”> Openai O1 و”https://venturebeat.com/ai/open-source-deepseek-r1-uses-pure-reinforcement-learning-to-match-openai-o1-at-95-less-cost/”> Deepseek-R1. على الرغم من أنها مفيدة ، فإن هذه الأساليب تتطلب عادة استثمارًا كبيرًا في مرحلة التدريب.
طريقة قياس وقت الاختبار الأخرى هي “التوافق الذاتي” ، حيث يولد النموذج ردود متعددة على الاستعلام ويختار الإجابة التي تظهر في كثير من الأحيان. يصل الاتساق الذاتي إلى حدوده عند التعامل مع المشكلات المعقدة ، كما هو الحال في هذه الحالات ، فإن الإجابة الأكثر تكرارًا ليست بالضرورة هي الإجابة الصحيحة.
يوفر البحث المستند إلى أخذ العينات بديلاً أبسط وقابل للتطوير للغاية للاختبار تحجيم الوقت: دع النموذج ينشئ استجابات متعددة واختيار أفضل واحدة من خلال آلية التحقق. يمكن للبحث المستند إلى أخذ العينات أن يكمل استراتيجيات تحجيم حساب وقت الاختبار الأخرى ، وكما يكتب الباحثون في ورقتهم ، “إنه يتمتع أيضًا بميزة فريدة من نوعها متوازية بشكل محرج والسماح بالتوسع التعسفي: ببساطة عينة من الاستجابات.”
الأهم من ذلك ، يمكن تطبيق البحث القائم على أخذ العينات على أي LLM ، بما في ذلك تلك التي لم يتم تدريبها بشكل صريح على التفكير.
كيف يعمل البحث المستند إلى أخذ العينات
يركز الباحثون على تنفيذ الحد الأدنى من البحث القائم على أخذ العينات ، وذلك باستخدام نموذج لغة لإنشاء ردود مرشح والتحقق منها. هذه عملية “للتحقق الذاتي” ، حيث يقوم النموذج بتقييم مخرجاته الخاصة دون الاعتماد على إجابات الحقيقة الخارجية أو أنظمة التحقق الرمزية.
تعمل الخوارزمية في بضع خطوات بسيطة:
1 – تبدأ الخوارزمية بإنشاء مجموعة من الحلول المرشحة للمشكلة المحددة باستخدام نموذج اللغة. يتم ذلك عن طريق إعطاء النموذج نفس الموجه عدة مرات واستخدام إعداد درجة حرارة غير صفرية لإنشاء مجموعة متنوعة من الاستجابات.
2 – يخضع استجابة المرشح لعملية التحقق التي تتم فيها مطالب LLM عدة مرات بتحديد ما إذا كانت الاستجابة صحيحة. ثم يتم حساب متوسط نتائج التحقق لإنشاء درجة التحقق النهائية للاستجابة.
3-تختار الخوارزمية أعلى استجابة تم تسجيلها كإجابة نهائية. إذا كان العديد من المرشحين ضمن مسافة قريبة من بعضهم البعض ، تتم مطالبة LLM بمقارنتها الزوجية واختيار أفضل واحد. يتم اختيار الاستجابة التي تفوز بأكثر المقارنات الزوجية كإجابة نهائية.
اعتبر الباحثون محورين رئيسيين لتوسيع وقت الاختبار:
أخذ العينات: عدد الاستجابات التي يولدها النموذج لكل مشكلة في الإدخال.
التحقق: عدد درجات التحقق المحسوبة لكل حل تم إنشاؤه
كيف يقارن البحث المستند إلى أخذ العينات بالتقنيات الأخرى
كشفت الدراسة أن أداء التفكير يستمر في التحسن من خلال البحث القائم على أخذ العينات ، حتى عندما يتم توسيع نطاق حساب وقت الاختبار إلى ما هو أبعد من النقطة التي يتشبع فيها الاتساق الذاتي.
على نطاق كاف ، يعزز هذا التنفيذ الحد الأدنى بشكل كبير دقة التفكير في معايير التفكير مثل AIME والرياضيات. على سبيل المثال ، تجاوز أداء Gemini 1.5 Pro أداء O1-Preview ، والذي تم تدريبه بشكل صريح على مشاكل التفكير ، وتجاوز Gemini 1.5 Flash Gemini 1.5 Pro.
“هذا لا يسلط الضوء فقط على أهمية البحث القائم على أخذ العينات عن قدرة التحجيم ، ولكنه يشير أيضًا إلى فائدة البحث القائم على أخذ العينات كخط أساس بسيط لمقارنة استراتيجيات تحجيم حساب وقت الاختبار الأخرى وقياس تحسينات حقيقية في إمكانات البحث عن النماذج” ، يكتب الباحثون.
تجدر الإشارة إلى أنه على الرغم من أن نتائج أخذ العينات القائمة على البحث مثيرة للإعجاب ، إلا أن التكاليف يمكن أن تصبح باهظة أيضًا. على سبيل المثال ، مع 200 عينة و 50 خطوة التحقق لكل عينة ، سيولد استعلام من AIME حوالي 130 مليون رمز ، والذي يكلف 650 دولار مع Gemini 1.5 Pro. ومع ذلك ، هذا نهج أضيق الحدود للبحث القائم على أخذ العينات ، وهو متوافق مع تقنيات التحسين المقترحة في دراسات أخرى. مع أساليب أخذ العينات والتحقق أكثر ذكاءً ، يمكن تخفيض تكاليف الاستدلال بشكل كبير”https://venturebeat.com/ai/how-test-time-scaling-unlocks-hidden-reasoning-abilities-in-small-language-models-and-allows-them-to-outperform-llms/”> باستخدام نماذج أصغر و”https://venturebeat.com/ai/not-every-ai-prompt-deserves-multiple-seconds-of-thinking-how-meta-is-teaching-models-to-prioritize/”> توليد عدد أقل من الرموز. على سبيل المثال ، باستخدام Gemini 1.5 Flash لإجراء التحقق ، تنخفض التكاليف إلى 12 دولارًا لكل سؤال.
استراتيجيات التحقق من الذات الفعالة
هناك نقاش مستمر حول ما إذا كان بإمكان LLMs التحقق من إجاباتهم الخاصة. حدد الباحثون استراتيجيتين رئيسيتين لتحسين التحقق الذاتي باستخدام حساب وقت الاختبار:
مقارنة مباشرة مرشحو الاستجابة: تشير الخلافات بين حلول المرشح بقوة إلى أخطاء محتملة. من خلال توفير استجابات متعددة للمقارنة ، يمكن للنموذج تحديد الأخطاء والهلوسة بشكل أفضل ، ويعالج ضعفًا أساسيًا في LLMs. يصف الباحثون هذا بأنه مثيل لـ “التحجيم الضمني”.
إعادة كتابة المهمة الخاصة: يقترح الباحثون أن نمط الإخراج الأمثل لـ LLM يعتمد على المهمة. تعتبر سلسلة الأفكار فعالة لحل مهام التفكير ، ولكن من السهل التحقق من الاستجابات عند كتابتها بأسلوب أكثر رسمية ، تقليدية رياضيا. يمكن للمقابح إعادة كتابة الاستجابات المرشح في تنسيق أكثر تنظيماً (على سبيل المثال ، نظرية-لمادية) قبل التقييم.
“نتوقع أن تتحسن النماذج من إمكانيات التحسين الذاتي النموذجي بسرعة على المدى القصير ، حيث تتعلم النماذج الاستفادة من مبادئ ملاءمة نمط التحجيم الضمنية ومدى محسن معدلات التحجيم للبحث القائم على أخذ العينات” ، يكتب الباحثون.
الآثار المترتبة على تطبيقات العالم الحقيقي
توضح الدراسة أن التقنية البسيطة نسبيًا يمكن أن تحقق نتائج مثيرة للإعجاب ، مما قد يقلل من الحاجة إلى بنية نموذجية معقدة ومكلفة أو أنظمة التدريب.
هذه أيضًا تقنية قابلة للتطوير ، مما يتيح للمؤسسات زيادة الأداء من خلال تخصيص المزيد من الموارد حسابية لأخذ العينات والتحقق. كما أنه يمكّن المطورين من دفع نماذج اللغة الحدودية إلى ما وراء قيودهم على المهام المعقدة.
“بالنظر إلى أنه يكمل استراتيجيات تحجيم حساب وقت الاختبار الأخرى ، وهو قابل للتوازي ويسمح بالتوسع بشكل تعسفي ، ويعترف بالتطبيقات البسيطة التي تكون فعالة بشكل واضح ، نتوقع أن يلعب البحث القائم على أخذ العينات دورًا حاسمًا حيث يتم تكليف نماذج اللغة بحل المشكلات المعقدة بشكل متزايد مع ميزانيات حسابية كبيرة بشكل متزايد”.
الرؤى اليومية حول حالات استخدام الأعمال مع VB يوميا
إذا كنت ترغب في إقناع رئيسك في العمل ، فقد غطيت VB Daily. نمنحك السبق الصحفي الداخلي على ما تفعله الشركات مع الذكاء الاصطناعي التوليدي ، من التحولات التنظيمية إلى عمليات النشر العملية ، حتى تتمكن من مشاركة رؤى لأقصى عائد على الاستثمار.
اقرأ لدينا”http://venturebeat.com/terms-of-service/”> سياسة الخصوصية
شكرا على الاشتراك. تحقق أكثر”http://venturebeat.com/newsletters/”> النشرات الإخبارية VB هنا.
حدث خطأ.