حقوق الصورة: VentureBeat مع DALL-E 3
انضم إلى نشراتنا الإخبارية اليومية والأسبوعية للحصول على أحدث التحديثات والمحتوى الحصري حول تغطية الذكاء الاصطناعي الرائدة في الصناعة. يتعلم أكثر
أصبحت نماذج اللغة الكبيرة (LLMs) بارعة للغاية في توليد النصوص والرموز، وترجمة اللغات، وكتابة أنواع مختلفة من المحتوى الإبداعي. ومع ذلك، فإن العمل الداخلي لهذه النماذج يصعب فهمه، حتى بالنسبة للباحثين الذين يدربونها.
يفرض هذا الافتقار إلى القدرة على التفسير تحديات أمام استخدام LLMs في التطبيقات الحرجة التي تتسم بتسامح منخفض مع الأخطاء وتتطلب الشفافية. ولمعالجة هذا التحدي، أصدرت Google DeepMind نطاق جيمامجموعة جديدة من الأدوات التي تسلط الضوء على عملية صنع القرار موديلات جيما 2.
يعتمد Gemma Scope على أجهزة ترميز JumpReLU المتفرقة (SAEs)، وهي بنية التعلم العميق التي اقترحتها DeepMind مؤخرًا.
فهم عمليات تنشيط LLM باستخدام أجهزة ترميز تلقائية متفرقة
عندما يتلقى نموذج LLM مدخلات، فإنه يعالجها من خلال شبكة معقدة من الخلايا العصبية الاصطناعية. وتمثل القيم التي تبعثها هذه الخلايا العصبية، والمعروفة باسم “التنشيطات”، فهم النموذج للمدخلات وتوجيه استجابته.
من خلال دراسة هذه التنشيطات، يمكن للباحثين اكتساب رؤى حول كيفية معالجة الخلايا العصبية للمعلومات واتخاذ القرارات. ومن الناحية المثالية، ينبغي لنا أن نكون قادرين على فهم الخلايا العصبية التي تتوافق مع المفاهيم.
ومع ذلك، فإن تفسير هذه التنشيطات يشكل تحديًا كبيرًا لأن LLMs تحتوي على مليارات الخلايا العصبية، وكل استدلال ينتج خليطًا هائلاً من قيم التنشيط في كل طبقة من النموذج. يمكن لكل مفهوم أن يؤدي إلى ملايين التنشيطات في طبقات LLM المختلفة، وقد تنشط كل خلية عصبية عبر مفاهيم مختلفة.
أحد الطرق الرائدة لتفسير تنشيطات LLM هو استخدام المشفرات الذاتية المتفرقة (SAEs). تعد المشفرات الذاتية المتفرقة نماذج يمكنها المساعدة في تفسير LLMs من خلال دراسة التنشيطات في طبقاتها المختلفة، والتي يشار إليها أحيانًا باسم “القدرة على التفسير الميكانيكي”. يتم تدريب المشفرات الذاتية المتفرقة عادةً على تنشيطات طبقة في نموذج التعلم العميق.
يحاول SAE تمثيل عمليات التنشيط المدخلة بمجموعة أصغر من الميزات ثم إعادة بناء عمليات التنشيط الأصلية من هذه الميزات. ومن خلال القيام بذلك بشكل متكرر، يتعلم SAE ضغط عمليات التنشيط الكثيفة إلى شكل أكثر قابلية للتفسير، مما يجعل من الأسهل فهم الميزات الموجودة في الإدخال التي تنشط أجزاء مختلفة من LLM.
نطاق جيما
ركزت الأبحاث السابقة حول SAEs في الغالب على دراسة نماذج اللغة الصغيرة أو طبقة واحدة في نماذج أكبر. ومع ذلك، فإن Gemma Scope من DeepMind يتبنى نهجًا أكثر شمولاً من خلال توفير SAEs لكل طبقة وطبقة فرعية من نماذج Gemma 2 2B و9B.
يشتمل نطاق Gemma على أكثر من 400 SAE، والتي تمثل مجتمعة أكثر من 30 مليون ميزة مستفادة من نماذج Gemma 2. سيسمح هذا للباحثين بدراسة كيفية تطور الميزات المختلفة وتفاعلها عبر طبقات مختلفة من LLM، مما يوفر فهمًا أكثر ثراءً لعملية اتخاذ القرار في النموذج.
وتقول شركة DeepMind في بيان: “ستمكن هذه الأداة الباحثين من دراسة كيفية تطور الميزات في جميع أنحاء النموذج والتفاعل والتكوين لإنشاء ميزات أكثر تعقيدًا”. مشاركة مدونة.
يستخدم Gemma Scope بنية DeepMind الجديدة المسماة جامب ريلو SAEاستخدمت هياكل SAE السابقة وظيفة الوحدة الخطية المصححة (ReLU) لفرض الندرة. تقوم ReLU بضبط جميع قيم التنشيط التي تقل عن حد معين على الصفر، مما يساعد في تحديد أهم الميزات. ومع ذلك، تجعل ReLU أيضًا من الصعب تقدير قوة هذه الميزات لأن أي قيمة أقل من الحد يتم ضبطها على الصفر.
يعالج JumpReLU هذا القيد من خلال تمكين SAE من تعلم عتبة تنشيط مختلفة لكل ميزة. يسهل هذا التغيير الصغير على SAE إيجاد التوازن بين اكتشاف الميزات الموجودة وتقدير قوتها. يساعد JumpReLU أيضًا في الحفاظ على انخفاض الندرة مع زيادة دقة إعادة البناء، وهو أحد التحديات المتوطنة لـ SAEs.
نحو برامج ماجستير في القانون أكثر قوة وشفافية
أطلقت شركة DeepMind تطبيق Gemma Scope على وجه العناقمما يجعلها متاحة للعامة ليستخدمها الباحثون.
وتقول شركة DeepMind: “نأمل أن يساعد إصدار اليوم في تمكين المزيد من أبحاث التفسير الطموحة. ومن الممكن أن تساعد الأبحاث الإضافية في بناء أنظمة أكثر قوة، وتطوير ضمانات أفضل ضد الهلوسة النموذجية، والحماية من المخاطر الناجمة عن وكلاء الذكاء الاصطناعي المستقلين مثل الخداع أو التلاعب”.
مع استمرار تقدم نماذج LLM واعتمادها على نطاق واسع في تطبيقات المؤسسات، تتسابق مختبرات الذكاء الاصطناعي لتوفير الأدوات التي يمكن أن تساعدها على فهم سلوك هذه النماذج والتحكم فيه بشكل أفضل.
لقد برزت تطبيقات SAE مثل مجموعة النماذج المقدمة في Gemma Scope كواحدة من أكثر الاتجاهات الواعدة في مجال البحث. ويمكنها المساعدة في تطوير تقنيات لاكتشاف ومنع السلوك غير المرغوب فيه في برامج الماجستير في القانون، مثل توليد محتوى ضار أو متحيز. ويمكن أن يساعد إصدار Gemma Scope في مجالات مختلفة، مثل الكشف عن السلوكيات غير المرغوب فيها وإصلاحها. كسر الحماية من خلال LLM، وتوجيه سلوك النموذج، وتكوين فرق SAE، واكتشاف الميزات المثيرة للاهتمام في نماذج اللغة، مثل كيفية تعلمها لمهام محددة.
كما تعمل Anthropic وOpenAI أيضًا على أبحاثهم الخاصة في SAE وقد أصدروا العديد من الأوراق البحثية في الأشهر الماضية. وفي الوقت نفسه، يستكشف العلماء أيضًا تقنيات غير آلية يمكن أن تساعد في فهم أفضل للعمل الداخلي لـ LLMs. ومن الأمثلة على ذلك تقنية حديثة طورتها شركة OpenAI، والتي تربط بين نموذجين للتحقق من إجابات كل منهما. تستخدم هذه التقنية عملية تعتمد على اللعب تشجع النموذج على تقديم إجابات يمكن التحقق منها وقراءتها.
في بي يوميا
ابق على اطلاع! احصل على آخر الأخبار في بريدك الإلكتروني يوميًا
من خلال الاشتراك، فإنك توافق على شروط وأحكام VentureBeat شروط الخدمة.
شكرا على الاشتراك. تعرف على المزيد نشرات VB هنا.
حدث خطأ.