DeepMind تحقق قفزة كبيرة نحو تفسير LLMs باستخدام مشفرات تلقائية متفرقة

26 يوليو 2024 08:04 ص

حقوق الصورة: VentureBeat مع DALL-E 3

انضم إلى نشراتنا الإخبارية اليومية والأسبوعية للحصول على أحدث التحديثات والمحتوى الحصري حول تغطية الذكاء الاصطناعي الرائدة في الصناعة. يتعلم أكثر

لقد حققت نماذج اللغة الكبيرة تقدمًا ملحوظًا في السنوات الأخيرة. لكن فهم كيفية عملها لا يزال يشكل تحديًا ويحاول العلماء في مختبرات الذكاء الاصطناعي النظر في الصندوق الأسود.

إن أحد الأساليب الواعدة هو المشفر التلقائي المتناثر (SAE)، وهو عبارة عن بنية تعلم عميق تعمل على تقسيم عمليات التنشيط المعقدة للشبكة العصبية إلى مكونات أصغر وأكثر قابلية للفهم والتي يمكن ربطها بمفاهيم يمكن للإنسان قراءتها.

في ورقة بحثية جديدة، قدم الباحثون في Google DeepMind جامب ريلو SAE، وهي بنية جديدة تعمل على تحسين أداء وإمكانية تفسير SAEs لطلاب الماجستير في القانون. تسهل JumpReLU تحديد وتتبع الميزات الفردية في عمليات تنشيط LLM، والتي يمكن أن تكون خطوة نحو فهم كيفية تعلم طلاب الماجستير في القانون والتفكير.

تحدي تفسير رسائل الماجستير في القانون

إن اللبنة الأساسية للشبكة العصبية هي الخلايا العصبية الفردية، وهي عبارة عن وظائف رياضية صغيرة تقوم بمعالجة البيانات وتحويلها. وأثناء التدريب، يتم ضبط الخلايا العصبية لتصبح نشطة عندما تواجه أنماطًا معينة في البيانات.

ومع ذلك، لا تتوافق الخلايا العصبية الفردية بالضرورة مع مفاهيم محددة. فقد تنشط خلية عصبية واحدة لآلاف المفاهيم المختلفة، وقد ينشط مفهوم واحد مجموعة واسعة من الخلايا العصبية عبر الشبكة. وهذا يجعل من الصعب للغاية فهم ما تمثله كل خلية عصبية وكيف تساهم في السلوك العام للنموذج.

تظهر هذه المشكلة بشكل خاص في أجهزة التعلم العميق، التي تحتوي على مليارات المعلمات ويتم تدريبها على مجموعات بيانات ضخمة. ونتيجة لهذا، فإن أنماط تنشيط الخلايا العصبية في أجهزة التعلم العميق معقدة للغاية ويصعب تفسيرها.

مُشفِّرات تلقائية متفرقة

إن أجهزة التشفير التلقائي عبارة عن شبكات عصبية تتعلم ترميز نوع واحد من المدخلات في تمثيل وسيط، ثم فك تشفيره مرة أخرى إلى شكله الأصلي. تأتي أجهزة التشفير التلقائي بأنواع مختلفة وتُستخدم في تطبيقات مختلفة، بما في ذلك الضغط وإزالة الضوضاء من الصور ونقل الأسلوب.

تستخدم أجهزة الترميز التلقائي المتفرقة (SAE) مفهوم جهاز الترميز التلقائي مع تعديل طفيف. أثناء مرحلة الترميز، يضطر جهاز الترميز التلقائي المتفرقة إلى تنشيط عدد صغير فقط من الخلايا العصبية في التمثيل الوسيط.

تمكن هذه الآلية SAEs من ضغط عدد كبير من التنشيطات في عدد صغير من الخلايا العصبية الوسيطة. أثناء التدريب، تتلقى SAE تنشيطات من طبقات داخل LLM المستهدفة كمدخلات.

تحاول SAE ترميز هذه التنشيطات الكثيفة من خلال طبقة من السمات المتفرقة. ثم تحاول فك تشفير السمات المتفرقة المكتسبة وإعادة بناء التنشيطات الأصلية. والهدف هو تقليل الاختلاف بين التنشيطات الأصلية والتنشيطات المعاد بناؤها مع استخدام أقل عدد ممكن من السمات الوسيطة.

التحدي الذي يواجه SAEs هو إيجاد التوازن الصحيح بين الندرة ودقة إعادة البناء. إذا كانت SAE قليلة جدًا، فلن تتمكن من التقاط كل المعلومات المهمة في التنشيطات. وعلى العكس من ذلك، إذا لم تكن SAE قليلة بما يكفي، فسيكون تفسيرها بنفس صعوبة التنشيطات الأصلية.

جامب ريلو SAE

تستخدم SAEs “دالة تنشيط” لفرض الندرة في طبقتها الوسيطة. تستخدم بنية SAE الأصلية دالة الوحدة الخطية المصححة (ReLU)، والتي تصفر جميع الميزات التي تكون قيمة تنشيطها أقل من حد معين (عادةً صفر). تكمن المشكلة في ReLU في أنها قد تضر بالندرة من خلال الحفاظ على الميزات غير ذات الصلة التي لها قيم صغيرة جدًا.

تهدف تقنية JumpReLU SAE من DeepMind إلى معالجة القيود التي فرضتها تقنيات SAE السابقة من خلال إجراء تغيير بسيط على دالة التنشيط. فبدلاً من استخدام قيمة عتبة عالمية، يمكن لـ JumpReLU تحديد قيم عتبة منفصلة لكل خلية عصبية في متجه الميزات المتفرق.

يجعل اختيار الميزة الديناميكية هذا تدريب JumpReLU SAE أكثر تعقيدًا بعض الشيء ولكنه يمكّنه من إيجاد توازن أفضل بين الندرة ودقة إعادة البناء.

JumpReLU مقابل وظائف التنشيط الأخرى (المصدر: arXiv)

قام الباحثون بتقييم JumpReLU SAE على DeepMind جيما 2 9ب ماجستير في القانونقاموا بمقارنة أداء JumpReLU SAE مع اثنين من هياكل SAE الحديثة الأخرى، DeepMind’s بوابة SAE و OpenAI توب كيه إس إيه إيلقد قاموا بتدريب SAEs على التدفق المتبقي، ومخرجات الانتباه، ومخرجات الطبقة الكثيفة لطبقات مختلفة من النموذج.

تظهر النتائج أنه عبر مستويات مختلفة من الندرة، فإن دقة بناء JumpReLU SAE تفوقت على Gated SAE وعلى الأقل بنفس جودة TopK SAE. كان JumpReLU SAE فعالاً للغاية أيضًا في تقليل “الميزات الميتة” التي لم يتم تنشيطها أبدًا. كما أنه يقلل من الميزات النشطة للغاية والتي تفشل في توفير إشارة حول المفاهيم المحددة التي تعلمها LLM.

وفي تجاربهم، وجد الباحثون أن ميزات JumpReLU SAE كانت قابلة للتفسير مثل غيرها من البنى المعمارية الحديثة، وهو أمر بالغ الأهمية لفهم العمل الداخلي لـ LLMs.

علاوة على ذلك، كان تدريب JumpReLU SAE فعالاً للغاية، مما يجعل من العملي تطبيقه على نماذج لغوية كبيرة.

فهم وتوجيه سلوك LLM

يمكن أن توفر SAEs طريقة أكثر دقة وكفاءة لتحليل تنشيطات LLM ومساعدة الباحثين على تحديد وفهم السمات التي تستخدمها LLMs لمعالجة اللغة وتوليدها. يمكن أن يفتح هذا الباب لتطوير تقنيات لتوجيه سلوك LLM في الاتجاهات المرغوبة والتخفيف من بعض أوجه القصور فيها، مثل التحيز والسمية.

على سبيل المثال، دراسة حديثة وجدت دراسة أنثروبيك أن SAEs تم تدريبها على تنشيطات كلود سونيت يمكن العثور على ميزات يتم تنشيطها في النصوص والصور المتعلقة بجسر البوابة الذهبية والمعالم السياحية الشهيرة. يمكن لهذا النوع من الرؤية للمفاهيم تمكين العلماء من تطوير تقنيات تمنع النموذج من توليد محتوى ضار مثل إنشاء كود ضار حتى عندما يتمكن المستخدمون من التحايل على الضمانات السريعة من خلال عمليات كسر الحماية.

كما يمكن أن توفر SAEs أيضًا تحكمًا أكثر تفصيلاً في استجابات النموذج. على سبيل المثال، من خلال تغيير التنشيطات المتفرقة وفك شفرتها مرة أخرى في النموذج، قد يتمكن المستخدمون من التحكم في جوانب الناتج، مثل جعل الاستجابات أكثر مرحًا، وأسهل للقراءة، أو أكثر تقنية. لقد تحولت دراسة تنشيطات LLMs إلى مجال بحثي نابض بالحياة ولا يزال هناك الكثير لنتعلمه.

في بي يوميا

ابق على اطلاع! احصل على آخر الأخبار في بريدك الإلكتروني يوميًا

من خلال الاشتراك، فإنك توافق على شروط وأحكام VentureBeat شروط الخدمة.

شكرا على الاشتراك. تعرف على المزيد نشرات VB هنا.

حدث خطأ.

اقرأ أكثر

DeepMind تحقق قفزة كبيرة نحو تفسير LLMs باستخدام مشفرات تلقائية متفرقة

تحدي تفسير رسائل الماجستير في القانون

مُشفِّرات تلقائية متفرقة

جامب ريلو SAE

فهم وتوجيه سلوك LLM

Reactions

ردود الفعل