وقد أدى الذكاء الاصطناعي إلى اختراقات في”https://www.technologyreview.com/2020/11/30/1012712/deepmind-protein-folding-ai-solved-biology-science-drugs-disease/”> اكتشاف المخدرات و”https://www.technologyreview.com/2024/04/11/1090718/household-robots-ai-data-robotics/”>الروبوتات وهي بصدد إحداث ثورة كاملة في كيفية تفاعلنا مع الآلات والويب. المشكلة الوحيدة هي أننا لا نعرف بالضبط كيف يعمل، أو لماذا يعمل بشكل جيد. لدينا فكرة عادلة، لكن التفاصيل معقدة للغاية بحيث لا يمكن فصلها. هذه مشكلة: يمكن أن تقودنا إلى نشر نظام الذكاء الاصطناعي في مجال حساس للغاية مثل الطب دون أن نفهم أنه قد يكون به عيوب خطيرة متضمنة في طريقة عمله.
يعمل فريق في Google DeepMind، الذي يدرس ما يسمى قابلية التفسير الآلي، على طرق جديدة تتيح لنا النظر تحت غطاء محرك السيارة. وفي نهاية شهر يوليو تم إصداره”https://ai.google.dev/gemma/docs/gemma_scope”> نطاق جيما، أداة لمساعدة الباحثين على فهم ما يحدث عندما يقوم الذكاء الاصطناعي بإنشاء مخرجات. الأمل هو أنه إذا كان لدينا فهم أفضل لما يحدث داخل نموذج الذكاء الاصطناعي، فسنكون قادرين على التحكم في مخرجاته بشكل أكثر فعالية، مما يؤدي إلى أنظمة ذكاء اصطناعي أفضل في المستقبل.
يقول نيل ناندا، الذي يدير فريق التفسير الآلي في Google DeepMind: “أريد أن أكون قادرًا على النظر داخل النموذج ومعرفة ما إذا كان خادعًا أم لا”. “يبدو أن القدرة على قراءة أفكار العارضات من شأنها أن تساعد”.
تعد قابلية التفسير الآلي، والمعروفة أيضًا باسم “mech interp”، مجالًا بحثيًا جديدًا يهدف إلى فهم كيفية عمل الشبكات العصبية فعليًا. في الوقت الحالي، نقوم بإدخال مدخلات إلى النموذج في شكل الكثير من البيانات، ثم نحصل على مجموعة من أوزان النماذج في نهاية التدريب. هذه هي المعلمات التي تحدد كيفية اتخاذ النموذج للقرارات. لدينا فكرة عما يحدث بين المدخلات وأوزان النماذج: بشكل أساسي، يقوم الذكاء الاصطناعي بالعثور على أنماط في البيانات واستخلاص استنتاجات من تلك الأنماط، ولكن هذه الأنماط يمكن أن تكون معقدة بشكل لا يصدق وغالبًا ما يكون من الصعب جدًا على البشر تفسيرها.
إنه مثل قيام المعلم بمراجعة إجابات مسألة رياضية معقدة في الاختبار. قام الطالب، وهو الذكاء الاصطناعي في هذه الحالة، بكتابة الإجابة الصحيحة، لكن النتيجة تبدو وكأنها مجموعة من الخطوط المتعرجة. يفترض هذا المثال أن الذكاء الاصطناعي يحصل دائمًا على الإجابة الصحيحة، لكن هذا ليس صحيحًا دائمًا؛ ربما وجد طالب الذكاء الاصطناعي نمطًا غير ذي صلة ويفترض أنه صالح. على سبيل المثال، ستعطيك بعض أنظمة الذكاء الاصطناعي الحالية نتيجة مفادها أن 9.11 أكبر من 9.8. بدأت الأساليب المختلفة التي تم تطويرها في مجال التفسير الآلي في إلقاء القليل من الضوء على ما قد يحدث، مما يجعل الخطوط المتعرجة منطقية بشكل أساسي.
يقول ناندا: “إن الهدف الرئيسي لقابلية التفسير الآلي هو محاولة إجراء هندسة عكسية للخوارزميات داخل هذه الأنظمة”. “نوجه النموذج إلى النموذج، مثل “اكتب قصيدة”، ثم يكتب بعض السطور المقافية. ما هي الخوارزمية التي فعلت هذا؟ نحن نحب أن نفهم ذلك.”
للعثور على ميزات – أو فئات من البيانات التي تمثل مفهومًا أكبر – في نموذج الذكاء الاصطناعي الخاص بها، جيما، قامت شركة DeepMind بتشغيل أداة تُعرف باسم “جهاز التشفير التلقائي المتناثر” على كل طبقة من طبقاته. يمكنك التفكير في جهاز التشفير التلقائي المتناثر كمجهر يقوم بتكبير تلك الطبقات ويتيح لك الاطلاع على تفاصيلها. على سبيل المثال، إذا طلبت جيما بشأن كلب شيواوا، فسيؤدي ذلك إلى تشغيل ميزة “الكلاب”، مما يسلط الضوء على ما تعرفه العارضة عن “الكلاب”. السبب في اعتباره “متناثرًا” هو أنه يحد من عدد الخلايا العصبية المستخدمة، مما يدفع بشكل أساسي إلى تمثيل أكثر كفاءة وتعميمًا للبيانات.
الجزء الصعب من أجهزة التشفير التلقائي المتفرقة هو تحديد مدى الدقة التي تريد الحصول عليها. فكر مرة أخرى في المجهر. يمكنك تضخيم شيء ما إلى درجة قصوى، لكن ذلك قد يجعل ما تنظر إليه مستحيلًا على الإنسان تفسيره. ولكن إذا قمت بالتكبير أكثر من اللازم، فقد تحد من الأشياء المثيرة للاهتمام التي يمكنك رؤيتها واكتشافها.
كان حل DeepMind هو تشغيل أجهزة تشفير تلقائية متفرقة بأحجام مختلفة، مع تغيير عدد الميزات التي يريدون أن يجدها جهاز التشفير التلقائي. لم يكن الهدف أن يقوم باحثو DeepMind بتحليل النتائج بشكل شامل بأنفسهم. تعد جيما وأجهزة التشفير التلقائي مفتوحة المصدر، لذا كان هذا المشروع يهدف بشكل أكبر إلى تحفيز الباحثين المهتمين للنظر في ما وجدته أجهزة التشفير التلقائي المتفرقة ونأمل في تقديم رؤى جديدة حول المنطق الداخلي للنموذج. وبما أن DeepMind قامت بتشغيل أجهزة التشفير التلقائي على كل طبقة من نموذجها، فيمكن للباحث رسم خريطة للتقدم من الإدخال إلى الإخراج إلى درجة لم نشهدها من قبل.
يقول جوش باتسون، الباحث في Anthropic: “هذا أمر مثير حقًا للباحثين في مجال التفسير”. “إذا كان لديك هذا النموذج الذي قمت بفتح مصدره للناس لدراسته، فهذا يعني أنه يمكن الآن إجراء مجموعة من الأبحاث حول قابلية التفسير على خلفية تلك التشفيرات التلقائية المتفرقة. فهو يقلل من حاجز دخول الأشخاص الذين يتعلمون من هذه الأساليب.
عقدت Neuronpedia، وهي منصة للتفسير الآلي، شراكة مع DeepMind في يوليو لبناء أداة تفسيرية”https://www.neuronpedia.org/gemma-scope”>عرض توضيحي من Gemma Scope الذي يمكنك اللعب به الآن. في العرض التوضيحي، يمكنك اختبار المطالبات المختلفة ومعرفة كيفية قيام النموذج بتقسيم الموجه الخاص بك وما هي عمليات التنشيط التي تضيء الموجه الخاص بك. يمكنك أيضًا العبث بالنموذج. على سبيل المثال، إذا قمت برفع الميزة المتعلقة بالكلاب ثم طرحت على العارضة سؤالاً عن رؤساء الولايات المتحدة، فستجد جيما طريقة ما لنسج ثرثرة عشوائية حول الكلاب، أو قد تبدأ العارضة بالنباح عليك.
أحد الأشياء المثيرة للاهتمام حول أجهزة التشفير التلقائي المتفرقة هو أنها غير خاضعة للرقابة، مما يعني أنها تجد ميزات بمفردها. وهذا يؤدي إلى اكتشافات مفاجئة حول كيفية تحطيم النماذج للمفاهيم البشرية. “الميزة الشخصية المفضلة لدي هي”https://www.neuronpedia.org/gemma-2-2b/20-gemmascope-res-16k/13710″ نوع البيانات=”link” معرف البيانات=”https://www.neuronpedia.org/gemma-2-2b/20-gemmascope-res-16k/13710″> تذلل الميزة”، كما يقول جوزيف بلوم، قائد العلوم في Neuronpedia. يبدو أن هذا يظهر في النقد السلبي للنصوص والأفلام. إنه مجرد مثال رائع لتتبع الأشياء التي تعتبر بشرية جدًا على مستوى ما.
يمكنك البحث عن المفاهيم على Neuronpedia وسوف يسلط الضوء على الميزات التي يتم تنشيطها على رموز أو كلمات معينة، ومدى قوة تنشيط كل واحدة منها. “إذا قرأت النص ورأيت ما تم تمييزه باللون الأخضر، فهذا هو الوقت الذي يعتقد فيه النموذج أن مفهوم التأرجح هو الأكثر أهمية. يقول بلوم: “المثال الأكثر نشاطًا على الإحباط هو وعظ شخص ما لشخص آخر”.
ثبت أن بعض الميزات أسهل في التتبع من غيرها. يقول جوني لين، مؤسس شركة Neuronpedia: “إن أحد أهم الميزات التي قد ترغب في العثور عليها في النموذج هو الخداع”. “ليس من السهل جدًا العثور على هذه الميزة: “أوه، هناك الميزة التي تنشط عندما تكذب علينا”. ومما رأيته، لم يكن من الممكن العثور على الخداع وحظره.
يشبه بحث DeepMind ما فعلته شركة أخرى للذكاء الاصطناعي، Anthropic، في شهر مايو”https://www.anthropic.com/news/golden-gate-claude”> البوابة الذهبية كلود. لقد استخدمت أجهزة تشفير تلقائية متفرقة للعثور على أجزاء نموذج كلود، التي أضاءت عند مناقشة جسر البوابة الذهبية في سان فرانسيسكو. ثم قامت بعد ذلك بتضخيم عمليات التنشيط المتعلقة بالجسر إلى النقطة التي حدد فيها كلود حرفيًا ليس كلود، وهو نموذج للذكاء الاصطناعي، ولكن باعتباره جسر البوابة الذهبية المادي وسيستجيب للمطالبات باسم الجسر.
على الرغم من أن الأمر قد يبدو غريبًا، إلا أن أبحاث قابلية التفسير الآلي قد تكون مفيدة بشكل لا يصدق. يقول باتسون: “باعتبارها أداة لفهم كيفية تعميم النموذج ومستوى التجريد الذي يعمل عليه، فإن هذه الميزات مفيدة حقًا”.
على سبيل المثال، فريق بقيادة صامويل ماركس، الآن في الأنثروبيك،”https://arxiv.org/html/2403.19647v1″>مستعملة أجهزة التشفير التلقائي المتفرقة للعثور على الميزات التي أظهرت أن نموذجًا معينًا كان يربط مهنًا معينة بجنس معين. ثم قاموا بإيقاف تشغيل هذه الميزات المتعلقة بالجنس لتقليل التحيز في النموذج. تم إجراء هذه التجربة على نموذج صغير جدًا، لذلك ليس من الواضح ما إذا كان العمل سينطبق على نموذج أكبر بكثير.
يمكن أن تعطينا أبحاث قابلية التفسير الآلي أيضًا نظرة ثاقبة حول سبب ارتكاب الذكاء الاصطناعي للأخطاء. وفي حالة التأكيد على أن 9.11 أكبر من 9.8، فإن الباحثين من”https://transluce.org/observability-interface” نوع البيانات=”link” معرف البيانات=”https://transluce.org/observability-interface”> شفافية ورأى أن السؤال كان يثير أجزاء نموذج الذكاء الاصطناعي المتعلقة بآيات الكتاب المقدس ويوم 11 سبتمبر. وخلص الباحثون إلى أن الذكاء الاصطناعي يمكن أن يفسر الأرقام على أنها تواريخ، مؤكدا أن التاريخ اللاحق، 11 سبتمبر، أكبر من 8/9. وفي الكثير من الكتب مثل النصوص الدينية، يأتي القسم 9.11 بعد القسم 9.8، ولهذا السبب يعتقد الذكاء الاصطناعي أنه أعظم. بمجرد أن عرفوا سبب ارتكاب الذكاء الاصطناعي لهذا الخطأ، قام الباحثون بضبط عمليات تنشيط الذكاء الاصطناعي على آيات الكتاب المقدس وأحداث 11 سبتمبر، مما أدى إلى إعطاء النموذج الإجابة الصحيحة عندما يُطلب منه مرة أخرى ما إذا كان 9.11 أكبر من 9.8.
هناك أيضًا تطبيقات محتملة أخرى. حاليًا، تم دمج موجه على مستوى النظام في LLMs للتعامل مع مواقف مثل المستخدمين الذين يسألون عن كيفية صنع قنبلة. عندما تطرح سؤالاً على ChatGPT، يتم أولاً مطالبة النموذج سرًا بواسطة OpenAI بالامتناع عن إخبارك بكيفية صنع القنابل أو القيام بأشياء شنيعة أخرى. ولكن من السهل على المستخدمين القيام بذلك”https://www.technologyreview.com/2023/04/03/1070893/three-ways-ai-chatbots-are-a-security-disaster/”> الهروب من السجن نماذج الذكاء الاصطناعي ذات المطالبات الذكية، لتجاوز أي قيود.
إذا كان منشئو النماذج قادرين على معرفة مكان معرفة بناء القنابل في الذكاء الاصطناعي، فيمكنهم نظريًا إيقاف تشغيل تلك العقد بشكل دائم. ومن ثم، فحتى الموجه الأكثر ذكاءً والمكتوبًا لن يؤدي إلى الحصول على إجابة حول كيفية صنع قنبلة، لأن الذكاء الاصطناعي لن يكون لديه أي معلومات حول كيفية بناء قنبلة في نظامه.
من السهل تخيل هذا النوع من التفاصيل والتحكم الدقيق، ولكن من الصعب جدًا تحقيقه في ظل الحالة الحالية لقابلية التفسير الآلي.
“القيد هو التوجيه [influencing a model by adjusting its parameters] لا يعمل بشكل جيد، ولذا عندما تقوم بالتوجيه لتقليل العنف في نموذج ما، ينتهي الأمر بتقسيم معرفته في الفنون القتالية بشكل كامل. يقول لين: “هناك الكثير من التحسينات التي يجب القيام بها في التوجيه”. إن معرفة “صناعة القنابل”، على سبيل المثال، ليست مجرد مفتاح تشغيل وإيقاف بسيط في نموذج الذكاء الاصطناعي. على الأرجح أنه منسوج في أجزاء متعددة من النموذج، ومن المحتمل أن يؤدي إيقاف تشغيله إلى إعاقة معرفة الذكاء الاصطناعي بالكيمياء. قد يكون لأي ترقيع فوائد ولكن أيضًا مقايضات كبيرة.
ومع ذلك، إذا كنا قادرين على التعمق أكثر والنظر بشكل أكثر وضوحًا في “عقل” الذكاء الاصطناعي، فإن شركة DeepMind وآخرون تأمل أن تمثل قابلية التفسير الآلي طريقًا معقولًا للمواءمة – وهي عملية التأكد من أن الذكاء الاصطناعي يفعل بالفعل ما نريده. للقيام به.