حدس لدوائر المحولات

في المقال السابق حول نمذجة اللغة، قمت بتطبيق محول على طراز GPT. في الآونة الأخيرة، كنت أتعلم إمكانية التفسير الآلي للتعمق أكثر وفهم سبب عمل المحول على المستوى الرياضي.

الحدس لدوائر المحولات

هذا المنشور عبارة عن تفريغ ذهني لما تعلمته حتى الآن بعد القراءة إطار رياضي لدوائر المحولات والعمل من خلال مقدمة إلى Mech Interp قسم على أرينا.

أولاً، نبذة مختصرة عن حافزي العام للعمل على هذه الأشياء.
قابلية التفسير الآلي (MI/mech interp) هي دراسة الأجزاء الداخلية لنموذج ML والتي تهدف إلى الفهم من المبادئ الأولى لماذا تتصرف النماذج وتعمل كما تفعل.

يعد MI جزءًا من مجال أوسع لقابلية التفسير، والذي يُستخدم في مجال آخر يسمى محاذاة الذكاء الاصطناعي.

دوائر المحولات

من الناحية النظرية، الدوائر هي مسارات معينة تتدفق من خلالها المعلومات عبر النموذج.

دائرة QK
دائرة OV

المصدر

حدس لدوائر المحولات

الحدس لدوائر المحولات

دوائر المحولات

Reactions

ردود الفعل