نماذج لغوية كبيرة مثل تلك التي تقدمها أوبن أيه آي و جوجل تتطلب النماذج الحديثة كميات هائلة من بيانات التدريب لكي تعمل. وقد قامت أحدث إصدارات هذه النماذج بالفعل بمسح جزء كبير من الإنترنت الحالي، مما دفع البعض إلى الخوف من عدم وجود بيانات جديدة كافية لتدريب التكرارات المستقبلية. وقد أشار بعض الأصوات البارزة في الصناعة، مثل الرئيس التنفيذي لشركة Meta مارك زوكربيرج، إلى أن هذه النماذج الجديدة قد لا تكون كافية. طرح حلاً لمعضلة البيانات تلك:قم ببساطة بتدريب أنظمة الذكاء الاصطناعي الجديدة على مخرجات الذكاء الاصطناعي القديمة.
لكن الأبحاث الجديدة تشير إلى أن التلاعب بمخرجات النماذج السابقة من شأنه أن يؤدي بسرعة إلى سلاسل من هراء الذكاء الاصطناعي وقد يؤدي هذا في النهاية إلى ما يسمى “انهيار النموذج”. وفي أحد الأمثلة، قام الباحثون بإطعام الذكاء الاصطناعي فقرة حميدة حول هندسة الكنيسة فقط لتتدهور بسرعة على مر الأجيال. النموذج الأخير، الأكثر “تقدمًا”، كرر ببساطة عبارة “الأرانب البرية ذات الذيل الأسود” بشكل مستمر.
دراسة نشرت في طبيعة في هذا الأسبوع، تم اختبار سيناريو الذكاء الاصطناعي المُدرَّب على الذكاء الاصطناعي. حيث قام الباحثون بإنشاء نموذج لغوي خاص بهم، حيث قاموا في البداية بتغذيته بنص أصلي من صنع الإنسان. ثم قاموا بإنشاء تسعة أجيال أخرى من النماذج، حيث تم تدريب كل منها على الناتج النصي الذي تم إنشاؤه بواسطة النموذج السابق. وكانت النتيجة النهائية في الجيل الأخير عبارة عن هراء غير ضروري يبدو سرياليًا ولا علاقة له بالنص الأصلي. ويقول الباحثون إنه بمرور الوقت والأجيال المتعاقبة، “أصبح نموذجهم مسمومًا بإسقاطه الخاص للواقع”.
تنسى نماذج الذكاء الاصطناعي المعنى كلما تدربت على نفسها أكثر
يشير الباحثون إلى هذه الحالة الغريبة من انهيار الذكاء الاصطناعي على نفسه على أنها “انهيار النموذج”، وهي عملية انحطاطية يمكن أن تظهر في أشكال مبكرة ومتأخرة. على الجانب المبكر من الأشياء، يبدأ الانهيار في الحدوث عندما تنسى نماذج الذكاء الاصطناعي التي تم إزالتها بعدة أجيال من بيانات التدريب الأصلية القيم المتطرفة أو النادرة في النص الأصلي. وهذا له تأثير جعل النتائج الأكثر احتمالية أكثر شيوعًا. سيكون هذا مشكلة في العالم الحقيقي، لأنه قد يؤدي إلى تقليص وجهات نظر الأقلية أو التعبير عنها. يمكن أن تقدم شهادة الماجستير في القانون التي تظهر علامات الانهيار المبكر نسخة من الواقع تفتقر إلى التنوع وتعاني من التشابه الساحق.
وتزداد الأمور غرابة في المراحل اللاحقة من الانهيار. ففي تلك الأجيال الأخيرة، تكون النماذج التي تم تدريبها على النماذج بعيدة كل البعد عن بيانات التدريب الأصلية لدرجة أنها تبدأ في نسيان الجوانب الرئيسية للتدريب الأولي وتفقد الحبكة بالكامل. وفي هذه المرحلة تبدأ النماذج في توليد هراء كامل لا معنى له. وعندما يحدث هذا، يقول الباحثون إن “التهام النموذج العشوائي” لمخرجاته السابقة “يسبب عيوبًا لا رجعة فيها في النموذج الناتج”.
يزعم الباحثون أن هذا التأثير المتتالي وانهيار النموذج في النهاية أمر لا مفر منه بالنسبة للنماذج الكبيرة المدربة على بياناتها الخاصة. من المهم ملاحظة أن هذا البحث ركز بشكل خاص على نماذج اللغة ولا يزن ما يمكن أن يحدث إذا تم تدريب نماذج متعددة الوسائط مثل مولدات الصور والفيديو على نفسها. يركز هذا البحث أيضًا على ما يجب أن يحدث في نموذج يتم تدريبه على بياناته الخاصة. ملك البيانات. ليس من الواضح على وجه التحديد ما الذي سيحدث إذا تم تدريب نموذج واحد، على سبيل المثال من Meta، على الناتج الناتج عن OpenAI.
الحفاظ على النص البشري الأصلي قد يمنع الانهيار
إن احتمال انهيار النموذج في العالم الحقيقي ليس افتراضاً لا يمكن تصوره. ففي الوقت الحالي، عدد لا يحصى من المواقع يتم تشغيلها حاليًا وتتضمن مقالات ومنشورات مدونة تم إنشاؤها بالكامل بواسطة LLMsفي السباق لبناء نماذج جديدة بأسرع ما يمكن، فليس من غير المعقول أن الكثير من هذا النفايات التي تولدها الذكاء الاصطناعي قد ينتهي بها الأمر إلى التسرب إلى مجموعات التدريب.
أحد الحلول الممكنة لهذا الدمج غير المقصود للمحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي في مجموعات التدريب هو تشجيع معيار العلامة المائية عبر المنصات التي تميز بوضوح صحة المحتوى وما إذا كان قد تم إنتاجه بواسطة آلة أم لا. تحاول Google وAdobe وشركات التكنولوجيا الكبرى القيام بذلك تمامًا من خلال “بيانات اعتماد المحتوى“الشارة التي يحاولون توحيدها كجزء من تحالف منشأ المحتوى وأصالته (C2PA).
لكن هذا ينطبق فقط على الصور. كما أن النصوص التي يتم إنشاؤها بواسطة الذكاء الاصطناعي يصعب أيضًا وضع علامة مائية عليها أو حتى تحديد دقيق إن استخدام برامج الكشف المتاحة قد يتطلب نهجا أكثر واقعية من مطوري الذكاء الاصطناعي لفحص المواد بدقة بحثا عن علامات التلاعب بالذكاء الاصطناعي، وربما دفع أموال لمصادر بشرية ذات سمعة طيبة للوصول إلى التدريب على بياناتها عالية الجودة. وبدون هذه الضمانات لبيانات التدريب البشري، فإن الإنترنت معرض لخطر الانقراض بسبب موجة من القيء من جانب الذكاء الاصطناعي. ولا أحد يريد ذلك.