هذه مشاركة ضيف. الآراء الواردة هنا هي فقط آراء المؤلفين ولا تمثل مواقفهم IEEE الطيف أو معهد مهندسي الكهرباء والإلكترونيات (IEEE).
إن الدرجة التي قد “تحفظ بها” نماذج اللغة الكبيرة (LLMs) بعض مدخلات التدريب الخاصة بها كانت منذ فترة طويلة سؤالاً أثاره العلماء بما في ذلك جوجل ديب مايند نيكولاس كارليني و المؤلف الأول من هذه المقالة (غاري ماركوس). وقد أظهر العمل التجريبي الأخير أن حاملي شهادة الماجستير في القانون قادرون في بعض الحالات على إعادة إنتاج أجزاء كبيرة من النص التي تظهر في مجموعات التدريب الخاصة بهم، أو إعادة إنتاجها مع تغييرات طفيفة.
على سبيل المثال، أ ورقة 2023 أظهر ميلاد نصر وزملاؤه أنه يمكن مطالبة حاملي شهادة الماجستير في إدارة الأعمال بالتخلص من المعلومات الخاصة، مثل عنوان البريد الإلكتروني وأرقام الهواتف. كارليني والمؤلفون المشاركون أظهرت مؤخرا أن نماذج برامج الدردشة الأكبر حجمًا (وإن لم تكن أصغر حجمًا) تتقيأ أحيانًا أجزاء كبيرة من النص حرفيًا.
وبالمثل، فإن الدعوى الأخيرة الذي – التي اوقات نيويورك رفعت ضد OpenAI أظهر العديد من الأمثلة التي تم إعادة إنشاء برنامج OpenAI فيها نيويورك تايمز القصص حرفية تقريبًا (الكلمات باللون الأحمر حرفية):
يُظهر معرض من دعوى قضائية مخرجات تبدو مسروقة من قبل OpenAI جي بي تي-4.نيويورك تايمز
سوف نطلق على مثل هذه المخرجات شبه الحرفية اسم “المخرجات المسروقة” لأنها للوهلة الأولى إذا قام الإنسان بإنشائها لنطلق عليها حالات الانتحال. وبغض النظر عن بعض الملاحظات المختصرة التي سنقدمها لاحقًا، فإننا نترك الأمر للمحامين للتفكير في كيفية التعامل مع هذه المواد في السياق القانوني الكامل.
في لغة الرياضيات، هذه الأمثلة على الاستنساخ شبه الحرفي هي أدلة وجودية. إنهم لا يجيبون بشكل مباشر على الأسئلة المتعلقة بعدد مرات حدوث مثل هذه المخرجات المسروقة أو تحت أي ظروف تحدث بالضبط.
توفر هذه النتائج دليلًا قويًا… على أن بعض أنظمة الذكاء الاصطناعي التوليدية على الأقل قد تنتج مخرجات مسروقة، حتى عندما لا يُطلب منها ذلك بشكل مباشر، مما قد يعرض المستخدمين لمطالبات انتهاك حقوق الطبع والنشر.
من الصعب الإجابة على مثل هذه الأسئلة بدقة، ويرجع ذلك جزئيًا إلى أن ماجستير إدارة الأعمال عبارة عن “صناديق سوداء” – وهي أنظمة لا نفهم فيها بشكل كامل العلاقة بين المدخلات (بيانات التدريب) والمخرجات. علاوة على ذلك، يمكن أن تختلف المخرجات بشكل غير متوقع من لحظة إلى أخرى. من المحتمل أن يعتمد انتشار الاستجابات المسروقة بشكل كبير على عوامل مثل حجم النموذج والطبيعة الدقيقة لمجموعة التدريب. وبما أن برامج الماجستير في القانون هي في الأساس صناديق سوداء (حتى بالنسبة لصانعيها، سواء كانت مفتوحة المصدر أم لا)، فمن المحتمل أن لا يمكن الإجابة على الأسئلة حول انتشار الانتحال إلا بشكل تجريبي، وربما حتى ذلك الحين فقط بشكل مبدئي.
على الرغم من أن الانتشار قد يختلف، فإن مجرد وجود مخرجات مسروقة يثير العديد من الأسئلة المهمة، بما في ذلك الأسئلة الفنية (هل يمكن فعل أي شيء لقمع مثل هذه المخرجات؟)، والأسئلة الاجتماعية (ماذا يمكن أن يحدث للصحافة نتيجة لذلك؟)، والأسئلة القانونية (هل يمكن أن يحدث هذا؟) تعتبر هذه المخرجات بمثابة انتهاك لحقوق الطبع والنشر؟)، والأسئلة العملية (عندما يقوم المستخدم النهائي بإنشاء شيء باستخدام شهادة LLM، هل يمكن للمستخدم أن يشعر بالارتياح لأنه لا ينتهك حقوق الطبع والنشر؟ هل هناك أي طريقة للمستخدم الذي يرغب في عدم انتهاك حقوق الطبع والنشر؟ تأكد أنهم ليسوا كذلك؟).
دعوى قضائية ضد صحيفة نيويورك تايمز ضد OpenAI يمكن القول إن هذه الأنواع من المخرجات تمثل انتهاكًا لحقوق الطبع والنشر. قد يختلف المحامون بالطبع، لكن من الواضح أن الكثير يعتمد على وجود هذه الأنواع من المخرجات، وكذلك على نتيجة تلك الدعوى القضائية المحددة، والتي يمكن أن يكون لها آثار مالية وهيكليية كبيرة على مجال الذكاء الاصطناعي التوليدي. للمضي قدما.
يمكن طرح أسئلة موازية تمامًا في المجال البصري. هل يمكن حث نماذج توليد الصور على إنتاج مخرجات مسروقة بناءً على مواد محمية بحقوق الطبع والنشر؟
دراسة الحالة: المخرجات المرئية المسروقة في Midjourney v6
فقط قبل نيويورك تايمز ضد OpenAI تم الإعلان عن الدعوى القضائية، ووجدنا أن الإجابة هي نعم بوضوح، حتى بدون التماس نتائج مسروقة بشكل مباشر. فيما يلي بعض الأمثلة المستمدة من الإصدار “ألفا” من منتصف الرحلة V6 بواسطة المؤلف الثاني في هذا المقال فنان تشكيلي عمل في عدد من الأفلام الكبرى (بما في ذلك قيامة المصفوفة, الخنفساء الزرقاء، و ألعاب الجوع) مع العديد من استوديوهات هوليوود الأكثر شهرة (بما في ذلك Marvel وWarner Bros.).
بعد قليل من التجارب (وفي الاكتشاف الذي قادنا إلى التعاون)، اكتشف ساوثين أنه كان من السهل في الواقع إنشاء العديد من المخرجات المسروقة، مع مطالبات موجزة تتعلق بالأفلام التجارية (يتم عرض المطالبات).
أنتجت Midjourney صورًا متطابقة تقريبًا مع لقطات من أفلام وألعاب فيديو مشهورة.
ووجدنا أيضًا أنه يمكن تكرار الشخصيات الكرتونية بسهولة، كما يتضح من هذه الصور التي تم إنشاؤها لمسلسل سمبسون.
أنتجت Midjourney هذه الصور المميزة لمسلسل The Simpsons.
في ضوء هذه النتائج، يبدو من المؤكد أن Midjourney V6 قد تم تدريبه على المواد المحمية بحقوق الطبع والنشر (سواء تم ترخيصها أم لا، لا نعرف) وأن أدواتهم يمكن استخدامها لإنشاء مخرجات تنتهك حقوق الطبع والنشر. تماما كما كنا نرسل هذا للصحافة، وجدنا أيضا الأعمال الهامة ذات الصلة بواسطة كارليني على الصور المرئية على انتشار مستقر منصة ذلك وقد توصلوا إلى استنتاجات مماثلة، وإن كان ذلك باستخدام أسلوب خصومة آلي أكثر تعقيدًا.
بعد ذلك، بدأنا (ماركوس وساوثين) في التعاون وإجراء المزيد من التجارب.
يمكن للنماذج المرئية أن تنتج نسخًا متماثلة تقريبًا من الأحرف ذات العلامات التجارية مع مطالبات غير مباشرة
في العديد من الأمثلة أعلاه، أشرنا مباشرة إلى فيلم (على سبيل المثال، المنتقمون: حرب إنفينيتي); أثبت هذا أن Midjourney يمكنه إعادة إنشاء المواد المحمية بحقوق الطبع والنشر عن علم، لكنه ترك سؤالًا مفتوحًا حول ما إذا كان من الممكن أن ينتهك شخص ما دون أن يفعل المستخدم ذلك عمدًا.
في بعض النواحي الجزء الأكثر إقناعا من اوقات نيويورك الشكوى هي أن المدعين أثبتوا أنه يمكن استنباط ردود مسروقة دون التذرع بها اوقات نيويورك على الاطلاق. بدلاً من مخاطبة النظام بمطالبة مثل “هل يمكنك كتابة مقال بأسلوب اوقات نيويورك حول كذا وكذا،” أثار المدعون بعض الردود المسروقة بمجرد إعطاء الكلمات القليلة الأولى من مرات القصة، كما في هذا المثال.
يُظهر مستند من إحدى الدعاوى القضائية أن GPT-4 أنتج نصًا يبدو مسروقًا عندما يُطلب منه ذلك بالكلمات القليلة الأولى من مقال فعلي.نيويورك تايمز
تعتبر مثل هذه الأمثلة مقنعة بشكل خاص لأنها تثير احتمال قيام المستخدم النهائي بذلك دون قصد إنتاج المواد المخالفة. ثم سألنا ما إذا كان من الممكن أن يحدث شيء مماثل في المجال البصري.
كان الجواب نعم مدوية. في كل عينة، نقدم موجه ومخرجات. في كل صورة، أنشأ النظام شخصيات يمكن التعرف عليها بوضوح (الماندالوريان، ودارث فيدر، ولوك سكاي ووكر، والمزيد) التي نفترض أنها محمية بحقوق الطبع والنشر وعلامة تجارية؛ لم يتم بأي حال من الأحوال إثارة الأفلام المصدر أو الشخصيات المحددة بالاسم مباشرة. والأهم من ذلك، أنه لم تتم مطالبة النظام بالانتهاك، ولكن النظام أسفر عن عمل فني يحتمل أن يمثل انتهاكًا، على أي حال.
أنتجت Midjourney هذه الصور المميزة لشخصيات حرب النجوم على الرغم من أن المطالبات لم تذكر أسماء الأفلام.
لقد رأينا هذه الظاهرة تحدث مع شخصيات الأفلام وألعاب الفيديو.
أنتجت Midjourney هذه الصور المميزة لشخصيات الأفلام وألعاب الفيديو على الرغم من عدم تسمية الأفلام والألعاب.
استحضار إطارات تشبه الفيلم دون تعليمات مباشرة
في تجربتنا الثالثة مع فيلم Midjourney، تساءلنا عما إذا كان قادرًا على استحضار إطارات فيلم كاملة، دون تعليمات مباشرة. مرة أخرى، وجدنا أن الإجابة كانت نعم. (الجزء العلوي مأخوذ من جلسة تصوير لـ Hot Toys وليس من فيلم.)
أنتجت شركة Midjourney صورًا تشبه إلى حد كبير إطارات محددة من أفلام مشهورة.
اكتشفنا في النهاية أن المطالبة بكلمة واحدة فقط (بدون حساب المعلمات الروتينية) التي لا تخص أي فيلم أو شخصية أو ممثل أدت إلى محتوى يمثل انتهاكًا على ما يبدو: تلك الكلمة كانت “screencap”. تم إنشاء الصور أدناه باستخدام هذه المطالبة.
هذه الصور، التي أنتجتها شركة Midjourney، تشبه إلى حد كبير إطارات الأفلام. لقد تم إنتاجها باستخدام “screencap” الفوري.
نحن نتوقع تمامًا أن تقوم Midjourney بتصحيح هذه المطالبة المحددة على الفور، مما يجعلها غير فعالة، ولكن القدرة على إنتاج محتوى يحتمل أن يمثل انتهاكًا واضحة.
في سياق التحقيق الذي دام أسبوعين، وجدنا مئات الأمثلة لشخصيات يمكن التعرف عليها من الأفلام والألعاب؛ سنصدر بعض الأمثلة الإضافية قريبًا على YouTube. فيما يلي قائمة جزئية بالأفلام والممثلين والألعاب التي تعرفنا عليها.
أثارت تجارب المؤلفين مع Midjourney صورًا تشبه إلى حد كبير عشرات الممثلين ومشاهد الأفلام وألعاب الفيديو.
الآثار المترتبة على منتصف الرحلة
توفر هذه النتائج دليلًا قويًا على أن Midjourney قد تدرب على المواد المحمية بحقوق الطبع والنشر، وتثبت أن بعض أنظمة الذكاء الاصطناعي التوليدية على الأقل قد تنتج مخرجات مسروقة، حتى عندما لا يُطلب منها ذلك بشكل مباشر، مما قد يعرض المستخدمين لمطالبات انتهاك حقوق الطبع والنشر. الصحافة الأخيرة يدعم نفس الاستنتاج. على سبيل المثال قدمت دعوى قضائية أ جدول منسوبة إلى Midjourney وتحتوي على قائمة تضم أكثر من 4700 فنان يُعتقد أن أعمالهم قد استُخدمت في التدريب، ومن المحتمل جدًا دون موافقة. لمزيد من المناقشة حول استخراج بيانات الذكاء الاصطناعي التوليدي، راجع إنشاء لا تخدش.
ما مقدار المواد المصدرية لـ Midjourney التي هي مواد محمية بحقوق الطبع والنشر ويتم استخدامها بدون ترخيص؟ نحن لا نعرف على وجه اليقين. من المؤكد أن العديد من المخرجات تشبه المواد المحمية بحقوق الطبع والنشر، لكن الشركة لم تكن شفافة بشأن المواد المصدرية، ولا بشأن ما تم ترخيصه بشكل صحيح. (بعض هذا قد يظهر في اكتشاف قانوني بالطبع). ونعتقد أن بعضها على الأقل لم يتم ترخيصه.
في الواقع، كانت بعض التعليقات العامة للشركة رافضة لهذا السؤال. عندما كان الرئيس التنفيذي لشركة Midjourney مقابلة بواسطة فوربس، معربًا عن عدم اهتمام معين بحقوق أصحاب حقوق الطبع والنشر، قائلًا ردًا على أحد المحاورين الذي سأل: “هل طلبت موافقة الفنانين الأحياء أو العمل الذي لا يزال خاضعًا لحقوق الطبع والنشر؟”
لا، لا توجد حقًا طريقة للحصول على مائة مليون صورة ومعرفة مصدرها. سيكون أمرًا رائعًا إذا كانت الصور تحتوي على بيانات وصفية مضمنة حول مالك حقوق الطبع والنشر أو شيء من هذا القبيل. ولكن هذا ليس شيئا. ليس هناك التسجيل. لا توجد طريقة للعثور على صورة على الإنترنت، ومن ثم تتبعها تلقائيًا إلى المالك ومن ثم يكون لديك أي طريقة للقيام بأي شيء نانوغرام للمصادقة عليه.
إذا كان أي من المواد المصدرية غير مرخص، فيبدو لنا (باعتبارنا غير محامين) أن هذا من المحتمل أن يعرض Midjourney لدعاوى قضائية واسعة النطاق من قبل استوديوهات الأفلام، وناشري ألعاب الفيديو، والممثلين، وما إلى ذلك.
جوهر قانون حقوق النشر والعلامات التجارية هو الحد من إعادة الاستخدام التجاري غير المصرح به من أجل حماية منشئي المحتوى. نظرًا لأن Midjourney تتقاضى رسوم اشتراك، ويمكن اعتبارها منافسة للاستوديوهات، فيمكننا أن نفهم سبب تفكير المدعين في رفع دعوى قضائية. (في الواقع، كانت الشركة بالفعل رفع دعوى قضائية ضد بعض الفنانين.)
يبدو أن ميدجورني سعى إلى قمع النتائج التي توصلنا إليها، حيث قام بحظر أحد مؤلفي هذه القصة بعد أن أبلغ عن نتائجه الأولى.
وبطبيعة الحال، ليس كل عمل يستخدم مواد محمية بحقوق الطبع والنشر يعتبر غير قانوني. في الولايات المتحدة، على سبيل المثال، هناك عقيدة من أربعة أجزاء استخدام عادل يسمح باستخدام الأعمال المخالفة المحتملة في بعض الحالات، كما لو كان الاستخدام مختصرًا ولأغراض النقد أو التعليق أو التقييم العلمي أو المحاكاة الساخرة. قد ترغب شركات مثل Midjourney في الاعتماد على هذا الدفاع.
ومع ذلك، فإن Midjourney هي في الأساس خدمة تبيع الاشتراكات على نطاق واسع. يمكن لمستخدم فردي أن يرفع قضية بمثال معين من الانتهاك المحتمل الذي قد يؤدي استخدامه المحدد، على سبيل المثال، لشخصية من الكثبان الرملية كان للسخرية أو النقد، أو لأغراضهم غير التجارية. (معظم ما يشار إليه باسم “خيال المعجبين” يعتبر في الواقع انتهاكًا لحقوق الطبع والنشر، ولكن يتم التسامح معه عمومًا عندما يكون غير تجاري.) ما إذا كان بإمكان Midjourney تقديم هذه الحجة على نطاق واسع هو سؤال آخر تمامًا.
مستخدم واحد على X أشار إلى الحقيقة أن اليابان سمحت لشركات الذكاء الاصطناعي بالتدريب على مواد حقوق الطبع والنشر. وفي حين أن هذه الملاحظة صحيحة، فهي كذلك غير مكتملة ومبالغة في التبسيط، لأن هذا التدريب مقيد بالقيود المفروضة على الاستخدام غير المصرح به المستمدة مباشرة من القانون الدولي ذي الصلة (بما في ذلك اتفاقية برن و اتفاق تريبس). وفي كل الأحوال، يبدو من غير المرجح أن يكون للموقف الياباني أي وزن في المحاكم الأميركية.
وعلى نطاق أوسع، أعرب بعض الناس عن شعورهم بأن المعلومات بجميع أنواعها يجب أن تكون مجانية. ومن وجهة نظرنا فإن هذا الشعور لا يحترم حقوق الفنانين والمبدعين؛ سيكون العالم أكثر فقراً بدون عملهم.
علاوة على ذلك، فهو يذكرنا بالحجج التي تم تقديمها في الأيام الأولى نابستر، عندما تمت مشاركة الأغاني عبر شبكات نظير إلى نظير دون أي تعويض لمنشئيها أو ناشريها. مؤخرًا صياغات مثل “من الناحية العملية، لا يمكن فرض حقوق الطبع والنشر باستخدام نماذج قوية مثل [Stable Diffusion] أو “Midjourney” – حتى لو اتفقنا على القواعد التنظيمية، فإنه ليس من الممكن تحقيقها”، هي نسخة حديثة من هذا الخط من الحجج.
لا نعتقد أن شركات الذكاء الاصطناعي التوليدي الكبيرة يجب أن تفترض أن قوانين حقوق الطبع والنشر والعلامات التجارية ستتم حتمًا إعادة كتابتها بما يتوافق مع احتياجاتها.
ومن الجدير بالملاحظة أنه في النهاية، تم إغلاق انتهاك نابستر على نطاق واسع من قبل المحاكم، بعد رفع دعاوى قضائية من قبل ميتاليكا و ال رابطة صناعة التسجيلات الأمريكية (ريا). تم إطلاق نموذج الأعمال الجديد للبث المباشر، حيث حصل الناشرون والفنانون (بدرجة أقل بكثير مما نرغب) على حصة.
نابستر كما عرفه الناس اختفى بين عشية وضحاها. أفلست الشركة نفسها، وتم بيع أصولها، بما في ذلك اسمها، إلى خدمة البث المباشر. لا نعتقد أن شركات الذكاء الاصطناعي التوليدي الكبيرة يجب أن تفترض أن قوانين حقوق الطبع والنشر والعلامات التجارية ستتم حتمًا إعادة كتابتها بما يتوافق مع احتياجاتها.
إذا حذت شركات مثل Disney وMarvel وDC وNintendo حذوها اوقات نيويورك ورفع دعوى قضائية بشأن انتهاك حقوق الطبع والنشر والعلامات التجارية، فمن الممكن تمامًا أن يفوزوا، مثلما فعلت RIAA من قبل.
ومما زاد من تعقيد هذه الأمور أننا اكتشفنا أدلة على أن أحد كبار مهندسي البرمجيات في Midjourney شارك في محادثة في فبراير 2022 حول كيفية التهرب من قانون حقوق الطبع والنشر من خلال “بيانات “غسل الأموال”. “من خلال أ مخطوطة مضبوطة بدقة“. ثم قال مشارك آخر ربما عمل أو لم يعمل لدى Midjourney “في مرحلة ما، يصبح من المستحيل حقًا تتبع ما يعتبر عملاً مشتقًا في نظر حقوق الطبع والنشر.”
كما نفهم الأمور، يمكن أن تكون التعويضات العقابية كبيرة. كما ذكرنا من قبل، أفادت المصادر مؤخرًا أن Midjourney ربما يكون قد أنشأ عمدًا قائمة هائلة من الفنانين للتدريب عليهم، ربما دون ترخيص أو تعويض. نظرًا لمدى اقتراب البرنامج الحالي من المواد المصدرية، فليس من الصعب تصور دعوى قضائية جماعية.
علاوة على ذلك، يبدو أن ميدجورني سعى إلى قمع النتائج التي توصلنا إليها، فحظر ساوثين (بدون حتى استرداد الأموال) بعد أن أبلغ عن نتائجه الأولى، ومرة أخرى بعد أن أنشأ حسابًا جديدًا تم من خلاله الإبلاغ عن نتائج إضافية. ومن ثم يبدو أنه تغير شروط الخدمة قبل عيد الميلاد مباشرة عن طريق إدخال لغة جديدة: “لا يجوز لك استخدام الخدمة لمحاولة انتهاك حقوق الملكية الفكرية للآخرين، بما في ذلك حقوق النشر أو براءات الاختراع أو حقوق العلامات التجارية. إن القيام بذلك قد يعرضك لعقوبات بما في ذلك الإجراءات القانونية أو الحظر الدائم من الخدمة. قد يتم تفسير هذا التغيير على أنه يثبط أو حتى يمنع الممارسة المهمة والشائعة لـ الفريق الأحمر التحقيقات في حدود الذكاء الاصطناعي التوليدي – وهي ممارسة التزمت بها العديد من شركات الذكاء الاصطناعي الكبرى كجزء منها الاتفاقيات مع إعلان البيت الأبيض في عام 2023. (أنشأ ساوثين حسابين إضافيين من أجل إكمال هذا المشروع؛ وقد تم حظرهما أيضًا، مع عدم إعادة رسوم الاشتراك).
نحن نرى أن هذه الممارسات — حظر المستخدمين وتثبيط تشكيل فرق حمراء — غير مقبولة. الطريقة الوحيدة للتأكد من أن الأدوات ذات قيمة وآمنة وغير استغلالية هي إتاحة الفرصة للمجتمع للتحقيق؛ ولهذا السبب على وجه التحديد اتفق المجتمع عمومًا على أن الفريق الأحمر يمثل جزءًا مهمًا من تطوير الذكاء الاصطناعي، خاصة وأن هذه الأنظمة لا تزال بعيدة عن الفهم الكامل.
إن الضغط الذي يدفع شركات الذكاء الاصطناعي المنتجة لجمع المزيد من البيانات وجعل نماذجها أكبر قد يجعل النماذج أكثر سرقة أدبية.
نحن نشجع المستخدمين على التفكير في استخدام خدمات بديلة ما لم تتراجع Midjourney عن هذه السياسات التي تثني المستخدمين عن التحقيق في مخاطر انتهاك حقوق الطبع والنشر، خاصة وأن Midjourney كانت غامضة بشأن مصادرها.
أخيرًا، كسؤال علمي، لا يغيب عنا أن برنامج Midjourney ينتج بعض الصور الأكثر تفصيلاً لأي برنامج حالي لتوليد الصور. والسؤال المفتوح هو ما إذا كان الميل إلى إنشاء صور مسروقة يزداد مع زيادة القدرة.
تشير البيانات المتعلقة بمخرجات النص التي كتبها نيكولاس كارليني والتي ذكرناها أعلاه إلى أن هذا قد يكون صحيحًا، كما هو الحال مع تجربتنا وخبرتنا. تقرير غير رسمي شاهدناه على X. من المنطقي أنه كلما زاد عدد البيانات التي يمتلكها النظام، كلما كان بإمكانه التقاط الارتباطات الإحصائية بشكل أفضل، ولكن ربما يكون أيضًا أكثر عرضة لإعادة إنشاء شيء ما بالضبط.
وبعبارة مختلفة قليلاً، إذا كانت هذه التخمينات صحيحة، فإن الضغط نفسه الذي يدفع شركات الذكاء الاصطناعي التوليدي إلى جمع المزيد والمزيد من البيانات وجعل نماذجها أكبر وأكبر (من أجل جعل المخرجات أكثر شبهاً بالإنسان) قد يجعل النماذج أكثر انتحالاً.
مخرجات مرئية مسروقة في منصة أخرى: DALL-E 3
سؤال المتابعة الواضح هو إلى أي مدى تنطبق الأشياء التي قمنا بتوثيقها على أنظمة إنشاء صور الذكاء الاصطناعي التوليدية الأخرى؟ تساءلت مجموعتنا التالية من التجارب عما إذا كان ما وجدناه فيما يتعلق بـ Midjourney صحيحًا في OpenAI دال-E 3، كما تم توفيره من خلال Microsoft Bing.
كما أبلغنا مؤخرا على المكدس الفرعي، وكان الجواب مرة أخرى بوضوح نعم. كما هو الحال مع Midjourney، كان DALL-E 3 قادرًا على إنشاء تمثيلات مسروقة (شبه متطابقة) للأحرف المسجلة كعلامة تجارية، حتى عندما لم يتم ذكر تلك الأحرف بالاسم.
أنشأت DALL-E 3 أيضًا عالمًا كاملاً من الانتهاكات المحتملة للعلامات التجارية من خلال هذه المطالبة المكونة من كلمتين: الألعاب المتحركة [bottom right].
أنتجت DALL-E 3 من OpenAI، مثل Midjourney، صورًا تشبه إلى حد كبير شخصيات من الأفلام والألعاب.غاري ماركوس وريد ساوثين عبر DALL-E 3
يبدو أن DALL-E 3 من OpenAI، مثل Midjourney، قد اعتمد على مجموعة واسعة من المصادر المحمية بحقوق الطبع والنشر. كما هو الحال في حالة Midjourney، يبدو أن OpenAI تدرك جيدًا حقيقة أن برامجها قد تنتهك حقوق الطبع والنشر، حيث تعرض في نوفمبر تعويض المستخدمين (مع بعض القيود) من دعاوى انتهاك حقوق النشر. ونظراً لحجم ما اكتشفناه هنا، فإن التكاليف المحتملة كبيرة.
ما مدى صعوبة تكرار هذه الظواهر؟
كما هو الحال مع أي نظام عشوائي، لا يمكننا أن نضمن أن مطالباتنا المحددة ستقود المستخدمين الآخرين إلى مخرجات مماثلة؛ علاوة على ذلك كان هناك بعض التكهنات أن OpenAI قامت بتغيير نظامها في الوقت الفعلي لاستبعاد بعض السلوكيات المحددة التي أبلغنا عنها. ومع ذلك، فقد تكررت الظاهرة بشكل عام على نطاق واسع خلال يومين من صدور تقريرنا الأصلي الكيانات الأخرى ذات العلامات التجارية و حتى في اللغات الأخرى.
أظهر أحد مستخدمي X هذا المثال لـ Midjourney وهو ينتج صورة تشبه علبة Coca-Cola عند إعطائه مطالبة غير مباشرة فقط.كاتي كونرادKS/X
والسؤال التالي هو: ما مدى صعوبة حل هذه المشكلات؟
الحل المحتمل: إزالة المواد المحمية بحقوق الطبع والنشر
ويتلخص الحل الأمثل في إعادة تدريب نماذج توليد الصور دون استخدام مواد محمية بحقوق الطبع والنشر، أو قصر التدريب على مجموعات البيانات المرخصة بشكل صحيح.
لاحظ أن أحد البدائل الواضحة – إزالة المواد المحمية بحقوق الطبع والنشر فقط بعد ظهور شكاوى، على غرار طلبات الإزالة على YouTube – يعد تنفيذه أكثر تكلفة بكثير مما قد يتخيله العديد من القراء. لا يمكن بأي طريقة بسيطة إزالة مواد معينة محمية بحقوق الطبع والنشر من النماذج الموجودة؛ الشبكات العصبية الكبيرة ليست قواعد بيانات يمكن من خلالها حذف السجل المخالف بسهولة. في الوضع الحالي، فإن ما يعادل إشعارات الإزالة سيتطلب إعادة تدريب (مكلفة للغاية) في كل حالة.
ورغم أن الشركات يمكنها بوضوح تجنب مخاطر الانتهاك من خلال إعادة تدريب نماذجها دون أي مواد غير مرخصة، إلا أن الكثيرين قد يميلون إلى التفكير في أساليب أخرى. وربما يحاول المطورون تجنب رسوم الترخيص، وتجنب تكاليف إعادة التدريب الكبيرة. علاوة على ذلك، قد تكون النتائج أسوأ بدون المواد المحمية بحقوق الطبع والنشر.
لذلك قد يرغب بائعو الذكاء الاصطناعي التوليدي في تصحيح أنظمتهم الحالية لتقييد أنواع معينة من الاستعلامات وأنواع معينة من المخرجات. لقد قمنا بالفعل تظهر بعض العلامات على ذلك (أدناه)، ولكن أعتقد أنها معركة شاقة.
ربما تحاول OpenAI تصحيح هذه المشكلات على أساس كل حالة على حدة في الوقت الفعلي. قام أحد مستخدمي X بمشاركة مطالبة DALL-E-3 التي أنتجت أولًا صورًا لـ C-3PO، ثم أنتجت لاحقًا رسالة تفيد بأنه لا يمكنه إنشاء الصورة المطلوبة.لارس ويلديرانج/X
نرى طريقتين أساسيتين لحل مشكلة الصور المسروقة دون إعادة تدريب النماذج، وليس من السهل تنفيذها بشكل موثوق.
الحل المحتمل: تصفية الاستعلامات التي قد تنتهك حقوق الطبع والنشر
لتصفية الاستعلامات الإشكالية، يكون تنفيذ بعض النتائج المنخفضة أمرًا تافهًا (على سبيل المثال، لا تقم بإنشاء Batman). لكن الحالات الأخرى يمكن أن تكون دقيقة، ويمكن أن تشمل أكثر من استعلام واحد، مثل i ن هذا المثال من مستخدم X نليسول:
لقد أظهرت التجربة أن حواجز الحماية في أنظمة إنشاء النصوص غالبًا ما تكون في نفس الوقت متساهلة للغاية في بعض الحالات ومقيدة للغاية في حالات أخرى. ومن المرجح أن تواجه الجهود الرامية إلى تصحيح خدمات توليد الصور (وفي نهاية المطاف الفيديو) صعوبات مماثلة. على سبيل المثال، طلب أحد الأصدقاء، جوناثان كيتزن، من Bing مؤخرًا “مرحاض في منظر طبيعي مقفر مشمس“. رفض Bing الامتثال، وبدلاً من ذلك أعاد علامة محيرة مفادها “تم اكتشاف محتوى صورة غير آمن”. علاوة على ذلك، مثل كاتي كونراد اظهر، فإن ردود Bing حول ما إذا كان المحتوى الذي ينشئه يمكن استخدامه بشكل قانوني تكون في بعض الأحيان مضللة للغاية.
بالفعل، هناك أدلة على الانترنت مع نصائح حول كيفية التغلب على حواجز حماية OpenAI بالنسبة لـ DALL-E 3، مع نصائح مثل “تضمين تفاصيل محددة تميز الشخصية، مثل تسريحات الشعر المختلفة وملامح الوجه وأنسجة الجسم” و”استخدام أنظمة الألوان التي تلمح إلى الأصل ولكنها تستخدم ظلال وأنماط وترتيبات فريدة”. ” الذيل الطويل للحالات التي يصعب توقعها مثل تقاطع براد بيت أدناه (ذكرت على رديت) قد تكون لا نهاية لها.
شارك أحد مستخدمي Reddit هذا المثال من الخداع ChatGPT في إنتاج صورة لبراد بيت.لوفجوف/ريديت
الحل المحتمل: تصفية المصادر
سيكون أمراً رائعاً لو تمكنت برمجيات توليد الفن من إدراج المصادر التي استمدت منها، مما يسمح للبشر بالحكم على ما إذا كان المنتج النهائي مشتقاً أم لا، لكن الأنظمة الحالية ببساطة مبهمة للغاية في طبيعتها “الصندوق الأسود” بحيث لا تسمح بذلك. عندما نحصل على مخرجات في مثل هذه الأنظمة، فإننا لا نعرف مدى ارتباطها بأي مجموعة معينة من المدخلات.
إن وجود مخرجات محتملة الانتهاك هو في حد ذاته دليل على مشكلة أخرى: الاستخدام غير التوافقي للعمل البشري المحمي بحقوق الطبع والنشر لتدريب الآلات.
لا توجد خدمة حالية تقدم عرضًا لتفكيك العلاقات بين المخرجات وأمثلة تدريب محددة، كما أننا لسنا على علم بوجود أي عروض توضيحية مقنعة في الوقت الحالي. تقوم الشبكات العصبية الكبيرة، كما نعرف كيفية بنائها، بتقسيم المعلومات إلى العديد من الأجزاء الصغيرة الموزعة؛ من المعروف أن إعادة بناء المصدر أمر صعب للغاية.
كملاذ أخير، المستخدم X @bartekxx12 جربت محاولة الحصول على ChatGPT والبحث العكسي عن الصور من Google لتحديد المصادر، بنجاح مختلط (لكن ليس صفرًا). ويبقى أن نرى ما إذا كان من الممكن استخدام مثل هذه الأساليب بشكل موثوق، خاصة مع المواد الأحدث والأقل شهرة من تلك التي استخدمناها في تجاربنا.
الأهم من ذلك، على الرغم من أن بعض شركات الذكاء الاصطناعي وبعض المدافعين عن الوضع الراهن اقترحوا تصفية المخرجات المخالفة كعلاج محتمل، إلا أنه لا ينبغي بأي حال من الأحوال أن تُفهم مثل هذه المرشحات على أنها حل كامل. إن وجود مخرجات محتملة الانتهاك هو في حد ذاته دليل على مشكلة أخرى: الاستخدام غير التوافقي للعمل البشري المحمي بحقوق الطبع والنشر لتدريب الآلات. وتماشيًا مع مقصد القانون الدولي الذي يحمي الملكية الفكرية وحقوق الإنسان، لا ينبغي أبدًا استخدام أي عمل للمبدع في التدريب التجاري دون موافقة.
لماذا كل هذا مهم، إذا كان الجميع يعرف ماريو بالفعل على أي حال؟
لنفترض أنك طلبت صورة سباك واحصل على ماريو. كمستخدم، ألا يمكنك تجاهل صور ماريو بنفسك؟ مستخدم X @Nicky_BoneZ يعالج هذا بوضوح:
… الجميع يعرف كيف يبدو ماريو. لكن لن يتعرف أحد على تصوير مايك فينكلستين للحياة البرية. لذلك، عندما تقول “صورة جميلة ورائعة للغاية لثعلب الماء وهو يقفز من الماء” ربما لا تدرك أن الناتج هو في الأساس صورة حقيقية بقي مايك خارجًا تحت المطر لمدة ثلاثة أسابيع لالتقاطها.
وكما يشير المستخدم نفسه، من غير المرجح أيضًا أن يكون لدى الفنانين الأفراد مثل فينكلستين ما يكفي من الموظفين القانونيين لمتابعة الدعاوى ضد شركات الذكاء الاصطناعي، مهما كانت صالحة.
مستخدم X آخر بالمثل ناقش مثالا لصديق قام بإنشاء صورة تتضمن عبارة “رجل يدخن سيجارة بأسلوب الستينيات” واستخدمها في مقطع فيديو؛ لم يكن الصديق يعلم أنهم استخدموا للتو نسخة مكررة تقريبًا من صورة Getty Image لبول مكارتني.
وقد تحظى هذه الشركات أيضًا باهتمام لجنة التجارة الفيدرالية الأمريكية وغيرها من وكالات حماية المستهلك في جميع أنحاء العالم.
في برنامج الرسم البسيط، أي شيء ينشئه المستخدمون هو ملكهم لاستخدامه كما يحلو لهم، إلا إذا قاموا عمدًا باستيراد مواد أخرى. برنامج الرسم نفسه لا ينتهك أبدًا. باستخدام الذكاء الاصطناعي التوليدي، من الواضح أن البرنامج نفسه قادر على إنشاء مواد مخالفة، والقيام بذلك دون إخطار المستخدم بالانتهاك المحتمل.
باستخدام بحث الصور من Google، يمكنك الحصول على رابط، وليس شيئًا يمثله العمل الفني الأصلي. إذا عثرت على صورة عبر Google، فيمكنك اتباع هذا الرابط لمحاولة تحديد ما إذا كانت الصورة ضمن الملكية العامة، أو من وكالة الأوراق المالية، وما إلى ذلك. في نظام الذكاء الاصطناعي التوليدي، الاستنتاج المطلوب هو أن الإنشاء هو عمل فني أصلي يمكن للمستخدم استخدامه مجانًا. لم يتم توفير أي بيان لكيفية إنشاء العمل الفني.
وبصرف النظر عن بعض اللغة المدفونة في شروط الخدمة، ليس هناك تحذير من أن الانتهاك قد يكون مشكلة. لا يوجد أي تحذير على حد علمنا بأن أي مخرجات محددة من المحتمل أن تنتهك وبالتالي لا ينبغي استخدامها لأغراض تجارية. مثل إد نيوتن ريكس، وهو موسيقي ومهندس برمجيات ابتعد مؤخرًا عن Stable Diffusion بسبب مخاوف أخلاقية ضعه,
يجب أن يكون المستخدمون قادرين على توقع أن منتجات البرامج التي يستخدمونها لن تتسبب في انتهاك حقوق الطبع والنشر. وفي أمثلة متعددة حاليا [circulating]، فلا يُتوقع من المستخدم أن يعرف أن مخرجات النموذج كانت نسخة من عمل شخص ما محمي بحقوق الطبع والنشر.
على حد تعبير محلل المخاطر فيكي بير,
“إذا لم تحذر الأداة المستخدم من أن المخرجات قد تكون محمية بحقوق الطبع والنشر، فكيف يمكن أن يتحمل المستخدم المسؤولية؟ يمكن أن يساعدني الذكاء الاصطناعي في انتهاك المواد المحمية بحقوق الطبع والنشر التي لم أرها من قبل وليس لدي سبب لأعرف أنها محمية بحقوق الطبع والنشر.
في الواقع، لا توجد أداة أو قاعدة بيانات متاحة للعامة يمكن للمستخدمين الرجوع إليها لتحديد الانتهاكات المحتملة. ولا أي تعليمات للمستخدمين حول كيفية القيام بذلك.
ومن خلال فرض عبء مفرط وغير عادي وغير موضح بالقدر الكافي على كل من المستخدمين ومقدمي المحتوى غير الموافقين، فقد تجذب هذه الشركات أيضًا انتباه لجنة التجارة الفيدرالية الأمريكية وغيرها من وكالات حماية المستهلك في جميع أنحاء العالم.
الأخلاق ومنظور أوسع
صرح مهندس البرمجيات فرانك رونداتز مؤخرًا بـ منظور أوسع.
في أحد الأيام، سننظر إلى الوراء ونتساءل كيف امتلكت شركة ما الجرأة لنسخ جميع المعلومات حول العالم وتمكين الأشخاص من انتهاك حقوق الطبع والنشر لتلك الأعمال.
كل ما فعلته Napster هو تمكين الأشخاص من نقل الملفات بطريقة نظير إلى نظير. لم يستضيفوا حتى أيًا من المحتوى! حتى أن نابستر طورت نظامًا لإيقاف 99.4% من انتهاكات حقوق الطبع والنشر من جانب مستخدميها، لكنها ظلت مغلقة لأن المحكمة طلبت منها التوقف بنسبة 100%.
تقوم OpenAI بفحص كل المحتوى واستضافته، وتبيع إمكانية الوصول إليه وستقوم أيضًا بإنشاء أعمال مشتقة لمستخدميها الذين يدفعون.
كما سبق، بطبيعة الحال، لميدجورني.
أستاذ ستانفورد سوريا جانجولي يضيف:
يعمل العديد من الباحثين الذين أعرفهم في مجال التكنولوجيا الكبرى على مواءمة الذكاء الاصطناعي مع القيم الإنسانية. ولكن على المستوى الداخلي، ألا ينبغي أن يستلزم هذا التوافق تعويض البشر عن توفير بيانات التدريب من خلال إنتاجهم الإبداعي الأصلي المحمي بحقوق الطبع والنشر؟ (هذه مسألة قيمية وليست قانونية).
لتوسيع وجهة نظر جانجولي، هناك مخاوف أخرى بشأن توليد الصور تتجاوز الملكية الفكرية وحقوق الفنانين. يتم استخدام أنواع مماثلة من تقنيات توليد الصور لهذه الأغراض مثل إنشاء مواد الاعتداء الجنسي على الأطفال والإباحية العميقة غير التوافقية. وبقدر ما يكون مجتمع الذكاء الاصطناعي جادًا في مواءمة البرامج مع القيم الإنسانية، فمن الضروري تطوير القوانين والأعراف والبرمجيات لمكافحة مثل هذه الاستخدامات.
ملخص
يبدو من المؤكد أن مطوري الذكاء الاصطناعي التوليدي مثل OpenAI وMidjourney قاموا بتدريب أنظمة توليد الصور الخاصة بهم على مواد محمية بحقوق الطبع والنشر. ولم تكن أي من الشركتين شفافتين بشأن هذا الأمر؛ ذهب Midjourney إلى حد حظرنا ثلاث مرات للتحقيق في طبيعة المواد التدريبية الخاصة بهم.
كل من OpenAI وMidjourney قادران تمامًا على إنتاج مواد يبدو أنها تنتهك حقوق الطبع والنشر والعلامات التجارية. ولا تقوم هذه الأنظمة بإبلاغ المستخدمين عند قيامهم بذلك. ولا يقدمون أي معلومات حول مصدر الصور التي ينتجونها. قد لا يعرف المستخدمون، عندما ينتجون صورة، ما إذا كانوا ينتهكون ذلك أم لا.
وما لم يتوصل شخص ما إلى حل تقني من شأنه إما الإبلاغ بدقة عن المصدر أو تصفية الغالبية العظمى من انتهاكات حقوق الطبع والنشر تلقائيًا، فإن الحل الأخلاقي الوحيد هو أن تقصر أنظمة الذكاء الاصطناعي التوليدية تدريبها على البيانات التي قامت بترخيصها بشكل صحيح. ولابد أن تكون أنظمة توليد الصور مطلوبة لترخيص الفن المستخدم للتدريب، تماماً كما تكون خدمات البث مطلوبة لترخيص الموسيقى والفيديو.
كل من OpenAI وMidjourney قادران تمامًا على إنتاج مواد يبدو أنها تنتهك حقوق الطبع والنشر والعلامات التجارية. ولا تقوم هذه الأنظمة بإبلاغ المستخدمين عند قيامهم بذلك.
نأمل أن تؤدي النتائج التي توصلنا إليها (والنتائج المماثلة التي توصلنا إليها من الآخرين الذين بدأوا في اختبار السيناريوهات ذات الصلة) إلى قيام مطوري الذكاء الاصطناعي التوليدي بتوثيق مصادر بياناتهم بعناية أكبر، وتقييد أنفسهم بالبيانات المرخصة بشكل صحيح، وإدراج الفنانين في بيانات التدريب فقط إذا وافقوا، وتعويض الفنانين عن أعمالهم. على المدى الطويل، نأمل أن يتم تطوير برمجيات تتمتع بقوة كبيرة كأداة فنية، ولكن دون استغلال فن الفنانين غير الموافقين.
على الرغم من أننا لم نتناولها هنا، إلا أننا نتوقع تمامًا ظهور مشكلات مماثلة عند تطبيق الذكاء الاصطناعي التوليدي على مجالات أخرى، مثل توليد الموسيقى.
متابعة على اوقات نيويورك الدعوى القضائية، تشير نتائجنا إلى أن أنظمة الذكاء الاصطناعي التوليدية قد تنتج بانتظام مخرجات مسروقة، مكتوبة ومرئية، دون شفافية أو تعويض، بطرق تضع أعباء لا داعي لها على المستخدمين ومنشئي المحتوى. ونحن نعتقد أن احتمالات التقاضي قد تكون هائلة، وأن أسس المشروع برمته قد تكون مبنية على أرضية مهزوزة أخلاقيا.
ترتيب المؤلفين أبجديا. ساهم كلا المؤلفين بالتساوي في هذا المشروع. كتب غاري ماركوس المسودة الأولى لهذه المخطوطة وساعد في توجيه بعض التجارب، بينما تصور ريد ساوثين التحقيق واستخرج جميع الصور.