ما تعنيه حقًا الدعوى التي رفعتها سارة سيلفرمان ضد شركة OpenAI و Meta

استمر تسخين التقاضي الذي يستهدف ممارسات إلغاء البيانات لشركات الذكاء الاصطناعي التي تطور نماذج لغوية كبيرة (LLMs) اليوم ، مع الأخبار التي تفيد بأن الممثلة الكوميدية والمؤلفة سارة سيلفرمان تقاضي OpenAI و Meta بسبب انتهاك حقوق الطبع والنشر لمذكراتها المضحكة ، البادرة: قصص الشجاعة والفداء والتبول، تم نشره في عام 2010.

ال دعوى قضائية، التي رفعتها شركة Joseph Saveri Law Firm ومقرها سان فرانسيسكو – والتي رفعت أيضًا دعوى ضد GitHub في عام 2022 – تدعي أن Silverman واثنين من المدعين الآخرين لم يوافقوا على استخدام كتبهم المحمية بحقوق الطبع والنشر كمواد تدريبية لـ OpenAI’s ChatGPT و Meta LLaMA ، وأنه عندما يُطلب من ChatGPT أو LLaMA ، تقوم الأداة بإنشاء ملخصات للأعمال المحمية بحقوق الطبع والنشر ، وهو أمر ممكن فقط إذا تم تدريب النماذج عليها.

لن تختفي هذه القضايا القانونية المتعلقة بحقوق النشر و “الاستخدام العادل” – في الواقع ، إنها تذهب إلى قلب ما تصنعه LLM اليوم – أي بيانات التدريب. أنا مناقشة في الأسبوع الماضي ، يمكن وصف تجريف الويب لكميات هائلة من البيانات بأنه الخلطة السرية لـالذكاء الاصطناعي التوليدي. روبوتات الدردشة التي تعمل بالذكاء الاصطناعي مثل ChatGPT و LLaMA و Claude (من Anthropic) و Bard (من Google) يمكنها أن تبث نصًا متماسكًا لأنها تدربت على مجموعة ضخمة من البيانات ، معظمها مأخوذة من الإنترنت. وبحجم اليومماجستيرمثل GPT-4 تضخمت إلى مئات المليارات من الرموز ، وكذلك الجوع للبيانات.

حدث

تحويل 2023

انضم إلينا في سان فرانسيسكو يومي 11 و 12 يوليو ، حيث سيشارك كبار المسؤولين التنفيذيين في كيفية دمج استثمارات الذكاء الاصطناعي وتحسينها لتحقيق النجاح وتجنب المزالق الشائعة.

سجل الان

تعرضت ممارسات جمع البيانات باسم التدريب على الذكاء الاصطناعي للهجوم مؤخرًا. على سبيل المثال ، تم ضرب OpenAI بـاثنين دعاوى قضائية جديدة أخرى. يدعي أحدهم في 28 يونيو ، من قبل شركة جوزيف سافيري للمحاماة ، أن OpenAI نسخت بشكل غير قانوني نص الكتاب من خلال عدم الحصول على موافقة من أصحاب حقوق الطبع والنشر أو منحهم ائتمانًا وتعويضًا. الأخرى، قدم في نفس اليوم بواسطة Clarkson Law Firm نيابة عن أكثر من عشرة مدعين مجهولين ، تدعي شركة OpenAI’s ChatGPT و DALL-E جمع البيانات الشخصية للأشخاص من جميع أنحاء الإنترنت في انتهاك لقوانين الخصوصية.

هذه الدعاوى القضائية ، بدورها ، تأتي في أعقاب دعوى جماعية رفعت في يناير ،أندرسن وآخرون. v. الاستقرار AI ،حيث رفع المدعون من الفنانين دعاوى بما في ذلك انتهاك حقوق الطبع والنشر. صور غيتي أيضا رفعت دعوى قضائية ضد Stability AI في فبراير ، بدعوى انتهاك حقوق النشر والعلامات التجارية ، بالإضافة إلى إضعاف العلامة التجارية.

سارة سيلفرمان ، بالطبع ، تضيف طبقة جديدة من المشاهير إلى القضايا المتعلقة بالذكاء الاصطناعي وحقوق النشر – ولكن ماذا تعني هذه الدعوى الجديدة حقًا للذكاء الاصطناعي؟ ها هي توقعاتي:

1. هناك العديد من الدعاوى القضائية القادمة.

في مقالتي في الأسبوع الماضي ، وصفت مارجريت ميتشل ، الباحثة وكبيرة علماء الأخلاقيات في Hugging Face ، قضايا إلغاء بيانات الذكاء الاصطناعي بأنها “تأرجح البندول” ، مضيفة أنها توقعت سابقًا أنه بحلول نهاية العام ، قد تضطر شركة OpenAI إلى حذف واحدة على الأقل نموذج بسبب هذه القضايا البيانات.

بالتأكيد ، يجب أن نتوقع المزيد من الدعاوى القضائية القادمة. بالعودة إلى أبريل 2022 ، عندما ظهر DALL-E 2 لأول مرة ، مارك ديفيز ، الشريك في شركة Orrick للمحاماة ومقرها سان فرانسيسكو ، متفق هناك العديد من الأسئلة القانونية المفتوحة عندما يتعلق الأمر بالذكاء الاصطناعي و “الاستخدام العادل” – وهو مبدأ قانوني يعزز حرية التعبير من خلال السماح بالاستخدام غير المرخص للأعمال المحمية بموجب حقوق الطبع والنشر في ظروف معينة.

قال: “ما يحدث في الواقع هو أنه عندما تكون هناك رهانات كبيرة ، فأنت تقاضيها”. “وبعد ذلك تحصل على الإجابات بطريقة خاصة بكل حالة.”

والآن ، كان الجدل المتجدد حول تجريف البيانات “يتسلل” ، كما أخبرني جريجوري لايتون ، المتخصص في قانون الخصوصية في شركة المحاماة Polsinelli ، الأسبوع الماضي. وقال إن الدعاوى القضائية الخاصة بشركة أوبن إيه آي وحدها كافية لتكون نقطة اشتعال لجعل رد الفعل الآخر أمرًا لا مفر منه. قال: “لم ندخل حتى عام واحد في عصر نموذج اللغة الكبير – كان سيحدث في مرحلة ما”.

قد تنتهي المعارك القانونية حول حقوق النشر والاستخدام العادل في نهاية المطاف في المحكمة العليا ، كما أخبرني برادفورد نيومان ، الذي يقود التعلم الآلي وممارسات الذكاء الاصطناعي في شركة المحاماة العالمية بيكر ماكنزي ، في أكتوبر الماضي.

قال: “من الناحية القانونية ، في الوقت الحالي ، هناك القليل من الإرشادات” ، حول ما إذا كانت المدخلات المحمية بحقوق الطبع والنشر في بيانات تدريب LLM هي “استخدام عادل”. وتوقع أن تتوصل المحاكم المختلفة إلى استنتاجات مختلفة: “في النهاية ، أعتقد أن هذا سيذهب إلى المحكمة العليا”.

2. ستخضع مجموعات البيانات للتدقيق بشكل متزايد ، ولكن سيكون من الصعب تنفيذها.

في دعوى Silverman ، يدعي المؤلفون أن OpenAI و Meta أزالوا عن عمد معلومات إدارة حقوق النشر مثل إشعارات حقوق النشر والعناوين.

“كان ميتا يعرف أو كان لديه أسباب معقولة لمعرفة أن هذا الإزالة [copyright management information] من شأنه تسهيل انتهاك حقوق الطبع والنشر من خلال إخفاء حقيقة أن كل ناتج من نماذج لغة LLaMA هو عمل مشتق منتهك “، كما زعم المؤلفون في شكواهم ضد Meta.

تكهنت شكاوى المؤلفين أيضًا بأن ChatGPT و LLaMA قد تم تدريبهما على مجموعات بيانات ضخمة من الكتب التي تتجنب قوانين حقوق النشر ، بما في ذلك “مكتبات الظل” مثل Library Genesis و ZLibrary.

يقول المؤلفان: “لطالما كانت مكتبات الظل هذه موضع اهتمام مجتمع تدريب الذكاء الاصطناعي نظرًا للكمية الكبيرة من المواد المحمية بحقوق الطبع والنشر التي تستضيفها” شكوىضد ميتا. “لهذا السبب ، تعد مكتبات الظل هذه أيضًا غير قانونية بشكل صارخ.”

لكن قانون بلومبرج شرط أشار أكتوبر الماضي إلى أن هناك العديد من العقبات القانونية التي يجب التغلب عليها عندما يتعلق الأمر بمكافحة حقوق النشر ضد مكتبة الظل. على سبيل المثال ، يوجد العديد من مشغلي الموقع في دول خارج الولايات المتحدة ، وفقًا لـفرقة جوناثان، محامي الملكية الفكرية ومؤسس شركة Jonathan Band PLLC.

وكتب في المقال: “إنهم خارج نطاق قانون حقوق النشر الأمريكي”. “من الناحية النظرية ، يمكن للمرء أن يذهب إلى البلد الذي تستضيف فيه قاعدة البيانات. لكن هذا مكلف وفي بعض الأحيان توجد جميع أنواع القضايا المتعلقة بمدى فعالية المحاكم هناك ، أو إذا كان لديهم نظام قضائي جيد أو نظام قضائي فعال يمكنه تنفيذ الأوامر “.

بالإضافة إلى ذلك ، غالبًا ما يقع على عاتق المبدع مسؤولية إثبات أن استخدام العمل المحمي بحقوق الطبع والنشر لتدريب الذكاء الاصطناعي أدى إلى عمل “مشتق”. في مقال بلغة الحافة في تشرين الثاني (نوفمبر) الماضي ، قال دانييل جيرفيس ، الأستاذ في كلية فاندربيلت للقانون ، إن تدريب الذكاء الاصطناعي على البيانات المحمية بحقوق الطبع والنشر من المحتمل أن يكون قانونيًا ، ولكن لا يمكن قول الشيء نفسه بالضرورة عنتوليدالمحتوى – أي أن ما تفعله بهذا النموذج قد يمثل انتهاكًا.

وكاتي جاردنر ، شريكة في شركة محاماة دوليةجوندرسون ديتمير، أخبرني الأسبوع الماضي أن الاستخدام العادل هو “دفاع عن انتهاك حقوق الطبع والنشر وليس حقًا قانونيًا”. بالإضافة إلى ذلك ، قد يكون من الصعب للغاية التنبؤ بكيفية ظهور المحاكم في أي قضية استخدام عادل ، على حد قولها. “هناك درجة سابقة حيث تم البت في حالتين لهما حقائق متشابهة على ما يبدو بشكل مختلف.”

لكنها شددت على وجود سابقة للمحكمة العليا تدفع الكثيرين إلى استنتاج أن استخدام المواد المحمية بحقوق الطبع والنشر لتدريب الذكاء الاصطناعي يمكن أن يكون استخدامًا عادلاً بناءً على الطبيعة التحويلية لمثل هذا الاستخدام – أي أنه لا ينقل السوق للعمل الأصلي.

3. ستريد الشركات نماذجها الخاصة أو التعويض

لقد أوضحت شركات المؤسسات بالفعل أنها لا تريد التعامل مع مخاطر الدعاوى القضائية المتعلقة ببيانات التدريب على الذكاء الاصطناعي – فهم يريدون الوصول الآمن لإنشاء محتوى ذكاء اصطناعي خالي من المخاطر للاستخدام التجاري.

هذا هو المكان الذي تحرك فيه التعويض في المقدمة والوسط: الأسبوع الماضي ، Shutterstock أعلن أنه سيقدم لعملاء المؤسسات تعويضًا كاملاً عن ترخيص واستخدامالذكاء الاصطناعي التوليديالصور على نظامها الأساسي لحمايتهم من المطالبات المحتملة المتعلقة باستخدامهم للصور. وقالت الشركة إنها ستلبي طلبات التعويض عند الطلب من خلال مراجعة بشرية للصور.

جاءت هذه الأخبار بعد شهر واحد فقط من Adobeأعلنعرض مشابه: “إذا تمت مقاضاة أحد العملاء بتهمة الانتهاك ، فستتولى Adobe الدفاع القانوني وتوفر بعض التغطية المالية لتلك الادعاءات ،” قال متحدث باسم الشركة.

وبيانات استطلاع جديدة من منصة MLOps للمؤسسةدومينو داتا مختبروجدت أن علماء البيانات يعتقدون أن الذكاء الاصطناعي التوليدي سيؤثر بشكل كبير على المؤسسات خلال السنوات القليلة المقبلة ، ولكن لا يمكن الاستعانة بمصادر خارجية لقدراته – أي تحتاج الشركات إلى ضبط أو التحكم في نماذج الذكاء الاصطناعي العامة الخاصة بها.

قال كجيل كارلسون ، رئيس إستراتيجية علوم البيانات في Domino Data Lab ، إنه إلى جانب أمان البيانات ، تعد حماية IP مشكلة أخرى. قال: “إذا كان الأمر مهمًا وذو قيمة محركة حقًا ، فعندئذ يريدون امتلاكه والحصول على درجة أكبر من السيطرة”.

مهمة VentureBeat هو أن تكون ساحة المدينة الرقمية لصناع القرار التقنيين لاكتساب المعرفة حول تكنولوجيا المؤسسات التحويلية والمعاملات. اكتشف إحاطاتنا.

اقرأ أكثر

ما تعنيه حقًا الدعوى التي رفعتها سارة سيلفرمان ضد شركة OpenAI و Meta | فوز الذكاء الاصطناعي

حدث

1. هناك العديد من الدعاوى القضائية القادمة.

2. ستخضع مجموعات البيانات للتدقيق بشكل متزايد ، ولكن سيكون من الصعب تنفيذها.

3. ستريد الشركات نماذجها الخاصة أو التعويض

Reactions

ردود الفعل