مشاركاتك هي المنتج –
وتأتي الصفقات التي تتراوح مدتها بين عامين وثلاثة أعوام مع شركة جوجل وغيرها وسط حالة من عدم اليقين القانوني بشأن “الاستخدام العادل”.
الأسبوع الماضي رأى تسرب الكلمة أن Google وافقت على ترخيص مجموعة Reddit الضخمة المكونة من مليارات المشاركات والتعليقات للمساعدة في تدريب نماذجها اللغوية الكبيرة. الآن، في ملف حديث للجنة الأوراق المالية والبورصة، كشف المنتدى الشهير عبر الإنترنت أنه سيجلب 203 ملايين دولار من هذا العقد وغيره من عقود ترخيص بيانات الذكاء الاصطناعي غير المحددة على مدى السنوات الثلاث المقبلة.
نموذج Reddit S-1 —نشرتها هيئة الأوراق المالية والبورصات في وقت متأخر من يوم الخميس قبل الاكتتاب العام الأولي للأسهم المخطط له في الموقع – تقول الشركة إنها تتوقع أن تأتي 66.4 مليون دولار من تلك القيمة المشتقة من البيانات من شركات LLM خلال السنة التقويمية 2024. ذكرت بلومبرج سابقًا أن صفقة جوجل تقدر قيمتها بنحو 60 مليون دولار سنويًا، مما يشير إلى أن الصفقة التي مدتها ثلاث سنوات تمثل الغالبية العظمى من إيرادات ترخيص الذكاء الاصطناعي حتى الآن.
ستحصل Google وشركات الذكاء الاصطناعي الأخرى التي ترخص بيانات Reddit على “وصول مستمر إلى [Reddit’s] data API بالإضافة إلى عمليات النقل ربع السنوية لبيانات Reddit على مدار مدة الترتيب، وفقًا للملف. إن الوصول المستمر في الوقت الفعلي له قيمة خاصة، كما يكتب الموقع في الملف، لأن “بيانات Reddit تنمو وتتجدد باستمرار مع يأتي المستخدمون ويتفاعلون مع مجتمعاتهم ومع بعضهم البعض.”
“لماذا ندفع ثمن البقرة…؟”
في حين أن ريديت ترى أن ترخيص البيانات لشركات الذكاء الاصطناعي هو جزء مهم من مستقبلها المالي، فإن ملفها يشير أيضًا إلى أن الاستخدام المجاني لبياناتها كان بالفعل “جزءًا أساسيًا من عدد نماذج اللغات الكبيرة الرائدة التي تم تدريبها”. يبدو التسجيل مريرًا تقريبًا في الإشارة إلى أن “بعض الشركات قامت ببناء نماذج لغة تجارية كبيرة جدًا باستخدام بيانات Reddit دون الدخول في اتفاقية ترخيص معنا.”
يسلط الضوء على هذا الاعتراف المشهد القانوني الذي لا يزال غامضا بسبب ميل شركات الذكاء الاصطناعي إلى جمع مساحات كبيرة من شبكة الإنترنت العامة لأغراض التدريب، وهي ممارسة تلك الشركات الدفاع عن الاستخدام العادل. ويبدو أن موقع ريديت يدرك جيدًا أن نماذج الذكاء الاصطناعي قد تستمر في جمع منشوراته وتعليقاته مجانًا، حتى عندما يحاول بيع تلك البيانات للآخرين.
وكتبت الشركة: “قد ترفض بعض الشركات ترخيص بيانات Reddit وتستخدم هذه البيانات دون ترخيص نظرًا لطبيعتها المفتوحة، حتى لو كان ذلك انتهاكًا للشروط القانونية التي تحكم خدماتنا”. “بينما نخطط لإنفاذ القانون بقوة ضد مثل هذه الكيانات، فإن أنشطة التنفيذ هذه قد تستغرق سنوات لحلها، وتؤدي إلى نفقات كبيرة، وصرف انتباه الإدارة والموارد الأخرى، وقد لا ننجح في النهاية”.
ومع ذلك، فإن مجرد وجود اتفاقيات ترخيص بيانات الذكاء الاصطناعي مثل اتفاقية ريديت قد يؤثر على كيفية القيام بذلك معارك قانونية حول هذا النوع من تجريف البيانات العب. مثل آرس تيموثي لي وجيمس جريميلمان وأشار في التحليل القانوني الأخير، فإن إنشاء سوق ترخيص مستقر يمكن أن يكون له تأثير كبير على ما إذا كانت المحاكم تعتبر الاستخدام الجديد للبيانات الرقمية “استخدامًا عادلاً” بموجب قانون حقوق الطبع والنشر.
“الاكثر [AI data licensing] كتب لي وجريميلمان: “إذا تم توقيع صفقات مثل هذه في الأشهر المقبلة، فسيكون من الأسهل على المدعين أن يجادلوا بأن شق “التأثير على السوق” لتحليل الاستخدام العادل يجب أن يأخذ سوق الترخيص هذا في الاعتبار”.
وبينما يرى Reddit أن LLMs بمثابة فرصة جديدة للدخل، يرى الموقع أيضًا أن شعبيتها تمثل تهديدًا محتملاً. ويشير ملف S-1 إلى أن “بعض المستخدمين يتجهون أيضًا إلى حاملي شهادات LLM مثل ChatGPT وGemini وAnthropic” للبحث عن المعلومات، مما يضعهم في نفس فئة منافسة Reddit مثل “Google وAmazon وYouTube وWikipedia وX وX”. مواقع إخبارية أخرى.”
بعد تقديم طلب الاكتتاب العام الأولي في أواخر عام 2021، تشير التقارير إلى أن Reddit يهدف إلى الوصول إلى سوق الأسهم الشهر المقبل رسميًا. ستوفر الشركة للمستخدمين والمشرفين الذين يتمتعون بالقدرة الكافية و/أو النشاط على الموقع الفرصة للمشاركة في هذا الاكتتاب العام من خلال برنامج مشاركة موجه.
تعد شركة Advance Publications، التي تمتلك شركة Condé Nast، الشركة الأم لشركة Ars Technica، أكبر مساهم في Reddit.