يقال إن Tumblr و WordPress من المقرر أن يبرما صفقات لبيع بيانات المستخدم لشركات الذكاء الاصطناعي OpenAI و Midjourney. 404 وسائل الإعلام التقارير أن الشركة الأم للمنصات، Automattic، تقترب من الانتهاء من اتفاقية لتوفير البيانات للمساعدة في تدريب نماذج شركات الذكاء الاصطناعي.
ليس من الواضح ما هي البيانات التي سيتم تضمينها، لكن التقرير يشير إلى أن Automattic ربما تجاوزت حدودها في البداية. يشير منشور داخلي مزعوم من مدير منتج Tumblr Cyle Gage إلى أن Automattic مستعدة لإرسال بيانات خاصة أو متعلقة بالشريك لم يكن من المفترض تضمينها في الصفقة. وبحسب ما ورد تضمن المحتوى المشكوك فيه منشورات خاصة في منشورات مدونة عامة، ومدونات محذوفة أو معلقة، وأسئلة لم تتم الإجابة عليها (وبالتالي، لم يتم نشرها علنًا)، وإجابات خاصة، ومنشورات تم وضع علامة صريحة عليها ومحتوى من مدونات الشركاء المميزين (مثل موقع الموسيقى السابق لشركة Apple).
يشير المنشور الداخلي إلى أن مهندسي Automattic يقومون بإعداد قائمة بمعرفات المنشورات التي كان ينبغي استبعادها. ليس من الواضح ما إذا كانت البيانات قد تم إرسالها بالفعل إلى شركات الذكاء الاصطناعي.
أرسلت Engadget بريدًا إلكترونيًا إلى Automattic لطلب التعليق على التقرير. ردت الشركة ب بيان منشور، بدعوى “سنشارك فقط المحتوى العام الذي تتم استضافته على WordPress.com وTumblr من المواقع التي لم تقم بإلغاء الاشتراك.” يشير البيان إلى أن اللوائح القانونية لا تتطلب حاليًا من برامج زحف الويب الخاصة بشركات الذكاء الاصطناعي الالتزام بتفضيلات إلغاء الاشتراك الخاصة بالمستخدمين.
يبدو أن السطر الأخير من بيان Automattic يتوافق مع الصفقات المبلغ عنها. كتب Automattic: “نحن نعمل أيضًا بشكل مباشر مع شركات مختارة في مجال الذكاء الاصطناعي طالما أن خططها تتوافق مع ما يهتم به مجتمعنا: الإسناد، وإلغاء الاشتراك، والتحكم”. “ستحترم شراكاتنا جميع إعدادات إلغاء الاشتراك. نخطط أيضًا لاتخاذ هذه الخطوة إلى الأمام وتحديث أي شركاء بانتظام بشأن الأشخاص الذين قاموا بإلغاء الاشتراك حديثًا ونطلب إزالة المحتوى الخاص بهم من المصادر السابقة والتدريب المستقبلي.
وبحسب ما ورد تخطط الشركة لإطلاق أداة إلغاء الاشتراك الجديدة يوم الأربعاء والتي تدعي أنها تسمح للمستخدمين بحظر الجهات الخارجية – بما في ذلك شركات الذكاء الاصطناعي – من التدريب على بياناتهم. 404 وسائل الإعلام راجعت الأسئلة الشائعة الداخلية المزعومة التي تم إعدادها تلقائيًا للأداة، والتي تتضمن الإجابة، “إذا قمت بإلغاء الاشتراك من البداية، فسنمنع برامج الزحف من الوصول إلى المحتوى الخاص بك عن طريق إضافة موقعك إلى قائمة غير مسموح بها. إذا غيرت رأيك لاحقًا، فإننا نخطط أيضًا لتحديث أي شركاء بشأن الأشخاص الذين قاموا بإلغاء الاشتراك حديثًا ونطلب إزالة المحتوى الخاص بهم من المصادر السابقة والتدريب المستقبلي.
قد تكون الصياغة التي تصفها بأنها “تطلب” من شركات الذكاء الاصطناعي إزالة البيانات، ذات صلة.
تشرح وثيقة داخلية مزعومة من رئيس الذكاء الاصطناعي في Automattic، أندرو سبيتل، ردًا على سؤال للموظفين حول ضمانات إزالة البيانات عند استخدام الأداة، ما يلي: “سنقوم بإخطار الشركاء الحاليين بشكل منتظم بشأن أي شخص قام بإلغاء الاشتراك منذ آخر مرة قدمنا فيها قائمة. أريد أن تكون هذه عملية مستمرة حيث ندعو بانتظام إلى استبعاد المحتوى السابق بناءً على التفضيلات الحالية. سنطلب حذف المحتوى وإزالته من أي دورات تدريبية مستقبلية. أعتقد أن الشركاء سيحترمون ذلك بناءً على محادثاتنا معهم حتى هذه اللحظة. لا أعتقد أنهم سيكسبون الكثير بشكل عام من خلال الاحتفاظ به.
لذلك، إذا طلب مستخدم Tumblr أو WordPress إلغاء الاشتراك في تدريب الذكاء الاصطناعي، فمن المفترض أن Automattic “يطلب” و”يدافع” عن إزالته. و”يعتقد” رئيس الذكاء الاصطناعي في الشركة أن شركات الذكاء الاصطناعي ستجد أنه من مصلحتها الالتزام “بناءً على محادثاتنا”. (كيف يتم ذلك من أجل الطمأنينة!)
أصبحت صفقات التدريب على بيانات الذكاء الاصطناعي فرصة مربحة لمواقع الويب التي تسير على الماء في يومنا هذا مشهد النشر على الإنترنت زلق. (يقال إن موظفي تمبلر تم تخفيضها إلى طاقم هيكل عظمي في أواخر عام 2023.) في الأسبوع الماضي، أبرمت Google صفقة مع Reddit (قبل الاكتتاب العام الأولي للأخيرة) التدريب على قاعدة المعرفة الواسعة للمنصة للمحتوى الذي أنشأه المستخدم. وفي الوقت نفسه، أطلقت OpenAI برنامج شراكة العام الماضي من أجل جمع مجموعات البيانات من أطراف ثالثة للمساعدة في تدريب نماذج الذكاء الاصطناعي الخاصة بها.
تحديث 27 فبراير 2024 الساعة 3:56 مساءً بالتوقيت الشرقي: تم تحديث هذه القصة لإضافة بيان منشور من الشركة الأم WordPress وTumblr Automattic.