كقضايا منظمة العفو الدولية ، ما زال الناشرون يكافحون لمنع الروبوتات

ناشر آخر يأخذ Openai إلى المحكمة.

Ziff Davis هي أحدث شركة إعلامية”https://www.nytimes.com/2025/04/24/business/media/ziff-davis-openai-lawsuit.html” الهدف=”_blank” rel=”noreferrer noopener”> لمقاضاة شركة التكنولوجيا على انتهاك حقوق الطبع والنشر ، لكن الدعوى تبرز حقيقة أوسع: الناشرون لا يزال ليس لدي أي وسيلة موثوقة لمنع شركات الذكاء الاصطناعى من تجريف محتواها مجانًا.

على الرغم من الضغط القانوني المتزايد ، فقد تم استخراج الويب بالفعل. تم تدريب نماذج اللغة الكبيرة مثل ChatGPT على كميات هائلة من بيانات الإنترنت ، وكثير منها كشط قبل أن يبدأ الناشرون في الدفع. وبينما ظهرت أدوات مثل ملفات robots.txt و paywalls وعلامات الذكاء الاصطناعي منذ ذلك الحين ، يعترف العديد من الناشرين أنه من الصعب للغاية تطبيق التحكم عبر كل روبوت-خاصة وأن بعض البروتوكولات القياسية أو تخفي هوياتهم.

“يحاول الناشر العادي التنافس ضد شركة بقيمة 300 مليار دولار [OpenAI]. من الصعب الاستثمار في مستوى “جدار الروبوت” أو “تقنية الوقاية من الروبوت” ، وأن تكون قادرًا على مواكبة ذلك. قال Arvid Tchivzhel ، العضو المنتدب في ممارسة الاستشارات الرقمية لـ Mather Economics: “أعتقد أن الناشرين في وضع غير مؤات”.

لا يزال Robots.txt – الذي يخبر زحفات الويب عناوين URL التي يمكنهم الوصول إليها وهي آلية لعدم السماح بالوصول إلى مواقع الناشرين – أبسط دفاع ضد تجريف الروبوت ، مع أدنى رفع للناشرين. (إنه مجرد بضعة أسطر من التعليمات البرمجية.) ولكن ثبت أيضًا أنه أضعف تكتيك لمنع حركة الروبوت ، لأن روبوتات الذكاء الاصطناعى تتجاهلها. تولبيت حديث”https://tollbit.com/bots/24q4/” الهدف=”_blank” rel=”noreferrer noopener”> تقرير وجدت أن AI Bot يتجاوز Robots.txt نمت بأكثر من 40 ٪ بين Q3 و Q4 2024.

وقال بيل جروس ، مؤسس شركة AI Startup Prorata.ai: “أعتقد أن جميع زحفات الذكاء الاصطناعى قد انتهكوا طلب Robots.txt لعدم الزحف. لقد كان صارخًا ، ويغضب الناشرون للغاية”. “إنها مشكلة كبيرة حقًا ، وأعتقد أن الحل الوحيد هو إما [AI companies] الدفع – الذي لا يريدون القيام به – الفوز في الدعاوى القضائية أو حظرها. “

على الرغم من التراجع ، فإن تجريف الذكاء الاصطناعى يصبح أكثر جرأة فقط

عند استخدام بروتوكول Robots.txt لعدم السماح بـ GPTBOT ، كان موقع Travel News Skift لا يزال يتخبط من قبل الروبوت حوالي 60،000 مرة في الأسبوع ، وفقًا لما ذكره كبير موظفي المنتج جيسون كلامت ، الذي استخدم تقنية Tollbit لمعرفة مقدار حركة المرور القادمة من زحفات الويب.

يعاني زيف ديفيس من نفس المشكلة. على الرغم من تنفيذ تعليمات Openai للناشرين الذين أرادوا “إلغاء الاشتراك” في تجاهل مواقعهم بواسطة GPTBOT على شبكة الإنترنت من Openai واستخدام بروتوكول Robots.txt ، فإن الروبوت “استمر في الكشف بنشاط وتصنيع نسخ من المحتوى من مواقع Ziff Davis دون التخلي” ، “”https://s3.documentcloud.org/documents/25915739/ziff-davis-inc-v-openai-inc-complaint.pdf” الهدف=”_blank” rel=”noreferrer noopener”> وفقًا لدعوى الناشر. ما هو أكثر من ذلك ، تدعي الدعوى أن نشاط GPTBOT “زاد بشكل كبير” حتى بعد أن ناشد Ziff Davis Openai إيقاف نشاط GPTBOT في موقعه في مايو 2024.

“لو [Ziff Davis is] بعد أن أواجه مشكلات في إدارةها ، لا أرى أي شخص آخر لن يكون لديه سيء من القضايا …[عندمايكونZiffDavis[whenZiffDavis] قال Clampet: “بالنسبة لناشر من مقاسنا ، سنفعل ما نستطيع ، ولكن بعد ذلك يتعين علينا التعامل معها ونأمل أن يحل ناشر أكبر بعض المشكلات”.

وقال Clampet. ومع ذلك ، فإن حل Tollbit لا يمكن أن يمنع زاحف Meta ، الذي لا يزال قادمًا إلى موقع Skift حوالي 12000 مرة في الأسبوع ، كما ادعى Clampet. قال متحدث باسم Meta إنهم لم يكونوا على دراية بـ Tollbit ، وأنه يمكن للناشرين استخدام “ممارسات معايدة الصناعة” مثل Robots.txt لمنع زحف AI Meta.

في أثناء، انتشار المتزايد من “””https://digiday.com/media/wtf-are-gray-bots/”> الروبوتات الرمادية”يضيف إلى تعقيد المشكلة. يمكن لهذه الروبوتات AI التوليدية من شركات مثل Openai و Perplexity و Google و Tiktok الكشف عن المواقع والوصول إلى محتوى بليها دون إذن ، وزيادة تكاليف مشغلي موقع الويب من خلال الخادم المفرط واستخدام النطاق الترددي. The Wikimedia Foundation”https://diff.wikimedia.org/2025/04/01/how-crawlers-impact-the-operations-of-the-wikimedia-projects/” الهدف=”_blank” rel=”noreferrer noopener”> قال قادت الروبوتات وكاشطات الذكاء الاصطناعى ارتفاع بنسبة 50 ٪ في تكاليف البنية التحتية منذ يناير 2024.

وبطبيعة الحال ، فإن الدعاوى القضائية ضد منصات الذكاء الاصطناعى حول الانتهاك غير القانوني للتجشير وحقوق الطبع والنشر ، التي تقودها صحيفة نيويورك تايمز والآن Ziff Davis ، مسألة لأنها تساعد في تحديد الحدود القانونية لكيفية استخدام شركات الذكاء الاصطناعي للمحتوى المحمي بحقوق الطبع والنشر ، وما إذا كان للناشرين أي لماج حقيقي في عصر الذكاء الاصطناعي. لكن هذا يمكن أن تستغرق الأمور سنوات لحلها. رفعت صحيفة نيويورك تايمز دعوى قضائية ضد Openai و Microsoft في ديسمبر 2023 ، والحالة مستمرة. لا يملك معظم الناشرين الموارد اللازمة لاتخاذ حذوها ، ولكن يجب عليهم المشاهدة من الخطوط الجانبية. في غضون ذلك ، يخوضون معركة شاقة.

وتفاقم الكشط ، وفقًا لأحدث Tollbit’s Tollbit”https://tollbit.com/bots/24q4/” الهدف=”_blank” rel=”noreferrer noopener”> تقرير. تضاعفت الخدوش لكل موقع من الربع الثالث إلى الربع الرابع من العام الماضي ، وخرق لكل صفحة أكثر من ثلاث مرات. ووجد التقرير أيضًا أن تطبيقات مثل الحيرة كانت تصل إلى المواقع من خلال روبوتات مجهولة الهوية ، وكذلك زحفات محددة ذاتيا.

“ما لم تكن تفعل شيئًا متطورًا حقًا كجانب خادم ناشر ومحاولة التحقق من وكلاء المستخدمين والتحقق من حركة المرور … من الصعب جدًا القيام بذلك على نطاق واسع” ، قال Tchivzhel.

خطوط دفاع أخرى

المنتجات الجديدة الأخرى تبرز. قامت Cloud Platform بتصميم أداة لإدارة AI Bot التي تم كشف النقاب عنها هذا الشهر ، والتي تتيح للناشرين اختيار منصات الذكاء الاصطناعى التي تقوم بها أو لا يمكنها الوصول إلى محتواها. شبكة توصيل المحتوى CloudFlare أيضًا”https://techcrunch.com/2024/07/03/cloudflare-launches-a-tool-to-combat-ai-bots/” الهدف=”_blank” rel=”noreferrer noopener”> لديه أداة تسمى AI Audit يتيح ذلك للناشرين معرفة أي زحف يصلون إلى محتواهم وعدد المرات ، ويقدم لهم”https://blog.cloudflare.com/declaring-your-aindependence-block-ai-bots-scrapers-and-crawlers-with-a-single-click/” الهدف=”_blank” rel=”noreferrer noopener”> القدرة على منع كل أو بعض روبوتات الذكاء الاصطناعي. وقال متحدث باسم CloudFlare لـ Digiday إن أكثر من 800000 موقع اختارت منع جميع زحفات الذكاء الاصطناعي من مواقعهم.

قبل بضع سنوات ، كانت شركات إدارة PayWall”https://digiday.com/media/why-protecting-paywalled-content-from-ai-bots-is-difficult-business/”> تطوير التكنولوجيا لمنع روبوت الذكاء الاصطناعي من الوصول إلى محتوى الناشرين المقيد. من الناحية النظرية ، يمكن أن تمنع الجدران بعض حركة الروبوت – طالما تعرّف الروبوتات نفسها على هذا النحو.

في دعوى قضائية ضد Openai ، قال Ziff Davis إنه نظرًا لأن معظم محتواها ليس وراء Paywall ، فقد كان أكثر عرضة للتجريف من GPTBOT.

لكن Paywalls لا تثبت أنها آلية قوية ضد الكشط. على سبيل المثال ، كان لدى Skift و New York Times جدران ، وكانت لا تزال عرضة لحركة مرور AI Bot.

يعتقد غروس أن أدوات حظر الروبوت ستستمر في التطور هذا العام ، ودفع شركات الذكاء الاصطناعي لدفع الناشرين للوصول إلى محتواهم. (تتمثل مهمة شركة Gross في إنشاء نموذج محسّن لإيرادات بين شركات الذكاء الاصطناعى والناشرين.)

حتى وقت قريب ، “يثق الناشرون” في أن زحفو الويب من الذكاء الاصطناعي كانوا يكرمون جهودهم لمنعهم من الكشط. “لكن الآن بعد أن أصبح جادًا ، [publishers are] سيتعين عليه اتخاذ المزيد من الإجراءات الدفاعية “.

https://digiday.com/؟p=577069

اقرأ المزيد

كقضايا منظمة العفو الدولية ، ما زال الناشرون يكافحون لمنع الروبوتات

على الرغم من التراجع ، فإن تجريف الذكاء الاصطناعى يصبح أكثر جرأة فقط

خطوط دفاع أخرى

Reactions

ردود الفعل