غالبًا ما نأخذ الإنترنت كأمر مسلم به. إنه محيط من المعلومات في متناول أيدينا – وهو ببساطة يعمل. لكن هذا النظام يعتمد على أسراب من “الزحف” – تتجول على الويب ، وزيارة ملايين مواقع الويب كل يوم ، وأبلغ عما يراه. هذه هي الطريقة التي تعمل بها Google على تشغيل محركات البحث الخاصة بها ، وكيف تحدد Amazon أسعارًا تنافسية ، وكيف تقوم Kayak بتركيب قوائم السفر. إلى جانب عالم التجارة ، تعد الزحف ضرورية لمراقبة أمان الويب وتمكين أدوات إمكانية الوصول والحفاظ على المحفوظات التاريخية. يعتمد الأكاديميون والصحفيون والمجتمعات المدنية عليهم أيضًا لإجراء أبحاث تحقيقات حاسمة.
الزحف مستوطنة. الآن يمثلون نصف جميع حركة المرور على الإنترنت ، سوف يفوقون قريبًا حركة المرور البشرية. هذا المترو غير المرئي من شبكة الويب تعادل معلومات من موقع إلى آخر ، ليلا ونهارا. وفي الآونة الأخيرة ، فإنها تخدم غرضًا آخر: تستخدم شركات مثل Openai البيانات التي تم تجزئها على شبكة الإنترنت لتدريب أنظمة الذكاء الاصطناعي ، مثل ChatGPT.
من المفهوم ، أن مواقع الويب تقاتل الآن خوفًا من أن تساعد هذه الأنواع الغازية – زحفات AAI – على إزاحةهم. ولكن هناك مشكلة: هذا الارتداد يهدد أيضًا الشفافية والحدود المفتوحة للشبكة ، والتي تسمح للتطبيقات غير AAI بالازدهار. ما لم نكن مدروسة حول كيفية إصلاح هذا ، سيتم تحصين الويب بشكل متزايد بتسجيلات تسجيلات ، و paywalls ، والوصول إلى عدم تمنع ليس فقط الذكاء الاصطناعي ولكن التنوع البيولوجي للمستخدمين الحقيقيين والزحفات المفيدة.
نظام في الاضطراب
لفهم المشكلة ، من المهم أن نفهم كيف عملت الويب حتى وقت قريب ، عندما تعمل الزحف والمواقع الإلكترونية معًا في التعايش النسبي. كانت الزحفون غير متوقعة إلى حد كبير ويمكن أن تكون مفيدة ، حيث جلب الأشخاص إلى مواقع الويب من محركات البحث مثل Google أو Bing في مقابل بياناتهم. في المقابل ، فرضت مواقع الويب قلة قيود على الزحف ، حتى مساعدتهم على التنقل في مواقعهم. تستخدم مواقع الويب بعد ذلك والآن تستخدم الملفات القابلة للقراءة الآلي ، والتي تسمى ملفات Robots.txt ، لتحديد المحتوى الذي يريدون أن يتركه الزواحف بمفردهم. ولكن كانت هناك جهود قليلة لفرض هذه القواعد أو تحديد الزحف الذين تجاهلوها. بدت المخاطر منخفضة ، لذلك لم تستثمر المواقع في عرقلة هؤلاء الزحف.
ولكن الآن ألقى شعبية الذكاء الاصطناعى النظام البيئي الزاحف في حالة من الفوضى.
كما هو الحال مع الأنواع الغازية ، فإن الزحف من أجل الذكاء الاصطناعى لديهم شهية لا تشبع وغير منتقاة للبيانات ، وتوخّص مقالات ويكيبيديا ، والأوراق الأكاديمية ، والمنشورات على Reddit ، ومراجعة المواقع الإلكترونية والمدونات. جميع أشكال البيانات موجودة في القائمة – النص ، والجداول ، والصور ، والصوت ، والفيديو. ويمكن استخدام أنظمة الذكاء الاصطناعى التي تنتج (ولكن لن تكون دائمًا) بطرق تتنافس مباشرة مع مصادر البيانات الخاصة بهم. مواقع الأخبار تخشى أن تجذب AI chatbots قرائهم ؛ يخشى الفنانون والمصممون من أن مولدات الصور من الذكاء الاصطناعى ستقوم بإغراء عملائهم ؛ وتخشى منتديات الترميز من أن مولدات رمز الذكاء الاصطناعى ستحل محل المساهمين.
رداً على ذلك ، بدأت مواقع الويب في إبعاد الزحف عند الباب. الحافز هو نفسه إلى حد كبير: أنظمة الذكاء الاصطناعي ، والزحفات التي تعمل عليها ، قد تقوض المصالح الاقتصادية لأي شخص ينشر محتوى على الويب – باستخدام بيانات مواقع الويب الخاصة. وقد أشعل هذا الإدراك سلسلة من حروب الزاحف تموج تحت السطح.
المعركة
استجاب ناشرو الويب إلى الذكاء الاصطناعي مع مجموعة من الدعاوى القضائية والتشريعات وعلوم الكمبيوتر. ما بدأ مع مجموعة من بدلات انتهاك حقوق الطبع والنشر ، بما في ذلك واحدة من”https://www.nytimes.com/2023/12/27/business/media/new-york-times-open-ai-microsoft-lawsuit.html”>نيويورك تايمزتحولت إلى أ”https://www.nytimes.com/2024/07/19/technology/ai-data-restrictions.html”> موجة القيود المفروضة على استخدام مواقع الويب البيانات ، وكذلك تشريعات مثل”https://artificialintelligenceact.eu/”> قانون الاتحاد الأوروبي الذكاء الاصطناعي لحماية قدرة حاملي حقوق الطبع والنشر على إلغاء الاشتراك من تدريب الذكاء الاصطناعي.
ومع ذلك ، قد تستغرق الأحكام القانونية والتشريعية سنوات ، في حين أن عواقب اعتماد الذكاء الاصطناعي فورية. لذلك في هذه الأثناء ، ركز منشئي البيانات على تشديد صنبور البيانات في المصدر: Web Crawlers. منذ منتصف عام 2013 ، أقامت مواقع الويب قيود الزاحف على”https://arxiv.org/pdf/2407.14933″> أكثر من 25 ٪ من أعلى البيانات جودة. ومع ذلك ، يمكن ببساطة تجاهل العديد من هذه القيود ، وبينما يتم تجاهل مطوري الذكاء الاصطناعى مثل Openai و”https://support.anthropic.com/en/articles/8896518-does-anthropic-crawl-data-from-the-web-and-how-can-site-owners-block-the-crawler”> الإنسان ادعى باحترام قيود المواقع الإلكترونية ، وقد اتُهموا بتجاهلها أو بقوة”https://www.404media.co/websites-are-blocking-the-wrong-ai-scrapers-because-ai-companies-keep-making-new-ones/”> ساحق مواقع الويب (منتدى الدعم الفني الرئيسي Ifixit من بين أولئك الذين يصنعون مثل هذا”https://www.404media.co/anthropic-ai-scraper-hits-ifixits-website-a-million-times-in-a-day/”> ادعاءات).
تتحول مواقع الويب الآن إلى بديلها الأخير: التقنيات المضادة للتزحلق. بدأت عدد كبير من الشركات الناشئة الجديدة (Tollbit ، ScalePost ، إلخ) ، وشركات البنية التحتية على شبكة الإنترنت مثل CloudFlare (والتي تقدر بدعم 20 ٪ من حركة الويب العالمية) ، في تقديمها”https://blog.cloudflare.com/declaring-your-aindependence-block-ai-bots-scrapers-and-crawlers-with-a-single-click/”> الأدوات للكشف عن وحظر وشحن حركة المرور غير البشرية. هذه الأدوات تتصاعد العقبات التي تجعل المواقع أكثر صعوبة للتنقل أو مطالبة الزواحف بالتسجيل.
هذه التدابير لا تزال توفر حماية فورية. بعد كل شيء ، لا يمكن لشركات الذكاء الاصطناعي استخدام ما لا يمكنهم الحصول عليه ، بغض النظر عن كيفية تحكم المحاكم في حقوق الطبع والنشر والاستخدام العادل. ولكن التأثير هو أن ناشري الويب والمنتديات والمواقع الكبار غالباً ما يرفعون جسر السحب إلى الجميع زحف – حتى أولئك الذين لا يشكلون أي تهديد. هذا هو الحال بمجرد حبرهم”https://mashable.com/article/all-the-media-companies-that-have-licensing-deals-with-openai-so-far”> صفقات مربحة مع شركات الذكاء الاصطناعي التي ترغب في الحفاظ على التفرد على تلك البيانات. في نهاية المطاف ، يتم تقسيم الويب إلى أقاليم حيث يرحب عدد أقل من زحفات.
كيف نخسر
مع تسارع لعبة القطط والفأر ، يميل اللاعبون الكبار إلى تفوق الصغار. سوف يدافع مواقع الويب والناشرين الكبيرة عن محتواها في المحكمة أو التفاوض على العقود. ويمكن لشركات التكنولوجيا الضخمة تحمل ترخيص مجموعات بيانات كبيرة أو إنشاء زحفات قوية للتحايل على القيود. لكن المبدعين الصغار ، مثل الفنانين المرئيين أو معلمي YouTube أو المدونين ، قد يشعرون بأن لديهم خيارين فقط: إخفاء محتواهم خلف تسجيلات تسجيل الدخول والجدران ، أو أخذها في وضع عدم الاتصال بالكامل. بالنسبة للمستخدمين الحقيقيين ، فإن هذا يجعل من الصعب الوصول إلى المقالات الإخبارية ، ومشاهدة المحتوى من المبدعين المفضلين لديهم ، والتنقل في الويب دون ضرب تسجيلات تسجيل الدخول ، ومتطلبات الاشتراك ، و Captchas في كل خطوة على الطريق.
ربما يكون الأمر الأكثر أهمية هو الطريقة التي تقسم فيها العقود الكبيرة والحصرية مع شركات الذكاء الاصطناعي الويب. تثير كل صفقة حافز موقع الويب للبقاء حصريًا ومنع أي شخص آخر من الوصول إلى البيانات – Competitor أم لا. من المحتمل أن يؤدي ذلك إلى مزيد من تركيز القوة في أيدي عدد أقل من مطوري الذكاء الاصطناعي وناشري البيانات. إن المستقبل الذي يمكن للشركات الكبيرة فقط يمكنه ترخيصه أو زحف بيانات الويب الحرجة من شأنه أن يقمع المنافسة ويفشل في خدمة المستخدمين الحقيقيين أو العديد من أصحاب حقوق الطبع والنشر.
ببساطة ، سوف يتبع هذا المسار التنوع البيولوجي للشبكة. قد يتم حرمان من الباحثين الأكاديميين والصحفيين والتطبيقات غير المأملة على نحو متزايد من الوصول المفتوح. ما لم نتمكن من رعاية نظام بيئي مع قواعد مختلفة لاستخدامات البيانات المختلفة ، فقد ينتهي بنا المطاف بحدود صارمة عبر الويب ، مما يدل على السعر على الانفتاح والشفافية.
على الرغم من أنه لا يمكن تجنب هذا المسار بسهولة ، إلا أن المدافعين عن الإنترنت المفتوح يمكن أن يصروا على القوانين والسياسات والبنية التحتية التقنية التي تحمي بشكل صريح الاستخدامات غير المتقدمة لبيانات الويب من العقود الحصرية مع حماية منشئي البيانات والناشرين. هذه الحقوق ليست على خلاف. لدينا الكثير لنخسره أو نكتسبه من المعركة للوصول إلى البيانات عبر الإنترنت مباشرة. نظرًا لأن مواقع الويب تبحث عن طرق للتكيف ، يجب ألا نضحية بشبكة الويب المفتوحة على مذبح الذكاء الاصطناعي التجاري.
شاين لونغبير هو مرشح الدكتوراه في معهد ماساتشوستس للتكنولوجيا ، حيث يركز أبحاثه على تقاطع الذكاء الاصطناعي والسياسة. انه يقود”https://www.dataprovenance.org”> مبادرة مصدر البيانات.