جيس Weatherbed هو كاتب أخبار يركز على الصناعات الإبداعية والحوسبة وثقافة الإنترنت. بدأت جيس حياتها المهنية في TechRadar ، والتي تغطي الأخبار ومراجعات الأجهزة.
تحاول ويكيبيديا ثني مطوري الذكاء الاصطناعي من تجريف المنصة من خلال إطلاق مجموعة بيانات تم تحسينها على وجه التحديد لتدريب نماذج الذكاء الاصطناعي.”https://enterprise.wikimedia.com/blog/kaggle-dataset/”> أعلنت مؤسسة ويكيميديا يوم الأربعاء أنها قد عقدت شراكة مع Kaggle -“https://blog.google/technology/developers/kaggle-wikimedia/”> منصة مجتمع علوم البيانات المملوكة لشركة Google تستضيف بيانات التعلم الآلي – لنشر مجموعة بيانات بيتا من “محتوى ويكيبيديا المنظم باللغة الإنجليزية والفرنسية”.
تقول ويكيميديا إن مجموعة البيانات التي استضافتها Kaggle “تم تصميمها مع وضع سير عمل التعلم الآلي في الاعتبار” ، مما يسهل على مطوري الذكاء الاصطناعى الوصول إلى بيانات المقاومة القابلة للقراءة للآلة للنمذجة ، والضبط ، والقياس ، والمحاذاة ، والتحليل. يتم ترخيص المحتوى الموجود داخل مجموعة البيانات بشكل علني ، واعتبارًا من 15 أبريل ، يتضمن ملخصات البحث ، والأوصاف القصيرة ، وروابط الصور ، وبيانات Infobox ، وأقسام المقالات-ناقص المراجع أو العناصر غير المكتوبة مثل ملفات الصوت.
ال “”https://www.kaggle.com/datasets/wikimedia-foundation/wikipedia-structured-contents/”> تمثيلات JSON منظمة جيدًا لمحتوى ويكيبيديا”يجب أن يكون مستخدمو Kaggle بديلاً أكثر جاذبية لـ” Drassing أو تحليل نص المقال الخام “وفقًا لـ Wikimedia – وهي مشكلة حاليًا”https://arstechnica.com/information-technology/2025/04/ai-bots-strain-wikimedia-as-bandwidth-surges-50/”> وضع الضغط على خوادم ويكيبيديا كما تستهلك روبوتات AI الآلية بلا هوادة عرض النطاق الترددي للمنصة. لدى Wikimedia بالفعل اتفاقيات مشاركة المحتوى”https://wikimediafoundation.org/news/2022/06/21/wikimedia-enterprise-announces-google-and-internet-archive-first-customers/”> مع جوجل وأرشيف الإنترنت، لكن يجب أن تجعل شراكة Kaggle هذه البيانات أكثر سهولة للشركات الأصغر وعلماء البيانات المستقلين.
وقال بريندا فلين: “مع المكان الذي يأتي فيه مجتمع التعلم الآلي للأدوات والاختبارات ، فإن Kaggle متحمس للغاية ليكون المضيف لبيانات مؤسسة ويكيميديا”. “Kaggle متحمس للعب دور في الحفاظ على هذه البيانات متاحة ومتاحة ومفيدة.”