أفادت صحيفة نيويورك تايمز الأمريكية بأن شركة OpenAI درّبت نموذج الذكاء الاصطناعي الخاص بها GPT-4 على محتوى من منصة يوتيوب.
وأشارت الصحيفة إلى أن الشركة كانت في حاجة ماسة إلى بيانات التدريب، وطورت نموذج النسخ الصوتي Whisper من أجل تحويل الصوت في مقاطع الفيديو المنشورة في يوتيوب إلى نصوص، ثم استخدامها في تدريب نموذج GPT-4، الذي يُعد أشهر نماذجها في الوقت الحالي.
وتُعد تلك الآلية موضع تساؤل من الناحية القانونية، وهي تقع ضمن المنطقة الرمادية لقانون حقوق الطبع والنشر للذكاء الاصطناعي، لكن الصحيفة أفادت بأن OpenAI تعتقد أن ذلك يُعد “استخدامًا عادلًا”.
وزعمت الصحيفة أن رئيس OpenAI، جريج بروكمان، شارك بنفسه في جمع مقاطع الفيديو التي اُستخدمت في التدريب.
وصرحت المتحدثة باسم OpenAI، ليندساي هيلد، لموقع The Verge التقني بأن الشركة تستخدم “مصادر عديدة ومنها البيانات المتاحة للجمهور والشراكات للبيانات غير العامة”.
وكانت الشركة عام 2021 قد دربت نماذجها على كافة مصادر البيانات المفيدة، وبحثت فكرة تحويل مقاطع الفيديو والبودكاست والكتب الصوتية في يوتيوب إلى نصوص كأفضل الموارد المتاحة للبيانات.
وفي ذلك الوقت، كانت الشركة قد دربت نماذجها على بيانات تضمنت الأكواد البرمجية في منصة Github، ومحتوى الواجبات المدرسية في منصة Quizlet وغيرها.
وزعم الصحيفة أن هناك أشخاصًا في جوجل كانوا على علم بما تفعله OpenAI، لكنهم لم يتخذوا أي إجراء تجاهها؛ لأن جوجل نفسها كانت تستخدم مقاطع الفيديو في يوتيوب لتدريب نماذج الذكاء الاصطناعي الخاصة بها.
وصرحت جوجل للصحيفة بأنها تفعل ذلك فقط مع مقاطع الفيديو الخاصة بمنشئي المحتوى الذين وافقوا على ذلك.
وحديثًا، حذر الرئيس التنفيذي ليوتيوب شركة OpenAI من تدريب نموذجها الجديد لتحويل النص إلى فيديو على مقاطع الفيديو المرئية المنشورة في المنصة.