من فضلك تسجيل الدخول أو تسجيل لتفعل ذلك.

في عصر يمكن أن ينشر فيه مقاطع الفيديو التي يتم التلاعب بها المعلومات المضللة ، والتفتت ، وتحريض الأذى ، قام الباحثون في UC Riverside بإنشاء نظام جديد قوي لفضح هذه الأثر.

Amit Roy-Chowdhury ، أستاذ الهندسة الكهربائية وهندسة الكمبيوتر ، ومرشح الدكتوراه Rohit Kundu ، سواء من كلية Marlan و Rosemary Bourns للهندسة ، تعاونت مع علماء Google لتطوير نموذج الذكاء الاصطناعي الذي يكتشف العبث بالفيديو-حتى عندما تتجاوز التلاعب تباينات وجوه. (Roy-Chowdhury هو أيضًا المدير المشارك لمعهد UC Riverside للبحوث والتعليم (RAEF) ، وهو مركز أبحاث جديد متعدد التخصصات في UCR.)

يكتشف نظامهم الجديد ، الذي يطلق عليه الشبكة العالمية لتحديد مقاطع الفيديو المصنوعة من العبث والاصطناعية (Unite) ، عمليات التزويد عن طريق فحص الوجوه فحسب ، بل إطارات الفيديو الكاملة ، بما في ذلك الخلفيات وأنماط الحركة. يجعل هذا التحليل أحد الأدوات الأولى القادرة على تحديد مقاطع الفيديو الاصطناعية أو المخزنة التي لا تعتمد على محتوى الوجه.

“Deepfakes have evolved,” قال كوندو. “They’re not just about face swaps anymore. People are now creating entirely fake videos — from faces to backgrounds — using powerful generative models. Our system is built to catch all of that.”

يأتي تطور Unite كأصبح نصًا إلى نص فصحه ، وأصبح جيل صورة إلى فنية متوفرة على نطاق واسع عبر الإنترنت. تمكن منصات الذكاء الاصطناعى هذه تقريبًا أي شخص من تصنيع مقاطع فيديو مقنعة للغاية ، مما يشكل مخاطر خطيرة على الأفراد والمؤسسات والديمقراطية نفسها.

“It’s scary how accessible these tools have become,” قال كوندو. “Anyone with moderate skills can bypass safety filters and generate realistic videos of public figures saying things they never said.”

أوضح كوندو أن كاشفات Deepfake السابقة ركزت بالكامل تقريبًا على إشارات الوجه.

“If there’s no face in the frame, many detectors simply don’t work,” قال. “But disinformation can come in many forms. Altering a scene’s background can distort the truth just as easily.”

لمعالجة هذا ، يستخدم Unite نموذج التعلم العميق القائم على المحولات لتحليل مقاطع الفيديو. يكتشف التناقضات المكانية والزمنية الدقيقة – وغالبا ما تفتقد العظة من قبل الأنظمة السابقة. يعتمد النموذج على إطار منظمة العفو الدولية التأسيسية المعروف باسم Siglip ، والذي يستخرج الميزات غير المرتبطة بشخص أو كائن معين. طريقة تدريب جديدة ، يطلق عليها اسم “attention-diversity loss,” يطالب النظام بمراقبة مناطق مرئية متعددة في كل إطار ، مما يمنعه من التركيز فقط على الوجوه.

والنتيجة هي كاشف عالمي قادر على وضع علامة على مجموعة من عمليات التزويد – من مقايضات الوجه البسيطة إلى مقاطع الفيديو الاصطناعية المعقدة والمتولدة تمامًا التي تم إنشاؤها دون أي لقطات حقيقية.

“It’s one model that handles all these scenarios,” قال كوندو. “That’s what makes it universal.”

قدم الباحثون النتائج التي توصلوا إليها في مؤتمر 2025 رفيع المستوى حول رؤية الكمبيوتر والتعرف على الأنماط (CVPR) في ناشفيل ، تين. “Towards a Universal Synthetic Video Detector: From Face or Background Manipulations to Fully AI-Generated Content,” ورقيتهم ، بقيادة كوندو ، تحدد الخطوط العريضة للهندسة المعمارية والتدريب. من بين المؤلفين المشاركين باحثو Google Hao Xiong و Vishal Mohanty و Athula Balachandra. تعتبر CVPR التي ترعاها جمعية IEEE Computer Society ومؤسسة رؤية الكمبيوتر ، CVPR من بين أعلى أماكن المنشور العلمي في العالم.

يوفر التعاون مع Google ، حيث يتدرب Kundu ، إمكانية الوصول إلى مجموعات البيانات الموسعة وموارد الحوسبة اللازمة لتدريب النموذج على مجموعة واسعة من المحتوى الاصطناعي ، بما في ذلك مقاطع الفيديو التي تم إنشاؤها من النص أو الصور الثابتة – تنسيقات غالبًا ما تتأرجح.

على الرغم من أنه لا يزال قيد التطوير ، فقد يلعب Unite قريبًا دورًا حيويًا في الدفاع عن معلومات التضليل بالفيديو. يشمل المستخدمون المحتملين منصات التواصل الاجتماعي ، ومدخل الحقائق ، وغرف الأخبار التي تعمل على منع مقاطع الفيديو المعالجة من الانتقال.

“People deserve to know whether what they’re seeing is real,” قال كوندو. “And as AI gets better at faking reality, we have to get better at revealing the truth.”

اقرأ المزيد

تقوم Google Workspace بنسخ ميزة YouTube مألوفة جدًا لمساعدتك في الوصول إلى مقاطع الفيديو
OpenAI تعتزم إطلاق GPT-5 في أغسطس المقبل

Reactions

0
0
0
0
0
0
بالفعل كان رد فعل لهذا المنصب.

ردود الفعل