أجرت الشركة تجربة ضخمة على فائدة أداة العلامات المائية SynthID من خلال السماح لملايين مستخدمي Gemini بتصنيفها.
قامت Google DeepMind بتطوير أداة لتحديد النص الذي تم إنشاؤه بواسطة الذكاء الاصطناعي وجعله متاحًا مفتوح المصدر.
تعد الأداة، التي تسمى SynthID، جزءًا من عائلة أكبر من أدوات وضع العلامات المائية لمخرجات الذكاء الاصطناعي التوليدية. وكشفت الشركة أ”https://www.technologyreview.com/2023/08/29/1078620/google-deepmind-has-launched-a-watermarking-tool-for-ai-generated-images/”> علامة مائية للصور في العام الماضي، ومنذ ذلك الحين قامت بطرح واحدة للفيديو المولد بواسطة الذكاء الاصطناعي. جوجل في شهر مايو”https://deepmind.google/discover/blog/watermarking-ai-generated-text-and-video-with-synthid/”> أعلن لقد كانت تطبق SynthID في تطبيق Gemini الخاص بها وروبوتات الدردشة عبر الإنترنت وجعلته متاحًا مجانًا على Hugging Face، وهو مستودع مفتوح لمجموعات ونماذج بيانات الذكاء الاصطناعي. ظهرت العلامات المائية كأداة مهمة لمساعدة الأشخاص على تحديد متى يتم إنشاء شيء ما بواسطة الذكاء الاصطناعي، مما قد يساعد في مواجهة الأضرار مثل المعلومات الخاطئة.
“والآن أخرى [generative] سيتمكن مطورو الذكاء الاصطناعي من استخدام هذه التقنية لمساعدتهم على اكتشاف ما إذا كانت مخرجات النص قد جاءت من تلقاء أنفسهم [large language models]يقول بوشميت كوهلي، نائب رئيس الأبحاث في Google DeepMind: “يُسهل على المزيد من المطورين بناء الذكاء الاصطناعي بشكل مسؤول”.
يعمل SynthID عن طريق إضافة علامة مائية غير مرئية مباشرة إلى النص عندما يتم إنشاؤها بواسطة نموذج الذكاء الاصطناعي.
تعمل نماذج اللغة الكبيرة عن طريق تقسيم اللغة إلى “رموز مميزة” ومن ثم التنبؤ بالرمز المميز الذي من المرجح أن يتبع الآخر. يمكن أن تكون الرموز حرفًا واحدًا أو كلمة أو جزءًا من عبارة، ويحصل كل منها على نسبة مئوية لمدى احتمال أن تكون الكلمة التالية المناسبة في الجملة. كلما ارتفعت النسبة المئوية، زاد احتمال استخدام النموذج لها.
يوضح كوهلي أن SynthID يقدم معلومات إضافية عند نقطة الإنشاء عن طريق تغيير احتمالية إنشاء الرموز المميزة.
لاكتشاف العلامة المائية وتحديد ما إذا كان النص قد تم إنشاؤه بواسطة أداة الذكاء الاصطناعي، يقوم SynthID بمقارنة درجات الاحتمالية المتوقعة للكلمات الموجودة في النص الذي يحمل علامة مائية والنص الذي لا يحمل علامة مائية.
وجد Google DeepMind أن استخدام العلامة المائية SynthID لا يؤثر على جودة النص الذي تم إنشاؤه أو دقته أو إبداعه أو سرعته. تم استخلاص هذا الاستنتاج من تجربة حية ضخمة لأداء SynthID بعد نشر العلامة المائية في منتجات Gemini واستخدامها من قبل ملايين الأشخاص. يسمح Gemini للمستخدمين بتصنيف جودة استجابات نموذج الذكاء الاصطناعي من خلال إبهام لأعلى أو إبهام لأسفل.
قام كوهلي وفريقه بتحليل النتائج لحوالي 20 مليون استجابة لروبوتات الدردشة ذات العلامات المائية وغير المائية. ووجدوا أن المستخدمين لم يلاحظوا اختلافًا في الجودة والفائدة بين الاثنين. نتائج هذه التجربة مفصلة في ورقة”https://www.nature.com/articles/s41586-024-08025-4″>نشرت في طبيعة اليوم. حاليًا، يعمل SynthID للنص فقط على المحتوى الذي تم إنشاؤه بواسطة نماذج Google، ولكن الأمل هو أن يؤدي المصدر المفتوح إلى توسيع نطاق الأدوات المتوافقة معها.
لدى SynthID قيود أخرى. كانت العلامة المائية مقاومة لبعض التلاعب، مثل اقتصاص النص والتحرير الخفيف أو إعادة الكتابة، لكنها كانت أقل موثوقية عندما تمت إعادة كتابة النص الذي تم إنشاؤه بواسطة الذكاء الاصطناعي أو ترجمته من لغة إلى أخرى. كما أنها أقل موثوقية في الاستجابات للمطالبات التي تطلب معلومات واقعية، مثل عاصمة فرنسا. وذلك لأن هناك فرصًا أقل لضبط احتمالية الكلمة المحتملة التالية في الجملة دون تغيير الحقائق.
يقول سهيل فيزي، الأستاذ المشارك في جامعة ميريلاند، والذي قام بتطوير علامة مائية موثوقة وغير محسوسة للنص الذي تم إنشاؤه بواسطة الذكاء الاصطناعي: “إن تحقيق علامة مائية موثوقة وغير محسوسة للنص الذي تم إنشاؤه بواسطة الذكاء الاصطناعي يمثل تحديًا أساسيًا، خاصة في السيناريوهات التي تكون فيها مخرجات LLM قريبة من الحتمية، مثل الأسئلة الواقعية أو مهام إنشاء التعليمات البرمجية”.”https://arxiv.org/abs/2303.11156″>دراسة نقاط الضعف في العلامات المائية للذكاء الاصطناعي.
يقول Feizi إن قرار Google DeepMind بفتح المصدر لأسلوب العلامات المائية الخاص بها يعد خطوة إيجابية لمجتمع الذكاء الاصطناعي. ويضيف: “إنه يسمح للمجتمع باختبار هذه الكاشفات وتقييم مدى قوتها في بيئات مختلفة، مما يساعد على فهم القيود المفروضة على هذه التقنيات بشكل أفضل”.
هناك فائدة أخرى أيضًا، كما يقول جواو جانتي، مهندس التعلم الآلي في شركة Hugging Face. ويقول جانتي إن إتاحة المصدر المفتوح للأداة تعني أنه يمكن لأي شخص الحصول على الكود ودمج العلامة المائية في نموذجه دون أي شروط. سيؤدي هذا إلى تحسين خصوصية العلامة المائية، حيث أن المالك فقط هو من سيعرف أسرار التشفير الخاصة بها.
يقول جانتي: “مع إمكانية الوصول بشكل أفضل والقدرة على تأكيد قدراتها، أريد أن أصدق أن العلامة المائية ستصبح المعيار، الذي من شأنه أن يساعدنا في اكتشاف الاستخدام الضار لنماذج اللغة”.
لكن العلامات المائية ليست حلاً شاملاً، كما تقول إيرين سليمان، رئيسة السياسة العالمية في Hugging Face.
“تعد العلامات المائية أحد جوانب النماذج الأكثر أمانًا في النظام البيئي الذي يحتاج إلى العديد من الضمانات التكميلية. بالتوازي، حتى بالنسبة للمحتوى الذي أنشأه الإنسان،”https://pmc.ncbi.nlm.nih.gov/articles/PMC8449384/”>تدقيق الحقائق له فعالية متفاوتة”، كما تقول.