نشرت OpenAI النتائج الأولية لاختبار ميزة يمكنها قراءة الكلمات بصوت عالٍ من خلال صوت بشري مقنع، مما يسلط الضوء على حدود جديدة للذكاء الاصطناعي ويثير شبح مخاطر التزييف العميق.
ونشرت الشركة العروض التوضيحية المبكرة وحالات الاستخدام من معاينة صغيرة الحجم لنموذج تحويل النص إلى كلام المسمى Voice Engine مع نحو 10 مطورين حتى الآن.
وقررت OpenAI عدم نشر هذه الميزة على نطاق واسع، التي أطلعت الصحفيين عليها في وقت سابق من هذا الشهر.
وقررت OpenAI تقليص الإصدار بعد تلقي تعليقات من أصحاب المصلحة، مثل صانعي السياسات وخبراء الصناعة والمعلمين والمبدعين.
وكانت الشركة قد خططت في البداية لإصدار الأداة لما يصل إلى 100 مطور من خلال عملية تقديم الطلب.
وكتبت الشركة في تدوينة: “ندرك أن توليد خطاب يشبه أصوات الناس ينطوي على مخاطر جسيمة. نتعامل مع الشركاء الأمريكيين والدوليين من مختلف أنحاء الحكومة ووسائل الإعلام والترفيه والتعليم والمجتمع المدني وخارجها لضمان إدماج ملاحظاتهم أثناء البناء”.
واستخدمت تقنيات الذكاء الاصطناعي الأخرى لتزييف الأصوات في بعض السياقات.
وشجعت مكالمة هاتفية زائفة مع أنها تبدو واقعية يزعم أنها من الرئيس جو بايدن، الناس في نيو هامبشاير على عدم التصويت في الانتخابات التمهيدية، وهو حدث أثار مخاوف الذكاء الاصطناعي قبل الانتخابات العالمية الحاسمة.
وعلى عكس جهود OpenAI السابقة في إنشاء محتوى صوتي، يستطيع نموذج Voice Engine إنشاء كلام من أشخاص فرديين مكتملًا بطريقة كلامهم المحددة.
وكل ما يحتاجه النموذج الجديد هو مقدار 15 ثانية من الصوت المسجل لشخص يتحدث لإعادة إنشاء صوته.
وأثناء عرض توضيحي للأداة، عرضت الشركة مقطع للرئيس التنفيذي لشركة OpenAI، سام ألتمان، وهو يشرح بإيجاز التكنولوجيا بصوت لا يمكن تمييزه عن خطابه الفعلي، مع أنه مولد بالكامل بالذكاء الاصطناعي.
ويستخدم معهد نورمان برينس لعلوم الأعصاب الأداة من أجل مساعدة المرضى على استعادة أصواتهم.
واستخدمت الأداة لاستعادة صوت مريضة شابة فقدت قدرتها على التحدث بوضوح بسبب ورم في المخ من خلال تكرار حديثها من تسجيل سابق لمشروع مدرسي.
ويستطيع نموذج الكلام المخصص من OpenAI ترجمة الصوت الذي يصدره إلى لغات مختلفة، مما يجعله مفيدًا للشركات العاملة في مجال الصوت.
كما روجت OpenAI أيضًا للاستخدامات المفيدة الأخرى للتكنولوجيا، مثل إنشاء نطاق واسع من الأصوات للمحتوى التعليمي للأطفال.
وتطالب OpenAI شركائها بالموافقة على سياساتها للاستخدام والحصول على موافقة المتحدث الأصلي قبل استخدام صوته والكشف للمستمعين أن الأصوات التي يسمعونها مولدة بالذكاء الاصطناعي.
وتضيف الشركة علامة مائية صوتية غير مسموعة للسماح لها بتمييز إذا كان الصوت مولد بالأداة.