زوج من الطلاب الجامعيين ، لا مع خبرة واسعة من الذكاء الاصطناعى ، يقولان إنهما قاموا بإنشاء نموذج منظمة العفو الدولية متاح بشكل علني يمكنه إنشاء مقاطع على طراز البودكاست المشابهة”https://techcrunch.com/2025/02/10/google-expands-notebooklm-plus-to-individual-users/”> Google Notebooklm.
سوق أدوات الكلام الاصطناعية شاسعة ومتنامية. Elevenlabs هي واحدة من أكبر اللاعبين ، ولكن لا يوجد نقص في المنافسين (انظر”https://techcrunch.com/2024/11/25/playai-clones-voices-on-command/”> Playaiو”https://techcrunch.com/2025/03/13/sesame-the-startup-behind-the-viral-virtual-assistant-maya-releases-its-base-ai-model/”> السمسموما إلى ذلك). يعتقد المستثمرون أن هذه الأدوات لها إمكانات هائلة.”https://my.pitchbook.com/search-results/s502639615/overview_tab” الهدف=”_blank” rel=”noreferrer noopener nofollow”> وفقا لكوك، جمعت الشركات الناشئة التي تطورت صوت AI Tech أكثر من 398 مليون دولار من تمويل VC العام الماضي.
توبي كيم ، أحد المؤسسين المشاركين في كوريا”https://github.com/nari-labs/” الهدف=”_blank” rel=”noreferrer noopener nofollow”> Nari Labsوقالت المجموعة التي تقف وراء النموذج الذي تم إصداره حديثًا ، إنه وزميله المؤسس المشارك بدأوا في التعلم عن AI للكلام قبل ثلاثة أشهر. مستوحى من دفتر NotebookLM ، أرادوا إنشاء نموذج يوفر مزيدًا من التحكم في الأصوات المولدة و “الحرية في البرنامج النصي”.
يقول كيم إنهم استخدموا برنامج Google TPU Research Cloud ، الذي يوفر للباحثين وصولًا مجانيًا إلى رقائق TPU AI للشركة ، لتدريب نموذج NARI ، DIA. عند وزنه عند 1.6 مليار معلمة ، يمكن لـ DIA إنشاء حوار من البرنامج النصي ، مما يتيح للمستخدمين تخصيص نغمات السماعات وإدراج عدم التصرف والسعال والضحك وغيرها من العظة غير اللفظية.
المعلمات هي نماذج المتغيرات الداخلية التي تستخدمها لجعل التنبؤات. عموما ، النماذج مع المزيد من المعلمات أداء أفضل.
متوفر من منصة AI Dev”https://huggingface.co/nari-labs/Dia-1.6B” الهدف=”_blank” rel=”noreferrer noopener nofollow”> معانقة الوجه و”https://github.com/nari-labs/dia” الهدف=”_blank” rel=”noreferrer noopener nofollow”> github، يمكن أن يعمل DIA على معظم أجهزة الكمبيوتر الحديثة مع ما لا يقل عن 10 جيجابايت من VRAM. إنه يولد صوتًا عشوائيًا ما لم يُطلب من وصف للنمط المقصود ، ولكن يمكنه أيضًا استنساخ صوت الشخص.
في اختبار TechCrunch الموجز لـ DIA من خلال Nari’s”https://huggingface.co/spaces/nari-labs/Dia-1.6B” الهدف=”_blank” rel=”noreferrer noopener nofollow”> تجريبي الويب، عملت DIA بشكل جيد ، وتوليد دردشات في اتجاهين غير مكتملة حول أي موضوع. تبدو جودة الأصوات تنافسية مع أدوات أخرى هناك ، ووظيفة الاستنساخ الصوتي هي من بين أسهل هذا المراسل الذي حاوله هذا المراسل.
هذه عينة:
مثل العديد من المولدات الصوتية، ديا يوفر القليل في طريق الضمانات ، ولكن. سيكون من السهل بشكل تافهة صياغة معلومات مضللة أو تسجيل محة. في صفحات مشروع DIA ، لا تشجع NARI إساءة استخدام النموذج على انتحال شخصية أو خداع أو الانخراط في حملات غير مشروعة ، لكن المجموعة تقول إنها “ليست مسؤولة” عن سوء الاستخدام.
لم يكشف Nari عن البيانات التي كشطتها لتدريب DIA. من المحتمل أن تم تطوير DIA باستخدام محتوى حقوق الطبع والنشر -“https://news.ycombinator.com/item?id=43754124″ الهدف=”_blank” rel=”noreferrer noopener nofollow”> المعلق في Hacker News تشير إلى أن عينة واحدة تبدو مثل مضيفي بودكاست “Planet Money” من NPR. نماذج التدريب على المحتوى المحمي بحقوق الطبع والنشر هي ممارسة واسعة النطاق ولكن مشكوك فيها قانونًا. تدعي بعض شركات الذكاء الاصطناعى أن الاستخدام العادل يحميهم من المسؤولية ، بينما يؤكد حاملي الحقوق أن الاستخدام العادل لا ينطبق على التدريب.
على أي حال ، يقول كيم إن خطة ناري هي إنشاء منصة صوتية اصطناعية ذات “جانب اجتماعي” على رأس DIA والنماذج المستقبلية الأكبر. تعتزم NARI أيضًا إصدار تقرير فني لـ DIA ، وتوسيع دعم النموذج إلى اللغات التي تتجاوز اللغة الإنجليزية.
Kyle Wiggers هو محرر AI TechCrunch. ظهرت كتاباته في الاتجاهات الفخارية والرقمية ، بالإضافة إلى مجموعة من المدونات الأدوات بما في ذلك شرطة Android و Android Authority و Droid-Life و XDA-Developers. يعيش في مانهاتن مع شريكه ، وهو معالج موسيقي.