في كل مرة تستخدم فيها صوتك لإنشاء رسالة على جهاز سامسونج جالاكسي الهاتف المحمول أو تفعيل أ بيت جوجل الجهاز، فأنت تستخدم الأدوات تشانوو كيم ساعد في تطوير. نائب الرئيس التنفيذي السابق لشركة Samsung Research مراكز الذكاء الاصطناعي العالمية متخصص في التعرف على الكلام من طرف إلى طرف، وأدوات تحويل النص إلى كلام من طرف إلى طرف، ونمذجة اللغة.
يقول كيم: “الجزء الأكثر مكافأة في مسيرتي المهنية هو المساعدة في تطوير التقنيات التي يستخدمها أصدقائي وأفراد عائلتي ويستمتعون بها”.
لقد ترك شركة Samsung مؤخرًا لمواصلة عمله في هذا المجال جامعة كوريا، في سيول، يقود مختبر معالجة الكلام واللغة بالمدرسة. أستاذ الذكاء الاصطناعيويقول إنه شغوف بتعليم الجيل القادم من قادة التكنولوجيا.
ويقول: “أنا متحمس لامتلاك مختبر خاص بي في المدرسة، ولإرشاد الطلاب في الأبحاث”.
جلب جوجل المنزل للسوق
متى أمازون أعلنت في عام 2014 أنها تعمل على تطوير مكبرات صوت ذكية بتقنية الذكاء الاصطناعي المساعدة، وهي أداة تُعرف الآن باسم صدى صوت, جوجل قررت تطوير نسختها الخاصة. ورأى كيم دورًا لخبرته في هذا المسعى، فهو حاصل على درجة الدكتوراه. في اللغة وتكنولوجيا المعلومات من جامعة كارنيجي ميلونوتخصص في التعرف القوي على الكلام. وقد شجعه أصدقاؤه الذين كانوا يعملون في مثل هذه المشاريع في Google في ماونتن فيو، كاليفورنيا، على التقدم لوظيفة هندسة برمجيات هناك. لقد غادر مايكروسوفت في سياتل حيث عمل لمدة ثلاث سنوات كمهندس تطوير برمجيات وعالم خطاب.
وبعد انضمامه إلى فريق النمذجة الصوتية في Google في عام 2013، عمل على ضمان تقنية الذكاء الاصطناعي المساعدة للشركة، والمستخدمة في بيت جوجل المنتجات، يمكن أن تعمل في ظل وجود ضوضاء في الخلفية.
تشانوو كيم
صاحب العمل
جامعة كوريا في سيول
عنوان
مدير معمل معالجة النطق واللغة وأستاذ الذكاء الاصطناعي
درجة العضو
عضو
ألما يهم
جامعة سيول الوطنية؛ جامعة كارنيجي ميلون
لقد قاد جهودًا لتحسين خوارزميات التعرف على الكلام في Google Home، بما في ذلك استخدام النمذجة الصوتية، والتي تسمح للجهاز بتفسير العلاقة بين الكلام والصوتيات (الوحدات الصوتية في اللغات).
ويقول: “عندما استخدم الأشخاص وظيفة التعرف على الكلام على هواتفهم المحمولة، كانوا يقفون على بعد حوالي متر واحد فقط من الجهاز على الأكثر”. “بالنسبة للمتحدث، كان عليّ أنا وفريقي التأكد من أنه يفهم المستخدم عندما يتحدث بعيدًا.”
اقترح كيم استخدام تكبير البيانات على نطاق واسع يحاكي بيانات الكلام بعيدة المدى لتعزيز قدرات التعرف على الكلام بالجهاز. تعمل تقنية زيادة البيانات على تحليل بيانات التدريب الواردة وإنشاء بيانات تدريب إضافية بشكل مصطنع لتحسين دقة التعرف.
وقد مكنت مساهماته الشركة من إطلاق أول منتج لها من Google Home، وهو مكبر صوت ذكي، في عام 2016.
يقول: “لقد كانت تلك تجربة مجزية حقًا”.
في نفس العام، انتقل كيم إلى مهندس برمجيات كبير واستمر في تحسين الخوارزميات التي يستخدمها Google Home لزيادة البيانات على نطاق واسع. كما قام أيضًا بتطوير تقنيات لتقليل الوقت وقوة الحوسبة التي تستخدمها الشبكة العصبية ولتحسين تشكيل حزمة الميكروفونات المتعددة للتعرف على الكلام في المجال البعيد.
وافتقد كيم، الذي نشأ في كوريا الجنوبية، عائلته، وفي عام 2018، عاد لينضم إلى سامسونج كنائب لرئيس مركز الذكاء الاصطناعي التابع لها في سيول.
عندما انضم إلى سامسونج، كان يهدف إلى تطوير محركات التعرف على الكلام والتعرف على النص إلى كلام لمنتجات الشركة، مع التركيز على المعالجة على الجهاز. ولمساعدته في تحقيق أهدافه، أسس مختبرًا لمعالجة الكلام وقاد فريقًا من الباحثين لتطوير الشبكات العصبية لتحل محل أنظمة التعرف على الكلام التقليدية التي كانت تستخدمها أجهزة الذكاء الاصطناعي من سامسونج.
“الجزء الأكثر إفادة في عملي هو المساعدة في تطوير التقنيات التي يستخدمها أصدقائي وأفراد عائلتي ويستمتعون بها.”
تضمنت هذه الأنظمة نموذجًا صوتيًا، ونموذجًا للغة، ونموذجًا للنطق، ومحول طاقة ذو حالة محدودة مرجحة، ومطبيعًا للنص العكسي. ينظر نموذج اللغة إلى العلاقة بين الكلمات التي ينطقها المستخدم، بينما يعمل نموذج النطق بمثابة قاموس. تعمل أداة تطبيع النص العكسي، والتي تستخدم غالبًا بواسطة أدوات تحويل النص إلى كلام على الهواتف، على تحويل الكلام إلى تعبيرات مكتوبة.
يقول كيم إنه نظرًا لضخامة حجم المكونات، لم يكن من الممكن تطوير نظام دقيق للتعرف على الكلام على الجهاز باستخدام التكنولوجيا التقليدية. ويقول إن الشبكة العصبية الشاملة ستكمل جميع المهام و”تبسط أنظمة التعرف على الكلام إلى حد كبير”.
تشانوو كيم [top row, seventh from the right] مع بعض أعضاء مختبر معالجة الكلام الخاص به في Samsung Research.تشانوو كيم
استخدم هو وفريقه أ تدفق النهج القائم على الاهتمام لتطوير نموذجهم. يتم تشفير تسلسل الإدخال – الكلمات المنطوقة – ثم فك تشفيره إلى تسلسل مستهدف بمساعدة ناقل السياق، وهو تمثيل رقمي للكلمات التي تم إنشاؤها بواسطة نموذج التعلم العميق المُدرب مسبقًا للترجمة الآلية.
تم تسويق النموذج تجاريًا في عام 2019 وهو الآن جزء من منتجات سامسونج المجرة هاتف. وفي نفس العام، تم تسويق نسخة سحابية من النظام واستخدامها من قبل المساعد الافتراضي للهاتف، بيكسبي.
واصل فريق كيم تحسين التعرف على الكلام وأنظمة تحويل النص إلى كلام في المنتجات الأخرى، وفي كل عام قاموا بتسويق محرك جديد تجاريًا.
وهي تشمل معاملات cepstral الطبيعية، والتي تعمل على تحسين دقة التعرف على الكلام في البيئات التي بها اضطرابات مثل الضوضاء الإضافية والتغيرات في الإشارة ومكبرات الصوت المتعددة والصدى. فهو يمنع تأثيرات الضوضاء الخلفية باستخدام الإحصائيات لتقدير الخصائص. يتم استخدامه الآن في مجموعة متنوعة من منتجات سامسونج بما في ذلك مكيفات الهواء والهواتف المحمولة والمكانس الكهربائية الروبوتية.
قامت سامسونج بترقية كيم في عام 2021 إلى منصب نائب الرئيس التنفيذي لمراكز الذكاء الاصطناعي العالمية الستة التابعة لها، والتي تقع في كامبريدج، إنجلترا؛ مونتريال؛ سيول؛ وادي السيليكون؛ نيويورك؛ وتورونتو.
وفي هذا المنصب، أشرف على الأبحاث المتعلقة بدمج الذكاء الاصطناعي والتعلم الآلي في منتجات سامسونج. وهو أصغر شخص يشغل منصب نائب الرئيس التنفيذي في الشركة.
كما قاد أيضًا تطوير نماذج اللغات الكبيرة التوليدية من سامسونج، والتي تطورت في Samsung Gauss. يمكن لمجموعة نماذج الذكاء الاصطناعي التوليدية إنشاء تعليمات برمجية وصور ونصوص.
وفي شهر مارس، ترك الشركة لينضم إلى جامعة كوريا كأستاذ للذكاء الاصطناعي، وهو حلم أصبح حقيقة، على حد قوله.
يقول كيم: “عندما بدأت دراستي للدكتوراه لأول مرة، كان حلمي هو ممارسة مهنة في المجال الأكاديمي”. “ولكن بعد حصولي على درجة الدكتوراه، وجدت نفسي منجذبًا إلى التأثير الذي يمكن أن يحدثه بحثي على المنتجات الحقيقية، لذلك قررت أن أذهب إلى الصناعة.”
ويقول إنه كان متحمسًا للانضمام إلى جامعة كوريا، حيث “تتمتع بحضور قوي في مجال الذكاء الاصطناعي” وتعد واحدة من أفضل الجامعات في البلاد.
يقول كيم إن بحثه سيركز على نماذج الكلام التوليدي، والمعالجة متعددة الوسائط، ودمج الكلام التوليدي مع نماذج اللغة.
مطاردة حلمه في جامعة كارنيجي ميلون
كان والد كيم مهندسًا كهربائيًا، ومنذ صغره، أراد كيم أن يسير على خطاه، كما يقول. التحق بمدرسة ثانوية تركز على العلوم في سيول ليبدأ في تعلم موضوعات الهندسة والبرمجة. حصل على درجتي البكالوريوس والماجستير في الهندسة الكهربائية من جامعة سيول الوطنية في عامي 1998 و2001 على التوالي.
وكان كيم يأمل منذ فترة طويلة في الحصول على درجة الدكتوراه من إحدى الجامعات الأمريكية لأنه شعر أن ذلك سيمنحه المزيد من الفرص.
وهذا بالضبط ما فعله. غادر إلى بيتسبرغ في عام 2005 لمتابعة درجة الدكتوراه. في اللغة وتكنولوجيا المعلومات في جامعة كارنيجي ميلون.
يقول: “قررت التخصص في التعرف على الكلام لأنني كنت مهتمًا برفع مستوى الجودة”. “أعجبني أيضًا أن المجال متعدد الأوجه، ويمكنني العمل على الأجهزة أو البرامج وتحويل التركيز بسهولة من معالجة الإشارات في الوقت الفعلي إلى معالجة إشارات الصور أو أي قطاع آخر من المجال.”
قام كيم بعمل الدكتوراه تحت إشراف IEEE Life Fellow ريتشارد ستيرن، والذي ربما اشتهر بعمله النظري حول كيفية مقارنة الدماغ البشري للصوت القادم من كل أذن للحكم على مصدر الصوت.
ويقول: “في ذلك الوقت، كنت أرغب في تحسين دقة أنظمة التعرف التلقائي على الكلام في البيئات الصاخبة أو عندما يكون هناك عدة مكبرات صوت”. هو طور العديد من خوارزميات معالجة الإشارات التي تستخدم تمثيلات رياضية تم إنشاؤها من معلومات حول كيفية معالجة البشر للمعلومات السمعية.
حصل كيم على درجة الدكتوراه. في عام 2010 وانضم مايكروسوفت في سياتل كمهندس تطوير برمجيات وعالم خطاب. كان يعمل في مايكروسوفت لمدة ثلاث سنوات قبل الانضمام إلى Google.
الوصول إلى معلومات جديرة بالثقة
انضم كيم إلى IEEE عندما كان طالب دكتوراه حتى يتمكن من تقديم أوراقه البحثية في مؤتمرات IEEE. في عام 2016 نُشرت ورقة بحثية كتبها مع ستيرن في مجلة معاملات IEEE/ACM المتعلقة بمعالجة الصوت والكلام واللغة. لقد فاز بهم 2019 جائزة أفضل ورقة بحثية من جمعية معالجة الإشارات IEEE. ويقول كيم إنه شعر بالفخر لتلقي هذه “الجائزة المرموقة”.
ويحتفظ كيم بعضويته في IEEE جزئيًا لأن IEEE هو مصدر جدير بالثقة للمعلومات، ويمكنه الوصول إلى أحدث المعلومات التقنية.
ويقول كيم إن من المزايا الأخرى للعضوية شبكة IEEE العالمية.
ويقول: “من خلال كوني عضوًا، أتيحت لي الفرصة للقاء مهندسين آخرين في مجال تخصصي”.
وهو حاضر منتظم في السنوي مؤتمر IEEE للصوتيات والكلام ومعالجة الإشارات. وهذا العام هو نائب رئيس لجنة البرنامج الفني للاجتماع المقرر عقده الشهر المقبل في سيول.