من فضلك تسجيل الدخول أو تسجيل لتفعل ذلك.

شارك أندرو إنج في ظهور نماذج التعلم العميق الضخمة التي تم تدريبها على كميات هائلة من البيانات، لكنه الآن يدعو إلى حلول البيانات الصغيرة.

أندرو نغ يتمتع بمصداقية جادة في الشارع في الذكاء الاصطناعي. كان رائدًا في استخدام وحدات معالجة الرسومات (GPUs) لتدريب نماذج التعلم العميق في أواخر العقد الأول من القرن الحادي والعشرين مع طلابه في جامعة ستانفورد، شارك في تأسيسها جوجل الدماغ في عام 2011، ثم عمل لمدة ثلاث سنوات كرئيس للعلماء في بايدوحيث ساعد في بناء مجموعة الذكاء الاصطناعي التابعة لشركة التكنولوجيا الصينية العملاقة. لذلك عندما يقول إنه حدد التحول الكبير التالي في الذكاء الاصطناعي، يستمع الناس إليه. وهذا ما قاله IEEE الطيف في سؤال وجواب حصريا


وتتركز جهود إنج الحالية على شركته هبوط الذكاء الاصطناعي، التي قامت ببناء منصة تسمى LandingLens لمساعدة الشركات المصنعة على تحسين الفحص البصري من خلال رؤية الكمبيوتر. لقد أصبح أيضًا مبشرًا لما يسميه حركة الذكاء الاصطناعي المرتكزة على البياناتوالتي يقول إنها يمكن أن تسفر عن حلول “بيانات صغيرة” لقضايا كبيرة في الذكاء الاصطناعي، بما في ذلك كفاءة النموذج والدقة والتحيز.

أندرو نغ على …

إن التقدم الكبير في التعلم العميق على مدى العقد الماضي أو نحو ذلك كان مدعومًا بنماذج أكبر من أي وقت مضى تعالج كميات أكبر من البيانات. يجادل بعض الناس بأن هذا أمر مسار غير مستدام. هل توافق على أنه لا يمكن أن يستمر الأمر على هذا النحو؟

أندرو نغ: هذا هو السؤال الكبير. لقد رأينا نماذج أساسية في البرمجة اللغوية العصبية [natural language processing]. أنا متحمس لأن نماذج البرمجة اللغوية العصبية أصبحت أكبر حجمًا، وأيضًا حول إمكانية بناء نماذج أساسية في رؤية الكمبيوتر. أعتقد أن هناك الكثير من الإشارات التي لا يزال يتعين استغلالها في الفيديو: لم نتمكن بعد من بناء نماذج أساسية للفيديو بسبب حساب النطاق الترددي وتكلفة معالجة الفيديو، بدلاً من النص المميز. لذلك أعتقد أن هذا المحرك لتوسيع نطاق خوارزميات التعلم العميق، والذي تم تشغيله منذ حوالي 15 عامًا، لا يزال يتمتع بالقوة. ومع ذلك، فهو لا ينطبق إلا على مشاكل معينة، وهناك مجموعة من المشاكل الأخرى التي تحتاج إلى حلول بيانات صغيرة.

عندما تقول أنك تريد نموذجًا أساسيًا لرؤية الكمبيوتر، ماذا تقصد بذلك؟

نانوغرام: هذا هو المصطلح الذي صاغه بيرسي ليانغ و بعض أصدقائي في جامعة ستانفورد للإشارة إلى نماذج كبيرة جدًا، تم تدريبها على مجموعات بيانات كبيرة جدًا، والتي يمكن ضبطها لتطبيقات محددة. على سبيل المثال، جي بي تي-3 هو مثال لنموذج الأساس [for NLP]. تقدم النماذج التأسيسية الكثير من الوعود كنموذج جديد في تطوير تطبيقات التعلم الآلي، ولكنها تواجه أيضًا تحديات فيما يتعلق بالتأكد من أنها عادلة إلى حد معقول وخالية من التحيز، خاصة إذا كان الكثير منا سيبني عليها.

ما الذي يجب أن يحدث لكي يقوم شخص ما ببناء نموذج أساسي للفيديو؟

نانوغرام: أعتقد أن هناك مشكلة في قابلية التوسع. تعتبر قوة الحوسبة اللازمة لمعالجة الحجم الكبير من الصور للفيديو كبيرة، وأعتقد أن هذا هو السبب وراء ظهور النماذج الأساسية أولاً في البرمجة اللغوية العصبية. يعمل العديد من الباحثين على هذا، وأعتقد أننا نشهد علامات مبكرة على تطوير مثل هذه النماذج في الرؤية الحاسوبية. لكنني واثق من أنه إذا أعطتنا شركة تصنيع أشباه الموصلات قوة معالج أكبر بعشرة أضعاف، فيمكننا بسهولة العثور على فيديو أكثر بعشرة أضعاف لبناء مثل هذه النماذج للرؤية.

ومع ذلك، فإن الكثير مما حدث خلال العقد الماضي هو أن التعلم العميق قد حدث في الشركات التي تتعامل مع المستهلكين والتي لديها قواعد مستخدمين كبيرة، وأحيانًا مليارات المستخدمين، وبالتالي مجموعات بيانات كبيرة جدًا. في حين أن نموذج التعلم الآلي هذا قد أدى إلى تحقيق الكثير من القيمة الاقتصادية في البرامج الاستهلاكية، إلا أنني أجد أن وصفة الحجم هذه لا تعمل مع الصناعات الأخرى.

العودة إلى الأعلى

من المضحك أن نسمعك تقول ذلك، لأن عملك المبكر كان في شركة تتعامل مع المستهلكين ولديها ملايين المستخدمين.

نانوغرام: منذ أكثر من عقد من الزمان، عندما اقترحت البدء في جوجل الدماغ مشروع لاستخدام البنية التحتية الحاسوبية لشركة جوجل لبناء شبكات عصبية كبيرة جدًا، كانت خطوة مثيرة للجدل. سحبني أحد كبار الأشخاص جانبًا وحذرني من البدء جوجل سيكون الدماغ سيئًا بالنسبة لحياتي المهنية. أعتقد أنه شعر أن العمل لا يمكن أن يقتصر على التوسع فحسب، بل يجب أن أركز بدلاً من ذلك على الابتكار المعماري.

“في العديد من الصناعات التي لا توجد فيها مجموعات بيانات عملاقة، أعتقد أن التركيز يجب أن يتحول من البيانات الضخمة إلى البيانات الجيدة. إن الحصول على 50 مثالًا مصممًا بعناية يمكن أن يكون كافيًا لتوضيح ما تريد أن تتعلمه للشبكة العصبية.
—أندرو إنج، الرئيس التنفيذي والمؤسس لشركة Landing AI

أتذكر عندما قمت أنا وطلابي بنشر أول كتاب نوريبس ورقة ورشة عمل تدعو إلى استخدام كودا، منصة للمعالجة على وحدات معالجة الرسومات، للتعلم العميق – جلس معي شخص كبير آخر في الذكاء الاصطناعي وقال: “إن CUDA معقدة حقًا في البرمجة. كنموذج برمجي، يبدو أن هذا يتطلب الكثير من العمل. لقد تمكنت من إقناعه. الشخص الآخر الذي لم أقنعه.

أتوقع أنهما مقتنعان الآن.

نانوغرام: أعتقد ذلك، نعم.

على مدار العام الماضي، عندما كنت أتحدث إلى الناس حول حركة الذكاء الاصطناعي المرتكزة على البيانات، كنت أستعيد ذكريات الماضي عندما كنت أتحدث إلى الناس حول التعلم العميق وقابلية التوسع قبل 10 أو 15 عامًا. في العام الماضي، كنت أتلقى نفس المزيج من “لا يوجد شيء جديد هنا” و”يبدو أن هذا هو الاتجاه الخاطئ”.

العودة إلى الأعلى

كيف يمكنك تعريف الذكاء الاصطناعي المرتكز على البيانات، ولماذا تعتبره حركة؟

نانوغرام: الذكاء الاصطناعي المرتكز على البيانات هو مجال الهندسة المنهجية للبيانات اللازمة لبناء نظام الذكاء الاصطناعي بنجاح. بالنسبة لنظام الذكاء الاصطناعي، يتعين عليك تنفيذ بعض الخوارزميات، مثل الشبكة العصبية، في التعليمات البرمجية ثم تدريبها على مجموعة البيانات الخاصة بك. كان النموذج السائد خلال العقد الماضي هو تنزيل مجموعة البيانات أثناء التركيز على تحسين الكود. بفضل هذا النموذج، تحسنت شبكات التعلم العميق بشكل ملحوظ على مدار العقد الماضي، لدرجة أنه بالنسبة للعديد من التطبيقات، فإن الكود – بنية الشبكة العصبية – يمثل في الأساس مشكلة تم حلها. لذا، بالنسبة للعديد من التطبيقات العملية، أصبح الآن من الأفضل الحفاظ على بنية الشبكة العصبية ثابتة، وبدلاً من ذلك إيجاد طرق لتحسين البيانات.

عندما بدأت الحديث عن هذا، كان هناك العديد من الممارسين الذين رفعوا أيديهم، بشكل مناسب تمامًا، وقالوا: “نعم، لقد كنا نفعل هذا لمدة 20 عامًا.” هذا هو الوقت المناسب لأخذ الأشياء التي كان يقوم بها بعض الأفراد بشكل حدسي وجعلها نظامًا هندسيًا منهجيًا.

إن حركة الذكاء الاصطناعي التي تركز على البيانات أكبر بكثير من شركة واحدة أو مجموعة من الباحثين. نظمت أنا وزملائي أ ورشة عمل حول الذكاء الاصطناعي المرتكز على البيانات في NeurIPSولقد سعدت حقًا بعدد المؤلفين والمقدمين الذين حضروا.

غالبًا ما تتحدث عن الشركات أو المؤسسات التي ليس لديها سوى كمية صغيرة من البيانات للعمل معها. كيف يمكن للذكاء الاصطناعي المرتكز على البيانات مساعدتهم؟

نانوغرام: تسمع الكثير عن أنظمة الرؤية المبنية بملايين الصور، لقد قمت ذات مرة ببناء نظام للتعرف على الوجوه باستخدام 350 مليون صورة. لا تعمل البنى المصممة لمئات الملايين من الصور مع 50 صورة فقط. ولكن اتضح أنه إذا كان لديك 50 مثالًا جيدًا حقًا، فيمكنك بناء شيء ذي قيمة، مثل نظام فحص العيوب. في العديد من الصناعات التي لا توجد فيها مجموعات بيانات عملاقة، أعتقد أن التركيز يجب أن يتحول من البيانات الضخمة إلى البيانات الجيدة. إن الحصول على 50 مثالًا مصممًا بعناية يمكن أن يكون كافيًا لتوضيح ما تريد أن تتعلمه للشبكة العصبية.

عندما تتحدث عن تدريب نموذج يحتوي على 50 صورة فقط، هل يعني ذلك حقًا أنك تأخذ نموذجًا موجودًا تم تدريبه على مجموعة بيانات كبيرة جدًا وتقوم بضبطه؟ أم أنك تقصد نموذجًا جديدًا تمامًا مصممًا للتعلم فقط من مجموعة البيانات الصغيرة هذه؟

نانوغرام: اسمحوا لي أن أصف ما يفعله Landing AI. عند إجراء الفحص البصري للمصنعين، غالبًا ما نستخدم نكهتنا الخاصة شبكية العين. إنه نموذج تم تدريبه مسبقًا. ومع ذلك، فإن التدريب المسبق هو جزء صغير من اللغز. الجزء الأكبر من اللغز هو توفير الأدوات التي تمكن الشركة المصنعة من اختيار المجموعة المناسبة من الصور [to use for fine-tuning] وتسميتها بطريقة متسقة. هناك مشكلة عملية للغاية رأيناها تشمل الرؤية، والبرمجة اللغوية العصبية، والكلام، حيث لا يتفق حتى المفسرون البشريون على التسمية المناسبة. بالنسبة لتطبيقات البيانات الضخمة، كان الرد الشائع هو: إذا كانت البيانات مشوشة، فلنحصل على الكثير من البيانات وستتجاوزها الخوارزمية. ولكن إذا تمكنت من تطوير أدوات تحدد الأماكن غير المتسقة في البيانات وتمنحك طريقة مستهدفة للغاية لتحسين اتساق البيانات، فقد يتبين أن هذه طريقة أكثر كفاءة للحصول على نظام عالي الأداء.

“إن جمع المزيد من البيانات يساعد في كثير من الأحيان، ولكن إذا حاولت جمع المزيد من البيانات لكل شيء، فقد يكون ذلك نشاطًا مكلفًا للغاية.”
—أندرو إنج

على سبيل المثال، إذا كان لديك 10000 صورة حيث 30 صورة من فئة واحدة، وتم تصنيف هذه الصور الثلاثين بشكل غير متسق، فإن أحد الأشياء التي نقوم بها هو إنشاء أدوات لجذب انتباهك إلى المجموعة الفرعية من البيانات غير المتسقة. لذلك يمكنك إعادة تسمية تلك الصور بسرعة كبيرة لتكون أكثر اتساقًا، وهذا يؤدي إلى تحسين الأداء.

هل يمكن أن يساعد هذا التركيز على البيانات عالية الجودة في تقليل التحيز في مجموعات البيانات؟ إذا كنت قادرًا على تنظيم البيانات بشكل أكبر قبل التدريب؟

نانوغرام: كثير جدا هكذا. أشار العديد من الباحثين إلى أن البيانات المتحيزة هي أحد العوامل التي تؤدي إلى الأنظمة المتحيزة. لقد كانت هناك العديد من الجهود المدروسة لهندسة البيانات. في ورشة عمل NeurIPS، أولغا روساكوفسكي أعطى حديث لطيف حقا حول هذا الموضوع. وفي مؤتمر NeurIPS الرئيسي، استمتعت أيضًا حقًا عرض ماري جراي, والتي تطرقت إلى أن الذكاء الاصطناعي المرتكز على البيانات هو جزء من الحل، وليس الحل بأكمله. أدوات جديدة مثل أوراق البيانات لمجموعات البيانات يبدو أيضًا وكأنه قطعة مهمة من اللغز.

إحدى الأدوات القوية التي يوفرها لنا الذكاء الاصطناعي المرتكز على البيانات هي القدرة على هندسة مجموعة فرعية من البيانات. تخيل تدريب نظام للتعلم الآلي والعثور على أن أدائه جيد بالنسبة لمعظم مجموعة البيانات، ولكن أدائه متحيز لمجموعة فرعية فقط من البيانات. إذا حاولت تغيير بنية الشبكة العصبية بأكملها لتحسين الأداء على تلك المجموعة الفرعية فقط، فسيكون الأمر صعبًا للغاية. ولكن إذا تمكنت من هندسة مجموعة فرعية من البيانات، فيمكنك معالجة المشكلة بطريقة أكثر استهدافًا.

عندما تتحدث عن هندسة البيانات، ماذا تقصد بالضبط؟

نانوغرام: في الذكاء الاصطناعي، يعد تنظيف البيانات أمرًا مهمًا، ولكن الطريقة التي تم بها تنظيف البيانات كانت غالبًا بطرق يدوية للغاية. في رؤية الكمبيوتر، يمكن لشخص ما تصور الصور من خلال دفتر جوبيتر وربما اكتشاف المشكلة، وربما إصلاحها. لكنني متحمس للأدوات التي تسمح لك بالحصول على مجموعة بيانات كبيرة جدًا، الأدوات التي تلفت انتباهك بسرعة وكفاءة إلى مجموعة فرعية من البيانات، حيث تكون التسميات، على سبيل المثال، صاخبة. أو لجذب انتباهك بسرعة إلى الفصل الواحد من بين 100 فصل حيث قد يفيدك جمع المزيد من البيانات. غالبًا ما يساعد جمع المزيد من البيانات، ولكن إذا حاولت جمع المزيد من البيانات لكل شيء، فقد يكون ذلك نشاطًا مكلفًا للغاية.

على سبيل المثال، اكتشفت ذات مرة أن نظام التعرف على الكلام كان يعمل بشكل سيئ عندما كان هناك ضجيج سيارة في الخلفية. معرفة ذلك سمحت لي بجمع المزيد من البيانات مع ضجيج السيارة في الخلفية، بدلاً من محاولة جمع المزيد من البيانات لكل شيء، وهو الأمر الذي كان سيكون مكلفًا وبطيئًا.

العودة إلى الأعلى

ماذا عن استخدام البيانات الاصطناعية، هل غالبًا ما يكون هذا حلاً جيدًا؟

نانوغرام: أعتقد أن البيانات الاصطناعية هي أداة مهمة في مجموعة أدوات الذكاء الاصطناعي المرتكز على البيانات. في ورشة عمل NeurIPS، أنيما أناندكومار ألقى محاضرة رائعة تناولت البيانات الاصطناعية. أعتقد أن هناك استخدامات مهمة للبيانات الاصطناعية تتجاوز مجرد كونها خطوة معالجة مسبقة لزيادة مجموعة البيانات لخوارزمية التعلم. أرغب في رؤية المزيد من الأدوات للسماح للمطورين باستخدام توليد البيانات الاصطناعية كجزء من الحلقة المغلقة لتطوير التعلم الآلي التكراري.

هل تقصد أن البيانات الاصطناعية ستسمح لك بتجربة النموذج على المزيد من مجموعات البيانات؟

نانوغرام: ليس حقيقيًا. هنا مثال. لنفترض أنك تحاول اكتشاف العيوب في غلاف الهاتف الذكي. هناك العديد من أنواع العيوب المختلفة في الهواتف الذكية. يمكن أن يكون خدشًا، أو انبعاجًا، أو علامات حفر، أو تغيرًا في لون المادة، أو أنواعًا أخرى من العيوب. إذا قمت بتدريب النموذج ثم وجدت من خلال تحليل الأخطاء أنه يعمل بشكل جيد بشكل عام ولكن أداءه ضعيف عند علامات الحفر، فإن إنشاء البيانات الاصطناعية يسمح لك بمعالجة المشكلة بطريقة أكثر استهدافًا. يمكنك إنشاء المزيد من البيانات لفئة علامات الحفرة فقط.

“في إنترنت البرمجيات الاستهلاكية، يمكننا تدريب عدد قليل من نماذج التعلم الآلي لخدمة مليار مستخدم. وفي مجال التصنيع، قد يكون لديك 10000 مصنع يقومون ببناء 10000 نموذج مخصص للذكاء الاصطناعي.
—أندرو إنج

يعد توليد البيانات الاصطناعية أداة قوية جدًا، ولكن هناك العديد من الأدوات الأبسط التي سأجربها أولاً. مثل زيادة البيانات، أو تحسين اتساق العلامات، أو مجرد مطالبة المصنع بجمع المزيد من البيانات.

العودة إلى الأعلى

لجعل هذه القضايا أكثر وضوحًا، هل يمكنك أن تشرح لي مثالاً؟ عندما تقترب الشركة هبوط الذكاء الاصطناعي وتقول إن لديها مشكلة في الفحص البصري، كيف يمكنك إعدادها والعمل على نشرها؟

نانوغرام: عندما يتصل بنا أحد العملاء، عادةً ما نجري محادثة حول مشكلة الفحص الخاصة به وننظر إلى بعض الصور للتحقق من إمكانية حل المشكلة من خلال رؤية الكمبيوتر. على افتراض ذلك، نطلب منهم تحميل البيانات إلى LandingLens منصة. غالبًا ما ننصحهم بشأن منهجية الذكاء الاصطناعي المرتكز على البيانات ونساعدهم على تصنيف البيانات.

أحد محاور Landing AI هو تمكين شركات التصنيع من القيام بأعمال التعلم الآلي بنفسها. يتمثل جزء كبير من عملنا في التأكد من أن البرنامج سريع وسهل الاستخدام. من خلال العملية التكرارية لتطوير التعلم الآلي، نقدم المشورة للعملاء بشأن أشياء مثل كيفية تدريب النماذج على النظام الأساسي، ومتى وكيف يتم تحسين تصنيف البيانات بحيث يتحسن أداء النموذج. ويدعمها التدريب والبرامج لدينا طوال الطريق من خلال نشر النموذج المُدرب على جهاز متطور في المصنع.

كيف تتعامل مع الاحتياجات المتغيرة؟ إذا تغيرت المنتجات أو تغيرت ظروف الإضاءة في المصنع، فهل يمكن للنموذج مواكبة ذلك؟

نانوغرام: ويختلف حسب الشركة المصنعة. هناك انجراف البيانات في العديد من السياقات. ولكن هناك بعض الشركات المصنعة التي تدير نفس خط التصنيع لمدة 20 عامًا حتى الآن مع بعض التغييرات، لذلك لا تتوقع حدوث تغييرات في السنوات الخمس المقبلة. هذه البيئات المستقرة تجعل الأمور أسهل. بالنسبة للشركات المصنعة الأخرى، فإننا نقدم أدوات للإبلاغ عند وجود مشكلة كبيرة في انحراف البيانات. أجد أنه من المهم حقًا تمكين عملاء التصنيع من تصحيح البيانات وإعادة التدريب وتحديث النموذج. لأنه إذا تغير شيء ما وكانت الساعة الثالثة صباحًا في الولايات المتحدة، أريدهم أن يكونوا قادرين على تكييف خوارزمية التعلم الخاصة بهم على الفور للحفاظ على العمليات.

وفي إنترنت البرمجيات الاستهلاكية، يمكننا تدريب حفنة من نماذج التعلم الآلي لخدمة مليار مستخدم. في مجال التصنيع، قد يكون لديك 10000 مصنع يقومون ببناء 10000 نموذج مخصص للذكاء الاصطناعي. ويتمثل التحدي في كيفية القيام بذلك دون أن تضطر شركة Landing AI إلى توظيف 10000 متخصص في التعلم الآلي؟

إذن أنت تقول أنه لكي نتوسع، عليك تمكين العملاء من القيام بالكثير من التدريب والأعمال الأخرى.

نانوغرام: نعم بالضبط! وهذه مشكلة على مستوى الصناعة في مجال الذكاء الاصطناعي، وليس فقط في التصنيع. انظر إلى الرعاية الصحية. كل مستشفى لديه تنسيق مختلف قليلاً للسجلات الصحية الإلكترونية. كيف يمكن لكل مستشفى تدريب نموذج الذكاء الاصطناعي المخصص له؟ إن توقع قيام موظفي تكنولوجيا المعلومات في كل مستشفى بابتكار بنيات جديدة للشبكات العصبية أمر غير واقعي. الطريقة الوحيدة للخروج من هذه المعضلة هي بناء أدوات تمكن العملاء من بناء نماذجهم الخاصة من خلال منحهم أدوات لهندسة البيانات والتعبير عن معرفتهم بالمجال. هذا ما ينفذه Landing AI في رؤية الكمبيوتر، ويحتاج مجال الذكاء الاصطناعي إلى فرق أخرى لتنفيذ ذلك في مجالات أخرى.

هل هناك أي شيء آخر تعتقد أنه من المهم أن يفهمه الأشخاص حول العمل الذي تقوم به أو حركة الذكاء الاصطناعي التي تركز على البيانات؟

نانوغرام: في العقد الماضي، كان التحول الأكبر في الذكاء الاصطناعي هو التحول إلى التعلم العميق. أعتقد أنه من المحتمل جدًا أن يكون التحول الأكبر في هذا العقد نحو الذكاء الاصطناعي المرتكز على البيانات. مع نضج بنيات الشبكات العصبية اليوم، أعتقد أن عنق الزجاجة بالنسبة لكثير من التطبيقات العملية سيكون ما إذا كان بإمكاننا الحصول بكفاءة على البيانات التي نحتاجها لتطوير أنظمة تعمل بشكل جيد. تتمتع حركة الذكاء الاصطناعي المرتكزة على البيانات بطاقة هائلة وزخم كبير عبر المجتمع بأكمله. آمل أن يتدخل المزيد من الباحثين والمطورين ويعملوا عليه.

العودة إلى الأعلى

تظهر هذه المقالة في عدد أبريل 2022 المطبوع باسم “Andrew Ng, AI Minimalist“.

اقرأ أكثر

جوجل وإنتل ونفيديا يتنافسون في تدريب الذكاء الاصطناعي التوليدي
المحكمة الروسية تفرض غرامات على Coinbase لانتهاكها قواعد البيانات

Reactions

0
0
0
0
0
0
بالفعل كان رد فعل لهذا المنصب.

ردود الفعل