لقد دخل اختبار التفاح إلى التفاح العام الرائد لقدرة أنظمة الكمبيوتر على تدريب الشبكات العصبية للتعلم الآلي بشكل كامل الذكاء الاصطناعي التوليدي حقبة. في وقت سابق من هذا العام، MLPerf إضافة اختبار لتدريب نماذج اللغة الكبيرة (ماجستير في القانون)، جي بي تي-3 بخاصة. يضيف هذا الشهر Stable Diffusion، أ مولد النص إلى الصورة. أجهزة الكمبيوتر التي تعمل بالطاقة شركة انتل واتخذت Nvidia المعيار الجديد. وواصل المنافسون معركتهم السابقة في تدريب GPT-3، حيث انضم إليهم في هذه الجولة جوجل.
خصصت الأنظمة الثلاثة جميعها أنظمة ضخمة لهذه المهمة، وكان الكمبيوتر العملاق الذي يحتوي على 10000 وحدة معالجة رسومات من Nvidia هو الأكبر الذي تم اختباره على الإطلاق، وهذا الحجم ضروري في الذكاء الاصطناعي التوليدي. حتى أكبر نظام لشركة Nvidia كان سيستغرق ثمانية أيام من العمل لإكمال مهمة LLM بالكامل.
بشكل عام، قدمت 19 شركة ومؤسسة أكثر من 200 نتيجة، والتي أظهرت زيادة في الأداء بمقدار 2.8 ضعفًا خلال الأشهر الخمسة الماضية، وزيادة قدرها 49 ضعفًا منذ بدء MLPerf قبل خمس سنوات.
نفيديا, مايكروسوفت اختبار 10,752 وحدة معالجة رسومية
واصلت Nvidia السيطرة على معايير MLPerf بأنظمة مصنوعة من وحدات معالجة الرسوميات H100 الخاصة بها. لكن الكرز الموجود في الأعلى كان نتيجة إيوس، الكمبيوتر العملاق الجديد للشركة الذي يحتوي على 10,752 وحدة معالجة رسومات (GPU). ثني كل تلك وحدات معالجة الرسوماتبالنسبة لمهمة معيار التدريب GPT-3، أنجزت Eos المهمة في أقل من 4 دقائق. قامت شركة Azure، ذراع الحوسبة السحابية لشركة Microsoft، باختبار نظام بنفس الحجم تمامًا وكانت متأخرة عن Eos بثواني فقط. (يعمل Azure على تشغيل مساعد الترميز في GitHub مساعد طيار و OpenAI ChatGPT.)
وحدات معالجة الرسومات الخاصة بـ Eos قادرة على إجراء إجمالي 42.6 مليار عملية نقطة عائمة في الثانية (exaflops). وهي مرتبطة ببعضها البعض من خلال وصلات بينية – Quantum-2 Infiniband من Nvidia – والتي تنقل 1.1 مليون مليار بايت في الثانية. يقول ديف سالفاتور، مدير قياس الذكاء الاصطناعي والحوسبة السحابية في Nvidia: “بعض هذه السرعات والتغذية مذهلة”. “هذه آلة قادرة بشكل لا يصدق.”
تعمل Eos على مضاعفة عدد وحدات معالجة الرسوميات H100 التي تم ربطها بجهاز واحد ثلاث مرات. أدت هذه الزيادة بمقدار ثلاثة أضعاف إلى تحسين الأداء بمقدار 2.8 ضعفًا، أو كفاءة التوسع بنسبة 93 بالمائة. يعد التوسع الفعال أمرًا أساسيًا للتحسين المستمر للذكاء الاصطناعي التوليدي، والذي كان كذلك ينمو 10 أضعاف كل عام.
إن معيار GPT-3 الذي تم تناوله ليس تدريبًا كاملاً لـ GPT-3، لأن MLPerf أراد أن يكون في متناول العديد من الشركات. وبدلاً من ذلك، فهو يتضمن تدريب النظام على نقطة تفتيش معينة تثبت أن التدريب كان سيصل إلى الدقة المطلوبة مع مرور الوقت الكافي. وهذه التدريبات تستغرق وقتًا. الاستقراء من الدقائق الأربع التي قدمها Eos يعني أن الأمر سيستغرق 8 أيام لإكمال التدريب، وهذا على ما قد يكون أقوى كمبيوتر فائق الذكاء الاصطناعي تم بناؤه حتى الآن. سيستغرق الكمبيوتر ذو الحجم المعقول – 512 H100s – 4 أشهر.
تواصل إنتل الإغلاق
قدمت شركة Intel نتائج للأنظمة التي تستخدم غاودي 2 شريحة التسريع ولأولئك الذين ليس لديهم مسرع على الإطلاق، يعتمدون فقط على الجيل الرابع من وحدة المعالجة المركزية Xeon. كان التغيير الكبير عن المجموعة الأخيرة من معايير التدريب هو أن الشركة قامت بتمكين قدرات النقطة العائمة (FP8) الخاصة بـ Gaudi 2. كان استخدام أرقام أقل دقة، مثل FP8، مسؤولاً عن معظم التحسن في أداء وحدة معالجة الرسومات في السنوات العشر الماضية. إن استخدام FP8 في أجزاء من GPT-3 والشبكات العصبية المحولة الأخرى حيث لا تؤثر دقتها المنخفضة على الدقة قد أظهر بالفعل قيمته في نتائج Nvidia’s H100. الآن يشهد Gaudi 2 التعزيز.
يقول: “لقد توقعنا تحقيق مكاسب بنسبة 90 بالمائة” من تشغيل FP8 ايتان مدينة، الرئيس التنفيذي للعمليات في مختبرات هابانا التابعة لشركة إنتل. “لقد حققنا أكثر مما وعدنا به – انخفاض بنسبة 103 بالمائة في وقت التدريب لمجموعة 384 مسرعًا.”
هذه النتيجة الجديدة تجعل نظام Gaudi 2 أقل بقليل من ثلث سرعة نظام Nvidia على أساس كل شريحة وأسرع بثلاث مرات من نظام TPUv5e من Google. في المعيار الجديد لتوليد الصور، كانت سرعة Gaudi 2 أيضًا حوالي نصف سرعة H100. كان GPT-3 هو معيار FP8 الوحيد الذي تم تمكينه لهذه الجولة، لكن Medina يقول إن فريقه يعمل على تشغيله للآخرين الآن.
استمرت مدينة في إثبات أن سعر Gaudi 2 أقل بكثير من سعر H100، وبالتالي فهو يتمتع بميزة على المقياس المشترك للسعر والأداء. وتتوقع Medina أن تنمو الميزة مع الجيل التالي من شريحة تسريع Intel، Gaudi 3. وسيتم إنتاج هذه الشريحة بكميات كبيرة في عام 2024 وسيتم بناؤها باستخدام نفس عملية تصنيع أشباه الموصلات مثل Nvidia H100.
بشكل منفصل، قدمت إنتل نتائج للأنظمة التي تعتمد فقط على وحدات المعالجة المركزية (CPUs). مرة أخرى، تظهر أوقات التدريب ما بين الدقائق والساعات لعدة معايير. بالإضافة إلى معايير MLPerf، شاركت Intel أيضًا بعض البيانات التي توضح أن نظام Xeon رباعي العقد، والذي تشتمل شرائحه على محرك مصفوفة AMX، يمكنه ضبط النشر المستقر لمولد الصور في أقل من خمس دقائق. يتطلب الضبط الدقيق شبكة عصبية مدربة بالفعل وتخصصها في مهمة معينة. على سبيل المثال، تصميم شرائح NVIDIA بتقنية الذكاء الاصطناعي عبارة عن ضبط دقيق لنموذج لغة كبير موجود يسمى NeMo.
تستطيع أن ترى كل النتائج هنا.