نفيدياأوراكل,”https://spectrum.ieee.org/tag/google”>جوجل، أبلغت شركة Dell و13 شركة أخرى عن المدة التي تستغرقها أجهزة الكمبيوتر الخاصة بها لتدريب المفتاح”https://spectrum.ieee.org/tag/neural-networks”> الشبكات العصبية قيد الاستخدام اليوم. ومن بين تلك النتائج كانت اللمحة الأولى ل”https://spectrum.ieee.org/nvidia-blackwell” الهدف=”_self”> الجيل القادم من GPU من Nvidia، ال”https://www.nvidia.com/en-us/data-center/dgx-b200/” الهدف=”_blank”> ب200، ومسرع Google القادم يسمى”https://cloud.google.com/blog/products/compute/introducing-trillium-6th-gen-tpus” الهدف=”_blank”>تريليوم. سجل B200 مضاعفة الأداء في بعض الاختبارات مقابل العمود الفقري اليوم”https://spectrum.ieee.org/tag/nvidia”> نفيديا رقاقة،”2664665302″ href=”https://spectrum.ieee.org/nvidia-gpu” الهدف=”_blank”> ح100. و قدمت Trillium دفعة تقارب أربعة أضعاف مقارنة بالشريحة التي اختبرتها Google في عام 2023.
تتكون الاختبارات المعيارية، والتي تسمى MLPerf v4.1، من ست مهام: التوصية، والتدريب المسبق للموظفين.”https://spectrum.ieee.org/tag/large-language-models” الهدف=”_self”> نماذج لغة كبيرة (ماجستير)”https://spectrum.ieee.org/tag/gpt-3″> جي بي تي-3 وBERT-كبير، الضبط الدقيق لل”https://spectrum.ieee.org/llama-2-llm” الهدف=”_self”> اللاما 2 70B نموذج لغة كبير، اكتشاف الكائنات، تصنيف عقدة الرسم البياني، وتوليد الصور.
تمرين”https://spectrum.ieee.org/tag/gpt-3″ الهدف=”_self”> جي بي تي-3 هي مهمة ضخمة لدرجة أنه سيكون من غير العملي القيام بكل شيء لمجرد تقديم معيار. وبدلا من ذلك، فإن الاختبار هو تدريبه إلى نقطة حددها الخبراء تعني أنه من المرجح أن يصل إلى الهدف إذا واصلت المضي قدما. بالنسبة إلى Llama 2 70B، فإن الهدف ليس تدريب LLM من الصفر، ولكن أخذ نموذج تم تدريبه بالفعل وضبطه بحيث يتخصص في خبرة معينة – في هذه الحالة،الوثائق الحكومية. تصنيف عقدة الرسم البياني هو نوع من”https://spectrum.ieee.org/tag/machine-learning”> التعلم الآلي المستخدمة في كشف الاحتيال واكتشاف المخدرات.
حيث أن ما هو مهم في الذكاء الاصطناعي تطور، في الغالب نحو الاستخدام”https://spectrum.ieee.org/what-is-generative-ai” الهدف=”_self”> الذكاء الاصطناعي التوليديلقد تغيرت مجموعة الاختبارات. يمثل هذا الإصدار الأخير من MLPerf تحولًا كاملاً في ما يتم اختباره منذ بدء الجهد المعياري. يقول: “في هذه المرحلة، تم التخلص التدريجي من جميع المعايير الأصلية”.”https://www.linkedin.com/in/kanterd/” الهدف=”_blank”> ديفيد كانتر، الذي يقود”https://mlcommons.org/benchmarks/” rel=”noopener noreferrer” الهدف=”_blank”>الجهد المعياري في MLCommons. في الجولة السابقة، كان الأمر يستغرق ثوانٍ فقط لأداء بعض المعايير.
“Add Photo Caption…”> لقد تجاوز أداء أفضل أنظمة التعلم الآلي وفقًا للمعايير المختلفة ما كان متوقعًا إذا كانت المكاسب من قانون مور فقط [blue line]. يمثل الخط الصلب المعايير الحالية. تمثل الخطوط المتقطعة المعايير التي تم إيقافها الآن، لأنها لم تعد ذات صلة بالصناعة.MLCommons
وفقًا لحسابات MLPerf، فإن تدريب الذكاء الاصطناعي على مجموعة المعايير الجديدة يتحسن بحوالي ضعف المعدل الذي يتوقعه المرء من”https://spectrum.ieee.org/stco-system-technology-cooptimization” الهدف=”_self”> قانون مور. مع مرور السنين، استقرت النتائج بسرعة أكبر مما كانت عليه في بداية عهد MLPerf. يعزو كانتر هذا في الغالب إلى حقيقة أن الشركات قد توصلت إلى كيفية إجراء الاختبارات المعيارية على أنظمة كبيرة جدًا. متأخر , بعد فوات الوقت،”https://www.nvidia.com/en-us/data-center/nvlink/” rel=”noopener noreferrer” الهدف=”_blank”> نفيديا,”https://cloud.google.com/blog/products/ai-machine-learning/introducing-cloud-tpu-v5p-and-ai-hypercomputer” rel=”noopener noreferrer” الهدف=”_blank”>جوجل، وآخرون طوروا برمجيات وتكنولوجيا شبكية تسمح بالقياس الخطي تقريبًا – حيث تؤدي مضاعفة المعالجات إلى تقليل وقت التدريب إلى النصف تقريبًا.
نتائج التدريب الأولى لـ Nvidia Blackwell
كانت هذه الجولة بمثابة الاختبارات التدريبية الأولى لبنية وحدة معالجة الرسومات التالية من Nvidia، والتي تسمى Blackwell. بالنسبة للتدريب على GPT-3 والضبط الدقيق لـ LLM، ضاعف Blackwell (B200) أداء H100 تقريبًا على أساس كل وحدة معالجة رسومات. وكانت المكاسب أقل قوة بعض الشيء ولكنها لا تزال كبيرة بالنسبة لأنظمة التوصية وتوليد الصور – 64 بالمائة و62 بالمائة على التوالي.
ال”https://spectrum.ieee.org/nvidia-blackwell” الهدف=”_self”> عمارة بلاكويل، المتجسدة في وحدة معالجة الرسوميات Nvidia B200، تواصل الاتجاه المستمر نحو استخدام أرقام أقل دقة لتسريع الذكاء الاصطناعي. بالنسبة لأجزاء معينة من الشبكات العصبية المحولة مثل”https://spectrum.ieee.org/tag/chatgpt”>الدردشةGPT، اللاما2، و”2666290744″ href=”https://spectrum.ieee.org/dall-e” الهدف=”_blank”> انتشار مستقر، نفيديا”https://spectrum.ieee.org/nvidias-next-gpu-shows-that-transformers-are-transforming-ai” الهدف=”_self”> يستخدم H100 وH200 أرقام الفاصلة العائمة ذات 8 بت. يعمل الطراز B200 على تقليل ذلك إلى 4 بتات فقط.
جوجل تطلق أجهزة الجيل السادس لأول مرة
أظهرت جوجل النتائج الأولى ل6ذ جيل من مادة TPU، يسمى Trillium – والذي كشفت عنه الشهر الماضي فقط – وجولة ثانية من النتائج لـ 5ذ متغير الجيل، Cloud TPU v5p. وفي إصدار 2023، أدخل عملاق البحث نسخة مختلفة من الإصدار 5ذ جيل TPU، v5e، مصمم لتحقيق الكفاءة أكثر من الأداء. وعلى عكس الأخير، يقدم Trillium تعزيزًا يصل إلى 3.8 أضعاف في الأداء في مهمة التدريب GPT-3.
ولكن مقابل منافس الجميع اللدود Nvidia، لم تكن الأمور وردية. وصل نظام مكون من 6,144 TPU v5ps إلى نقطة تفتيش تدريب GPT-3 في 11.77 دقيقة، ليحتل المركز الثاني بفارق كبير عن نظام 11,616-Nvidia H100، الذي أنجز المهمة في حوالي 3.44 دقيقة. كان نظام TPU العلوي هذا أسرع بحوالي 25 ثانية فقط من كمبيوتر H100 بنصف حجمه.
قام كمبيوتر من شركة Dell Technologies بضبط نموذج اللغة الكبير Llama 2 70B باستخدام كهرباء تبلغ قيمتها حوالي 75 سنتًا.
في أقرب مقارنة وجهاً لوجه بين v5p وTrillium، حيث يتكون كل نظام من 2048 وحدة TPU، خفض Trillium القادم دقيقتين قويتين من وقت تدريب GPT-3، وهو ما يقرب من تحسن بنسبة 8 بالمائة مقارنة بـ v5p البالغ 29.6 دقيقة. هناك اختلاف آخر بين إدخالات Trillium وv5p وهو أن Trillium مقترن بـ”https://spectrum.ieee.org/tag/amd”> أيه إم دي وحدات المعالجة المركزية Epyc بدلاً من وحدات المعالجة المركزية v5p”https://spectrum.ieee.org/tag/intel”> إنتل زيون.
قامت Google أيضًا بتدريب منشئ الصور، Stable Diffusion، باستخدام Cloud TPU v5p. عند 2.6 مليار معلمة، يعد Stable Diffusion بمثابة رفع خفيف بدرجة كافية بحيث يُطلب من المتسابقين في MLPerf تدريبه على التقارب بدلاً من مجرد الوصول إلى نقطة تفتيش، كما هو الحال مع GPT-3. احتل نظام 1024 TPU المرتبة الثانية، حيث أنهى المهمة في دقيقتين و26 ثانية، أي حوالي دقيقة واحدة خلف نظام الحجم نفسه المكون من Nvidia H100s.
قوة التدريب لا تزال غامضة
لطالما كانت تكلفة الطاقة الباهظة لتدريب الشبكات العصبية مصدرًا للقلق. لقد بدأ MLPerf للتو في قياس هذا. كانت شركة Dell Technologies هي المشارك الوحيد في فئة الطاقة، مع نظام مكون من ثمانية خوادم يحتوي على 64 Nvidia H100″https://spectrum.ieee.org/tag/gpus”> وحدات معالجة الرسومات و 16″https://spectrum.ieee.org/tag/intel”> إنتل وحدات المعالجة المركزية Xeon Platinum. كان القياس الوحيد الذي تم إجراؤه في مهمة الضبط الدقيق LLM (Llama2 70B). استهلك النظام 16.4 ميجاجول خلال تشغيله لمدة 5 دقائق، بمتوسط طاقة 5.4 كيلووات. وهذا يعني حوالي 75 سنتا من الكهرباء بمتوسط التكلفة في الولايات المتحدة.
على الرغم من أنها لا تقول الكثير في حد ذاتها، إلا أن النتيجة من المحتمل أن توفر ملعبًا لاستهلاك الطاقة في أنظمة مماثلة. أوراكل، على سبيل المثال، أبلغت عن نتيجة أداء قريبة – 4 دقائق و 45 ثانية – باستخدام نفس عدد وأنواع وحدات المعالجة المركزية ووحدات معالجة الرسومات.