Google Versus xAI قياس الحوسبة

تم تدريب نموذج Google Gemini 2 AI (الذي تم إصداره للتو) باستخدام أكثر من 100000 شريحة Trillium تم نشرها في نسيج شبكة واحد، مما يتيح عمليات الذكاء الاصطناعي واسعة النطاق. قامت شركة xAI بالفعل بتدريب Grok 3 باستخدام 100000 وحدة Nvidia H100 ولكنها لم تصدرها بعد. أضافت شركة xAI 100000 شريحة وستقوم بتدريب Grok 4 باستخدام 200000 Nvidia H100s وH200s. سيتم إصدار Grok 4 في أبريل 2025. Google وxAI هما الرائدان في مجال حوسبة الذكاء الاصطناعي مع أكثر من 100000 وحدة معالجة رسوميات أو وحدات معالجة رسومات (TPU) تستخدم للتدريب النموذجي. يتوسع xAI إلى مليون وحدة معالجة رسوميات بحلول نهاية عام 2025. تمتلك Google هذا العدد من وحدات معالجة الرسومات (TPU) لكنها قد لا تدمجها في مبنى واحد أو ذاكرة واحدة متماسكة.

تم تدريب نماذج Google Gemini 2 باستخدام الإصدار 6 من وحدة معالجة Tensor من Google، بينما تم تدريب نماذج Gemini 1 و1.5 باستخدام الإصدار 4 من وحدة معالجة Tensor.

تم تدريب Google Gemini 2.0 باستخدام Trillium، وحدة معالجة Tensor (TPU) من الجيل السادس من Google. أصبح مسرع الذكاء الاصطناعي المخصص هذا متاحًا الآن بشكل عام لعملاء السحابة، مما يوضح التزام Google ببناء بنية تحتية حسابية واسعة النطاق. زيادة”https://martech360.com/marketing-automation/gemini-2-0-googles-bold-leap-into-the-future-of-autonomous-ai/”> 100.000 شريحة تريليوم تم نشرها في نسيج شبكي واحد، مما يتيح عمليات الذكاء الاصطناعي واسعة النطاق.

تمتلك Google الملايين من شرائح TPU في العديد من المباني والمرافق. يتطلب تدريب الذكاء الاصطناعي وجود جميع الشرائح في شبكة واحدة ومشاركة ذاكرة واحدة. سنحتاج إلى رؤية كيف تقوم Google بدمج العديد من شرائح TPU في نظام واحد للتدريب على نماذج الذكاء الاصطناعي الكبيرة.

واجهت Nvidia H100s تحديات في توسيع نطاق ما يتجاوز 30000 شريحة متماسكة لمجموعات تدريب الذكاء الاصطناعي. لدى Google شرائح مختلفة بقدرات شبكات مختلفة.

تواكب Google تقنية xAI في التوسع إلى 100000 شريحة GPU من فئة Nvidia H100 تقريبًا لمجموعة تدريب الذكاء الاصطناعي الخاصة بها.

تقوم شركة xAI بتدريب Grok 3 بـ 100000 Nvidia H100s (الإصدار في يناير أو فبراير) وستقوم بتدريب Grok 4 بـ 200000 Nvidia H100s (الإصدار في أبريل/مايو).

يتم تدريب xAI Grok 5 باستخدام ما بين 100.000 إلى 200.000 وحدة Nvidia B200 (سيتم إصدارها في أغسطس تقريبًا).

يمتلك حرم تدريب Google AI الموضح أعلاه بالفعل قدرة طاقة تقترب من 300 ميجاوات (2024) وسيصل إلى 500 ميجاوات في عام 2025. ومن ناحية أخرى، قامت Google بالفعل بنشر ملايين من وحدات TPU المبردة بالسوائل والتي تمثل أكثر من جيجاوات (GW) من الطاقة سعة شريحة AI المبردة بالسائل.

وفي عام 2025، سيكون لدى جوجل القدرة على التصرف”https://semianalysis.com/2024/09/04/multi-datacenter-training-openais/” الهدف=”_blank” rel=”noopener”>يجري التدريب على نطاق جيجاوات عبر جامعات متعددة، لكن خطط Google طويلة المدى ليست بنفس قوة خطط xAI وOpenAI وMicrosoft.

يقدم التحليل شبه معلومات عن مراكز تدريب Google AI.

كان OpenaI وMicrosoft يتوسعان في العديد من المباني والمرافق.

حققت تقنية xAI طفرة في التوسع والتي يبدو أنها تسمح لها بالتوسع إلى ملايين وحدات معالجة الرسومات وما بعدها في منشأة واحدة.

Nvidia H100 أفضل قليلاً من TPU V6 وB200 أفضل 4X

TPU v6: يوفر 918 TFLOPs لـ BF16 و1836 TOPs لـ INT8 لكل شريحة
.
H100: يوفر ما يقرب من 1000 TFLOPs لـ FP16/BF16 و2000 TOPs لـ INT8

ب200

يوفر أداءً استدلاليًا أعلى بما يصل إلى 4x من H100 في مهام الذكاء الاصطناعي التوليدية، مثل استدلال Llama 2 70B، باستخدام دقة FP4، التي تضاعف الإنتاجية مقارنة بـ FP8 على H100

يحقق أداءً تدريبيًا أعلى بمقدار 2.2 مرة من H100 في مهام مثل الضبط الدقيق لـ Llama 2 والتدريب المسبق لـ GPT-37
.
يصل أداء Tensor Core FP8 إلى 9 PFLOPS لكل وحدة معالجة رسومات، مع إجمالي 72 PFLOPS لنظام 8-GPU

“async” العرض البديل=”1024″ الارتفاع=”431″ بيانات-eio=”l” البيانات-القديم-src=”data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAABAAAAAGvAQAAAADtFJqyAAAAAnRSTlMAAHaTzTgAAABNSURBVHja7cExAQAAAMKg9U9tDB+gAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAACAswHZLwABbUtn4QAAAABJRU5ErkJggg==” سرك=”https://nextbigfuture.s3.amazonaws.com/uploads/2024/12/xaiopenaimetatimeline-1024×431.jpg” srcset=”https://nextbigfuture.s3.amazonaws.com/uploads/2024/12/xaiopenaimetatimeline-1024×431.jpg 1024w, https://nextbigfuture.s3.amazonaws.com/uploads/2024/12/xaiopenaimetatimeline-300×126.jpg 300w, https://nextbigfuture.s3.amazonaws.com/uploads/2024/12/xaiopenaimetatimeline-768×323.jpg 768w, https://nextbigfuture.s3.amazonaws.com/uploads/2024/12/xaiopenaimetatimeline-1536×646.jpg 1536w, https://nextbigfuture.s3.amazonaws.com/uploads/2024/12/xaiopenaimetatimeline.jpg 1992w”>

لقد تطورت وحدة معالجة Tensor من Google بشكل ملحوظ من الإصدار 4 إلى الإصدار 6، مع تحسينات كبيرة في الأداء والذاكرة والكفاءة. دعونا نقارن بين هذين الجيلين:

أداء
يوفر TPU v6 (الذي يحمل الاسم الرمزي Trillium) زيادة كبيرة في القوة الحسابية مقارنةً بـ TPU v4:

ذروة أداء الحوسبة: يوفر الإصدار السادس من TPU 918 TFLOPs لـ BF16 و1836 TOPs لـ INT8 لكل شريحة
في المقابل، قدم TPU v4 275 TFLOPs لكل من BF16 وINT8

التحسين العام: يحقق TPU v6 زيادة بمقدار 4.7x في ذروة أداء الحوسبة لكل شريحة مقارنةً بـ TPU v5e
على الرغم من أنه لا يمكن مقارنتها مباشرة بالإصدار v4، إلا أن هذا يشير إلى قفزة كبيرة من الجيل v4.

ذاكرة
تمت ترقية سعة الذاكرة وعرض النطاق الترددي بشكل كبير في الإصدار السادس من مادة TPU:

سعة HBM: يتميز إصدار TPU v6 بسعة 32 جيجابايت من ذاكرة النطاق الترددي العالي (HBM) لكل شريحة
، مضاعفة الـ 16 جيجابايت المتوفرة في إصدار TPU v4

عرض النطاق الترددي للذاكرة: يتميز TPU v6 بعرض نطاق ترددي يبلغ 1640 جيجا بايت في الثانية من عرض النطاق الترددي HBM من 1200 جيجا بايت في الثانية في TPU v4

ربط
تم تحسين الاتصال بين الرقائق:

عرض النطاق الترددي للتوصيل البيني: يوفر الإصدار السادس من مادة TPU 3584 جيجابت في الثانية من عرض النطاق الترددي للربط البيني بين الشرائح (ICI)، وهو ما يزيد عن ضعف قدرات الأجيال السابقة.

كفاءة الطاقة
يُظهر TPU v6 تحسينات كبيرة في كفاءة استخدام الطاقة:

يعتبر TPU v6 أكثر كفاءة في استخدام الطاقة بنسبة تزيد عن 67% من TPU v5
على الرغم من عدم مقارنته مباشرة بالإصدار 4، إلا أن هذا يشير إلى تحسن كبير في كفاءة الطاقة مقارنة بالأجيال السابقة.

هندسة النظام
يدعم كلا الجيلين عمليات نشر واسعة النطاق، ولكن بتكوينات مختلفة:

TPU v6: يدعم ما يصل إلى 256 شريحة

TPU v4: يدعم وحدات أكبر تصل إلى 4096 شريحة

التركيز على التطبيق
يبدو أن TPU v6 لديه تركيز أوسع على أعباء عمل الذكاء الاصطناعي المختلفة:

تم تحسينه لنماذج المحولات وتطبيقات تحويل النص إلى صورة والشبكات العصبية التلافيفية (CNNs)

وهو يشتمل على الجيل الثالث من SparseCore، المتخصص في معالجة التضمينات الكبيرة في أنظمة التصنيف والتوصية

يمثل TPU v6 قفزة كبيرة للأمام من TPU v4، حيث يقدم أداءً أعلى بكثير، وزيادة سعة الذاكرة وعرض النطاق الترددي، وتحسين كفاءة الطاقة، وإمكانات متخصصة لمجموعة واسعة من أعباء عمل الذكاء الاصطناعي. في حين أن TPU v4 يدعم أحجام البودات الأكبر، فإن TPU v6 يعوض ذلك من خلال زيادة الأداء والكفاءة لكل شريحة بشكل كبير.

بريان وانغ هو أحد قادة الفكر المستقبلي ومدون مشهور في مجال العلوم ويتابعه مليون قارئ شهريًا. تم تصنيف مدونته Nextbigfuture.com في المرتبة الأولى في مدونة أخبار العلوم. وهو يغطي العديد من التكنولوجيا والاتجاهات الثورية بما في ذلك الفضاء، والروبوتات، والذكاء الاصطناعي، والطب، والتكنولوجيا الحيوية لمكافحة الشيخوخة، وتكنولوجيا النانو.

وهو معروف بتحديد التقنيات المتطورة، وهو حاليًا مؤسس مشارك لشركة ناشئة وجمع التبرعات للشركات ذات الإمكانات العالية في المرحلة المبكرة. وهو رئيس قسم الأبحاث المخصصة لاستثمارات التكنولوجيا العميقة والمستثمر الملائكي في Space Angels.

وهو متحدث متكرر في الشركات، وكان متحدثًا في TEDx، ومتحدثًا في جامعة Singularity وضيفًا في العديد من المقابلات الإذاعية والبودكاست. إنه منفتح على التحدث أمام الجمهور وتقديم المشورة للتعاقدات.

اقرأ المزيد

Google Versus xAI قياس الحوسبة

Reactions

ردود الفعل