من فضلك تسجيل الدخول أو تسجيل لتفعل ذلك.

كشفت أمازون الأسبوع الماضي عن أنظمة الرفوف Trainium3 UltraServer، وإذا كانت فكرتك الأولى هي ذلك “boy that looks a lot like Nvidia’s GB200 NVL72,” عيناك لا تخدعك

مع دخول طفرة الذكاء الاصطناعي عامها الرابع، بدأت البنية التحتية التي تحرك معظم الفقاعة تبدو كما هي بالفعل.

قامت أمازون بنشر عدد كبير من رفوف Nvidia GB200 وGB300 NVL72، ونظرًا لأوجه التشابه المرئية مع أرففها.”_blank” href=”https://www.theregister.com/2025/12/02/amazon_nvidia_trainium/”> خوادم Trainium3 Ultra، لن نتفاجأ على الأقل بمعرفة أن أجزاء كبيرة من الرفوف مشتركة بين الاثنين.

في الواقع، مع إطلاق Trainium4، أعلنت أمازون بالفعل أنها ستكون قادرة على إدخال شفرات الحوسبة المخصصة الخاصة بها مباشرة في نفس هيكل MGX الذي تستخدمه وحدات معالجة الرسوميات من Nvidia، لذلك من الواضح أننا نسير في هذا الاتجاه.

وهذا أمر منطقي من الناحية التجارية: على النطاق الذي تعمل به AWS، كلما قل عدد الأجزاء المنفصلة التي يجب على عملاق السحابة أن يناقشها، كلما كان ذلك أفضل. بالنسبة إلى Amazon، من الأفضل أن يكون لديك بنية حامل معيارية واحدة بدلاً من واحدة لكل شريحة في مركز البيانات.

وهذا هو أحد الأسباب التي دفعت المتوسعين الفائقين مثل Amazon وMeta إلى تأسيس هيئات معايير مثل Open Compute Platform (OCP) في المقام الأول. كما حدث، مرة أخرى في أكتوبر، نفيديا”_blank” rel=”nofollow” href=”https://blogs.nvidia.com/blog/gigawatt-ai-factories-ocp-vera-rubin/”> ساهم تصاميمها المرجعية MGX إلى OCP، في حين أن AMD وMeta”_blank” rel=”nofollow” href=”https://www.amd.com/en/blogs/2025/amd-helios-ai-rack-built-on-metas-2025-ocp-design.html”> أعلن رف جديد مزدوج العرض يعتمد على نظام House of Zen’s Helios.

لكن الأمر لا يقتصر على الرفوف التي تبدو بنفس الشكل الآن، بل إن أنسجة الحوسبة والشبكات تبدو كذلك أيضًا. وفي معرض حديثه في Re:Invent يوم الخميس، عرض بيتر ديسانتيس شفرة الحوسبة Trainium3، التي تجمع بين وحدة المعالجة المركزية Graviton وأربعة مسرعات Trainium3 وزوج من وحدات معالجة البيانات Nitro. حتى الآن، كانت أنظمة Trainium الخاصة بـ AWS تستخدم وحدات المعالجة المركزية x86 من Intel.

يحمل هذا التكوين أكثر من مجرد تشابه عابر مع الشفرات الحسابية الموجودة في أنظمة الرفوف الخاصة بـ AMD وNvidia. تجمع الأولى بين أربع وحدات معالجة رسوميات من سلسلة MI400 مع وحدة معالجة مركزية واحدة في فينيسيا وزوج من بطاقات NIC الذكية إما من قسم شبكات Pensando أو أحد شركائها. الاختلاف الوحيد الذي سنلاحظه هو أن AMD اختارت تصميم OpenRack مزدوج النطاق. يتبع Nvidia’s GB300 صيغة مماثلة ولكنه يستخدم وحدتي Grace CPU بدلاً من وحدة واحدة.

تتولى الأقمشة ذات الحجم الكبير التبديل

تستخدم Trn3 UltraServers من Amazon 36 من هذه الشفرات الحاسوبية المنتشرة عبر ما يبدو وكأنه رفوف من طراز MGX. تم تجميع المسرعات الـ 144 الموجودة على متن الطائرة معًا باستخدام تقنية التوصيل البيني NeuronSwitch الجديدة كليًا من Amazon. من العروض التي رأيناها، كل UltraServer يوظف حوالي 20 منهم. لسوء الحظ، AWS ليست مستعدة تمامًا لمناقشة الهيكل المحدد الذي يستخدمه النسيج.

مرة أخرى نرى تكوينًا مشابهًا مستخدمًا في أنظمة الرفوف الخاصة بـ Nvidia وAMD. تستخدم رفوف Nvidia GB200 وGB300 NVL72 18 مفتاحًا موزعة على تسع شرائح تبديل. مما جمعناه، تستخدم AMD 12 محول إيثرنت بسرعة 102.4 تيرابت في الثانية منتشرة عبر ستة شفرات مزدوجة العرض.

هذه الأقمشة عالية السرعة هي ما يسمح لهم بتجميع موارد الحوسبة والذاكرة التي تبلغ 72 أو 144 شريحة في ما يعتبر عمليًا مسرعًا عملاقًا بحجم الحامل.

“https://regmedia.co.uk/2025/06/25/nvl72_topology.jpg?x=648&y=434&infer_y=1″ البديل=”This diagram shows the switched NVLink interconnect topology used by Nvidia’s GB200 NVL72, but the same basic architecture is being used by AMD and AWS with their Helios and Trainium3 UltraServer rack systems.” العنوان=”This diagram shows the switched NVLink interconnect topology used by Nvidia’s GB200 NVL72, but the same basic architecture is being used by AMD and AWS with their Helios and Trainium3 UltraServer rack systems.” الارتفاع=”434″ العرض=”648″>

يُظهر هذا الرسم البياني طوبولوجيا التوصيل البيني NVLink المُبدلة المستخدمة بواسطة Nvidia’s GB200 NVL72، ولكن يتم استخدام نفس البنية الأساسية بواسطة AMD وAWS مع أنظمة الرفوف Helios وTrainium3 UltraServer. – انقر للتكبير

على الرغم من أن بنية الأنظمة هي نفسها على نطاق واسع، إلا أن البروتوكولات المستخدمة من قبل كل منها ليست كذلك. تستخدم AWS NeuronSwitch، بينما تقوم AMD بتوصيل بروتوكول UALink عبر Ethernet. وفي الوقت نفسه، تستخدم Nvidia تقنية NVLink وNVSwitch.

ومع ذلك، يبدو أن NeuronSwitch، على الأقل في شكله الحالي، قد يكون قصير الأجل، حيث أعلنت أمازون هذا الأسبوع عن خطط لاستخدام كل من UALink وNVLink Fusion في مسرعات Trainium4 من الجيل التالي.

على الرغم من أن الأقمشة المبدلة أصبحت شائعة إلى حد ما في السنوات الأخيرة، إلا أنها ليست الخيار الوحيد. في الواقع، على طول الطريق من خلال مسرعات Trainium2 من أمازون، كانت الشركة قد فعلت ذلك”_blank” href=”https://www.theregister.com/2025/07/04/project_rainier_deep_dive/”>موظف شبكة حسابية باستخدام طبولوجيا Torus ثنائية وثلاثية الأبعاد.

وفقًا لنافع بشارة، المؤسس المشارك لقسم Annapurna Labs في AWS، فإن كلا الهيكلين لهما فوائدهما، ولكن بالنسبة لأعباء العمل الثقيلة التي نشهدها الآن، يرى أن الأقمشة القابلة للتوسيع هي الحل الأمثل.

“We moved from a 3D Torus, which is very good, by the way, for large models, and very good for training, to a switch topology,” قال الريج.

“Inference has two parts, prefill and decode. For prefill, the switch doesn’t make as much of a difference,” قال. “In the decode, because you’re doing token by token generation, we want to go as wide as we can so we can leverage all the aggregate memory with very low latency.”

وباستخدام NeuronSwitch، تستطيع AWS القيام بذلك. ويشير بشارة إلى أن الفائدة تكون أكثر وضوحًا عند تشغيلها بكميات أكبر. “If you’re running low batch this, you may not need a switch. What the switch allows us is to keep the low-latency while maximizing the concurrency,” قال.

الجانب السلبي بالطبع هو التعقيد. تحتاج الأقمشة إلى مفاتيح، بينما لا تحتاج الشبكات إلى ذلك. تتمتع المحولات بإمكانية تقليل عدد القفزات الإجمالية، وبالتالي زمن وصول أقل، لكننا لم نقم بعد بتوسيع نطاقها إلى ما هو أبعد من 144 مسرعًا.

الرجل الغريب خارج

جوجل آيرونوود من الجيل السابع”_blank” href=”https://www.theregister.com/2025/11/06/googles_ironwood_tpus_ai/”> مجموعات تي بي يو استخدم حلقات ثنائية وثلاثية الأبعاد يمكنها التوسع إلى 9,216 وحدة TPU في مجال حسابي واحد.

أحد أسباب قدرة Google على القيام بذلك هو أنها تستخدم البصريات، في حين تجنبتها Nvidia وAMD وAWS بسبب استهلاكها العالي للطاقة. من خلال ما جمعناه، يتم تخفيف بعض هذا الاستهلاك العالي للطاقة بسبب عدم وجود محولات الحزمة.

يستخدم مصنع الشوكولاتة بشكل مشهور مفاتيح الدوائر الضوئية، ولكن لديهم الكثير من القواسم المشتركة مع حجرة تبديل الهاتف أكثر من مفتاح الحزمة. تعد هذه الأجهزة في الأساس عبارة عن لوحة تصحيح آلية للبصريات، وتسمح لـ Google بتقسيم كبسولات TPU الخاصة بها إلى مجموعات أصغر بناءً على عبء العمل.

يعالج تبديل الدوائر الضوئية (OCS) أيضًا أحد أكبر المشكلات في طبولوجيا الشبكات: الفشل. إذا فشل TPU، فإن OCS يسمح لـ Google بإسقاطه من الكبسولة وفتح واحدة جديدة، كل ذلك بضغطة زر واحدة.

ومع ذلك، مع تحرك أمازون لتبديل البنى الحاسوبية، أصبحت Google الآن واحدة من موفري البنية التحتية الرئيسيين الوحيدين الذين يستخدمون طبولوجيا torus في استنتاجات الذكاء الاصطناعي ومجموعات التدريب الخاصة بهم. ®

اقرأ المزيد

هل يتجمد WD-40 في الشتاء؟ ما يجب معرفته قبل تركه في المرآب الخاص بك
تحذر AWS من أن المتسللين المرتبطين ببكين يهاجمون خطأ React شديد الخطورة

Reactions

0
0
0
0
0
0
بالفعل كان رد فعل لهذا المنصب.

ردود الفعل