التحديات التقنية لتوسيع نطاق GPT4 إلى 100 ألف H100s

“text”>

حتى أواخر عام 2024، لم يتمكن أحد من زيادة الكمية بشكل كبير حساب مخصص لنموذج واحد يتجاوز مستوى نموذج OpenAI GPT 4. هذه المعلومات مأخوذة من التحليل شبه وتقييم الأثر البيئي.

تمتلك Google Gemini Ultra وNvidia Nemotron 340B وMeta LLAMA 3 405B حوسبة مشابهة أو أكثر قليلاً من GPT-4، ولكن تم استخدام بنية أقل جودة. ولم تفتح هذه النماذج قدرات جديدة.

تحتاج مجموعة GPU إلى 100000
150 ميغاواط في قدرة مركز البيانات
يستخدم 1.59 تيراواط ساعة في سنة واحدة
تبلغ تكلفة الطاقة 123.9 مليون دولار بمعدل قياسي قدره 0.078 دولار/كيلوواط ساعة
100.000 خادم GPU H100 تكلف 4 مليارات دولار

بدأت OpenAI تدريب GPT5 في مايو 2024 تقريبًا.

“async” العرض البديل=”1024″ الارتفاع=”436″ بيانات-eio=”l” البيانات-القديم-src=”data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAABAAAAAG0AQAAAACEBWjqAAAAAnRSTlMAAHaTzTgAAABMSURBVHja7cEBAQAAAIIg/69uSEABAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAADwbtu0AAFvgaG4AAAAAElFTkSuQmCC” سرك=”https://nextbigfuture.s3.amazonaws.com/uploads/2024/12/Screenshot-2024-12-09-at-11.18.39-AM-1024×436.jpg” srcset=”https://nextbigfuture.s3.amazonaws.com/uploads/2024/12/Screenshot-2024-12-09-at-11.18.39-AM-1024×436.jpg 1024w, https://nextbigfuture.s3.amazonaws.com/uploads/2024/12/Screenshot-2024-12-09-at-11.18.39-AM-300×128.jpg 300w, https://nextbigfuture.s3.amazonaws.com/uploads/2024/12/Screenshot-2024-12-09-at-11.18.39-AM-768×327.jpg 768w, https://nextbigfuture.s3.amazonaws.com/uploads/2024/12/Screenshot-2024-12-09-at-11.18.39-AM.jpg 1394w”>

تدريب OpenAI لـ BF16 FLOPS لـ GPT-4 21.5 مليون ExaFLOPs على حوالي 20,000 A100s لمدة 90 إلى 100 يوم. ستحتوي مجموعة 100 كيلو H100 على 15-31 ضعف الحوسبة.

يمكن أن يصل التدريب العنقودي 100 كيلو H100 لمدة 100 يوم إلى 600 مليون ExaFLOPs. تؤدي مشكلات موثوقية الأجهزة إلى تقليل الحوسبة الفعالة إلى 35% من المستوى النظري.

لفهم تصميم الشبكة، والطوبولوجيا، ومخاوف الموثوقية، واستراتيجيات التفتيش، نحتاج إلى فهم كيفية تعامل LLM مع البيانات وتقليل حركة البيانات.

هناك ثلاثة أنواع مختلفة من التوازي المستخدمة في تدريب تريليون معلمة – توازي البيانات، وتوازي الموتر، وتوازي خطوط الأنابيب.

توازي البيانات هو أبسط أشكال التوازي حيث تحتفظ كل وحدة معالجة رسومات بالنسخة الكاملة من أوزان النموذج وتتلقى كل وحدة معالجة رسومات (رتبة) مجموعة فرعية مختلفة من البيانات. هذا النوع من التوازي لديه أدنى مستوى من الاتصال حيث أن التدرجات فقط تحتاج إلى تلخيص (كلها تقليل) بين كل وحدة معالجة رسومات. يعمل هذا فقط إذا كانت كل وحدة معالجة رسومات تحتوي على ذاكرة كافية لتخزين أوزان النموذج وعمليات التنشيط وحالة المُحسِّن بالكامل. يمكن أن تستغرق أوزان النموذج وحالة المُحسِّن ما يصل إلى 10.8 تيرابايت من الذاكرة للتدريب على GPT4.

يعمل توازي الموتر على تقليل إجمالي الذاكرة المستخدمة لكل وحدة معالجة رسومات من خلال عدد صفوف توازي الموتر. على سبيل المثال، من الشائع استخدام 8 مراتب متوازية موتر اليوم عبر NVLink، لذلك سيؤدي هذا إلى تقليل الذاكرة المستخدمة لكل وحدة معالجة رسومات بمقدار 8.

مع توازي خطوط الأنابيب، تحتوي كل وحدة معالجة رسومات (GPU) فقط على مجموعة فرعية من الطبقات وتقوم فقط بحساب تلك الطبقة وتمرير الإخراج إلى وحدة معالجة الرسومات التالية.

بريان وانغ هو أحد قادة الفكر المستقبلي ومدون مشهور في مجال العلوم ويتابعه مليون قارئ شهريًا. تم تصنيف مدونته Nextbigfuture.com في المرتبة الأولى في مدونة أخبار العلوم. وهو يغطي العديد من التكنولوجيا والاتجاهات الثورية بما في ذلك الفضاء، والروبوتات، والذكاء الاصطناعي، والطب، والتكنولوجيا الحيوية لمكافحة الشيخوخة، وتكنولوجيا النانو.

وهو معروف بتحديد التقنيات المتطورة، وهو حاليًا مؤسس مشارك لشركة ناشئة وجمع التبرعات للشركات ذات الإمكانات العالية في المرحلة المبكرة. وهو رئيس قسم الأبحاث المخصصة لاستثمارات التكنولوجيا العميقة والمستثمر الملائكي في Space Angels.

وهو متحدث متكرر في الشركات، وكان متحدثًا في TEDx، ومتحدثًا في جامعة Singularity وضيفًا في العديد من المقابلات الإذاعية والبودكاست. إنه منفتح على التحدث أمام الجمهور وتقديم المشورة للتعاقدات.

اقرأ المزيد

التحديات التقنية لتوسيع نطاق GPT4 إلى 100 ألف H100s

Reactions

ردود الفعل