تطلق Google تخزين ملفات Parallelstore في تدريب الذكاء الاصطناعي السحابي

يوفر Parallelstore، الذي كان مدفوعًا في الأصل بواسطة ذاكرة فئة التخزين Optane التي لم تعد موجودة الآن من Intel، تخزينًا ضخمًا للملفات المتوازية يستهدف حالات استخدام التدريب على الذكاء الاصطناعي على Google Cloud

بواسطة

يان سيرا،LeMagIT
أنتوني أدشيد،محرر التخزين

تم النشر: 15 أكتوبر 2024 الساعة 9:03

تم إطلاق Google Cloud Platform (GCP) مع خدمة تخزين الملفات المتوازية المُدارة من Parallelstore، والتي تستهدف”https://www.computerweekly.com/resources/AI-and-storage”> الإدخال/الإخراج المكثف (I/O) لتطبيقات الذكاء الاصطناعي (AI). ويستند إلى المصدر المفتوح – ولكن تم تطويره بواسطة Intel – بنية تخزين الكائنات غير المتزامنة الموزعة (DAOS).”https://www.computerweekly.com/news/252488069/Intels-DAOS-tops-the-IO500-speed-challenge-for-HPC-storage”> قصدت Intel في الأصل DAOS ليتم دعمها بواسطة ذاكرتها المستمرة Optane، لكن هذه العلامة التجارية الفرعية أصبحت الآن غير موجودة.

يتكون DAOS، الذي كان قيد المعاينة الخاصة، من نظام ملفات متوازي منتشر عبر العديد من عقد التخزين المدعومة بمخزن بيانات التعريف في الذاكرة الدائمة. يقوم بنسخ الملفات بأكملها على أكبر عدد ممكن من العقد للسماح بالوصول المتوازي بأقل زمن وصول ممكن للعملاء الذين يقومون بتطوير تطبيقات الذكاء الاصطناعي.

بالرغم من”https://www.techtarget.com/searchstorage/opinion/Understand-the-Intel-Optane-shutdown”>زوال أوبتان الذاكرة الدائمة – التي شكلت جزءًا من مساحة تكنولوجيا ذاكرة فئة التخزين – لا يزال DAOS يعتمد على بعض حقوق الملكية الفكرية لشركة Intel.

يتضمن ذلك بروتوكول الاتصالات الخاص بها، Intel Omnipath، والذي يشبه Infiniband ويتم نشره عبر بطاقات Intel في العقد الحاسوبية. تستجوب خوادم البيانات الوصفية هذه للعثور على موقع الملف أثناء عمليات القراءة/الكتابة ثم التواصل مع العقدة في وضع الحظر عبر”https://www.techtarget.com/searchstorage/definition/Remote-Direct-Memory-Access”>RDMA عبر إيثرنت متقارب ( روسي ).

عرض النطاق الترددي المشبع للخادم

“يؤدي هذا التسليم الفعال للبيانات إلى الحد الأقصى”https://blogs.juniper.net/en-us/enterprise-cloud-and-transformation/what-is-goodput-and-why-it-matters”>goodput ل”https://www.computerweekly.com/news/366575373/GTC-2024-Storage-suppliers-queue-up-to-ride-the-Nvidia-AI-wave”> وحدات معالجة الرسومات [graphics processing units] و”https://www.techtarget.com/whatis/definition/tensor-processing-unit-TPU”> وحدات TPU [tensor processing units]قال باراك إبستين، مدير منتج Google Cloud Platform في منشور بالمدونة، “إنه عامل حاسم لتحسين تكاليف أعباء عمل الذكاء الاصطناعي”. “يمكن لـ Parallelstore أيضًا توفير وصول مستمر للقراءة/الكتابة إلى آلاف الأجهزة الافتراضية [virtual machines]ووحدات معالجة الرسومات ووحدات TPU، مما يلبي متطلبات الذكاء الاصطناعي المتواضعة إلى الضخمة ومتطلبات عبء عمل الحوسبة عالية الأداء.

وأضاف أنه بالنسبة إلى الحد الأقصى لنشر Parallelstore الذي يبلغ 100 تيرابايت (تيرابايت)، يمكن أن يصل معدل النقل إلى حوالي 115 جيجابايت في الثانية، وثلاثة ملايين قراءة في الثانية (IOPS)، ومليون كتابة في الثانية (IOPS)، وحد أدنى من زمن الوصول يقترب من 0.3 مللي ثانية.

قال إبستاين: “هذا يعني أن Parallelstore يعد أيضًا منصة جيدة للملفات الصغيرة والوصول العشوائي الموزع عبر عدد كبير من العملاء”.

وفقًا لإبستاين، يمكن تسريع أوقات تدريب نموذج الذكاء الاصطناعي بما يقرب من أربع مرات مقارنة ببرامج تحميل بيانات التعلم الآلي الأخرى.

تتمثل فكرة Google Cloud Platform في أن يقوم العملاء أولاً بوضع بياناتهم في Google Cloud Storage، والتي يمكن استخدامها لجميع حالات الاستخدام على Google Cloud Platform وفي تطبيقات البرامج كخدمة عبر الأجهزة الافتراضية. سيسمح هذا الجزء من العملية للعميل باختيار البيانات المناسبة لمعالجة الذكاء الاصطناعي عبر Parallelstore من بين جميع بياناته. للمساعدة هنا، يقدم Google Cloud Platform خدمة Storage Insights Dataset، وهي جزء من عرض Gemini AI، لمساعدة العملاء على تقييم بياناتهم.

بمجرد تحديد البيانات كبيانات تدريب، يمكن أن يتم نقلها إلى Parallelstore بسرعة 20 جيجابايت في الثانية. إذا كانت الملفات صغيرة – أقل من 32 ميجابايت، على سبيل المثال – فمن الممكن تحقيق معدل نقل يصل إلى 5000 ملف في الثانية.

بالإضافة إلى حالات استخدام التدريب على الذكاء الاصطناعي التي يستهدفها Google Cloud Platform، سيكون Parallelstore متاحًا أيضًا لمجموعات Kubernetes – مثل عبر”https://www.techtarget.com/searchitoperations/definition/Google-Container-Engine-GKE”>محرك حاوية Google (GKE) لـ Google Cloud Platform – من خلال برامج تشغيل CSI مخصصة. من الناحية العملية، سيتمكن المسؤولون من إدارة وحدة تخزين Parallelstore مثل أي وحدة تخزين أخرى متصلة بـ GKE.

DAOS هو”_blank” href=”https://www.snia.org/sites/default/files/SDC15_presentations/dist_sys/EricBarton_DAOS_Architecture_Extreme_Scale.pdf” rel=”noopener”> جهد مفتوح المصدر نظام تخزين الكائنات الذي يفصل البيانات ومستويات التحكم بينما يقوم أيضًا بفصل بيانات تعريف الإدخال / الإخراج وفهرسة أحمال العمل عن التخزين المجمع.

يقوم DAOS بتخزين البيانات التعريفية على ذاكرة سريعة ومستمرة وبيانات مجمعة على محركات الأقراص ذات الحالة الصلبة (SSD) ذات الذاكرة غير المتطايرة السريعة (NVMe). وفقًا لشركة Intel، يقيس أداء الإدخال/الإخراج للقراءة/الكتابة لـ DAOS بشكل خطي تقريبًا مع عدد متزايد من طلبات الإدخال/الإخراج للعميل – إلى ما يقرب من 32 إلى 64 عميلًا عن بعد – لجعله مناسبًا تمامًا للسحابة والبيئات المشتركة الأخرى.

اقرأ المزيد عن تخطيط سعة مراكز البيانات

اقرأ المزيد

تطلق Google تخزين ملفات Parallelstore في تدريب الذكاء الاصطناعي السحابي

عرض النطاق الترددي المشبع للخادم

اقرأ المزيد عن تخطيط سعة مراكز البيانات

وحدة معالجة الموتر (TPU)

تطلق DataStax GenAI داخل الشركة بتنسيق “متقارب للغاية”.

تضيف Oracle إمكانات البحث المتجه إلى النظام الأساسي لقاعدة البيانات

تصل مساحة اسم البيانات الضخمة الآن عبر Google Cloud Platform

Reactions

ردود الفعل