تريد أمازون من المستخدمين تقييم نماذج الذكاء الاصطناعي بشكل أفضل وتشجيع المزيد من البشر على المشاركة في هذه العملية.
خلال مؤتمر AWS re: Invent، أعلن نائب رئيس AWS لقاعدة البيانات والتحليلات والتعلم الآلي سوامي سيفاسوبرامانيان تقييم النموذج على حجر الأساس، متاح الآن للمعاينة للنماذج الموجودة في مستودع Amazon Bedrock الخاص به. بدون طريقة لاختبار النماذج بشفافية، قد ينتهي الأمر بالمطورين إلى استخدام نماذج غير دقيقة بما يكفي لمشروع سؤال وجواب أو نموذج كبير جدًا بالنسبة لحالة الاستخدام الخاصة بهم.
وقال سيفاسوبرامانيان: “لا يتم اختيار النموذج وتقييمه في البداية فحسب، بل هو أمر يتكرر بشكل دوري”. “نعتقد أن وجود إنسان في الحلقة أمر مهم، لذلك نقدم طريقة لإدارة سير عمل التقييم البشري ومقاييس أداء النموذج بسهولة.”
قال سيفاسوبرامانيان الحافة في مقابلة منفصلة، غالبًا ما لا يعرف بعض المطورين ما إذا كان يجب عليهم استخدام نموذج أكبر للمشروع لأنهم يفترضون أن نموذجًا أكثر قوة سيتعامل مع احتياجاتهم. اكتشفوا لاحقًا أنه كان بإمكانهم البناء على واحدة أصغر.
يتكون التقييم النموذجي من عنصرين: التقييم الآلي والتقييم البشري. في الإصدار الآلي، يمكن للمطورين الانتقال إلى وحدة التحكم Bedrock الخاصة بهم واختيار نموذج لاختباره. ويمكنهم بعد ذلك تقييم أداء النموذج بناءً على مقاييس مثل المتانة أو الدقة أو السمية لمهام مثل التلخيص وتصنيف النص والأسئلة والإجابة وإنشاء النص. يتضمن Bedrock نماذج ذكاء اصطناعي شهيرة تابعة لجهات خارجية مثل Meta’s Llama 2 وAnthropic’s Claude 2 وStable Diffusion Stable AI.
بينما توفر AWS مجموعات بيانات اختبارية، يمكن للعملاء إحضار بياناتهم الخاصة إلى النظام الأساسي لقياس الأداء حتى يكونوا على دراية أفضل بكيفية تصرف النماذج. ثم يقوم النظام بإنشاء تقرير.
في حالة مشاركة البشر، يمكن للمستخدمين اختيار العمل مع فريق تقييم بشري لدى AWS أو مع فريق خاص بهم. يجب على العملاء تحديد نوع المهمة (التلخيص أو إنشاء النص، على سبيل المثال)، ومقاييس التقييم، ومجموعة البيانات التي يريدون استخدامها. ستوفر AWS أسعارًا وجداول زمنية مخصصة لأولئك الذين يعملون مع فريق التقييم الخاص بها.
وقال نائب رئيس AWS للذكاء الاصطناعي التوليدي فاسي فيلومين الحافة في مقابلة، فإن الحصول على فهم أفضل لكيفية أداء النماذج يؤدي إلى التطوير بشكل أفضل. كما يسمح للشركات بمعرفة ما إذا كانت النماذج لا تلبي بعض معايير الذكاء الاصطناعي المسؤولة – مثل حساسيات السمية المنخفضة أو العالية جدًا – قبل البناء باستخدام النموذج.
وقال فيلومين: “من المهم أن تعمل النماذج لصالح عملائنا، لمعرفة النموذج الذي يناسبهم بشكل أفضل، ونحن نمنحهم طريقة لتقييم ذلك بشكل أفضل”.
وقال سيفاسوبرامانيان أيضًا أنه عندما يقوم البشر بتقييم نماذج الذكاء الاصطناعي، يمكنهم اكتشاف مقاييس أخرى لا يستطيع النظام الآلي اكتشافها – أشياء مثل التعاطف أو الود.
قال فيلومين إن AWS لن تطلب من جميع العملاء قياس النماذج، حيث ربما يكون بعض المطورين قد عملوا مع بعض النماذج الأساسية على Bedrock من قبل أو لديهم فكرة عما يمكن أن تفعله النماذج لهم. يمكن للشركات التي لا تزال تستكشف النماذج التي يجب استخدامها أن تستفيد من اجتياز عملية المقارنة المرجعية.
قالت AWS أنه بينما تكون خدمة قياس الأداء قيد المعاينة، فإنها لن تفرض سوى رسوم على استنتاج النموذج المستخدم أثناء التقييم.
على الرغم من عدم وجود معيار معين لقياس نماذج الذكاء الاصطناعي، إلا أن هناك مقاييس محددة تقبلها بعض الصناعات بشكل عام. وقال فيلومين إن الهدف من قياس الأداء على Bedrock ليس تقييم النماذج على نطاق واسع، بل تقديم طريقة للشركات لقياس تأثير النموذج على مشاريعها.