يتطلع وكيل مراقبة الذكاء الاصطناعي إلى منع المخرجات الضارة في سيناريوهات العالم الحقيقي

مع وصول مخاطر الذكاء الاصطناعي (AI) إلى آفاق جديدة، طورت مجموعة من الباحثين أداة مراقبة لتحديد المخرجات الضارة المرتبطة بنماذج اللغات الكبيرة (LLMs).

AutoGPT، تم تطويره بالشراكة مع Microsoft (ناسداك: MSFT) يمكن للباحثين والعلماء من جامعة نورث إيسترن إيقاف تنفيذ المخرجات الضارة في الوقت الفعلي. بحسب التقرير، أظهرت أداة مراقبة الذكاء الاصطناعي نتائج مبهرة أثناء النشر مع حاملي شهادات LLM الرائدة مثل OpenAIChatGPTو جوجل (ناسداك: جوجل)باردفي خنق هجمات التعليمات البرمجية.

“لقد قمنا بتصميم جهاز مراقبة سلامة أساسي يتسم بالمرونة الكافية لمراقبة وكلاء LLM الحاليين، وباستخدام وكيل محاكاة عدائي، نقوم بقياس قدرته على تحديد المواقف غير الآمنة وإيقافها،” كما جاء في التقرير.

باستخدام وكيل محاكاة عدائي، أظهرت الأداة الكفاءة في تحديد التهديدات وإيقافها مع اعتماد طبقات حماية متعددة، بما في ذلك المراجعة البشرية النهائية للقضاء على التهديد.

وجاء في التقرير: “تتم مراجعة تصرفات الوكيل من خلال جهاز مراقبة حساس للسياق يفرض حدود أمان صارمة لوقف الاختبار غير الآمن، مع تصنيف السلوك المشبوه وتسجيله ليتم فحصه من قبل البشر”.

أشار تقرير “اختبار وكلاء نموذج اللغة بأمان في البرية” إلى أن أدوات المراقبة الحالية ربما أظهرت كفاءة في البيئات الخاضعة للرقابة ولكنها تتعثر في سيناريوهات العالم الحقيقي. وكتب الباحثون أن سبب الأداء الباهت يكمن في الاحتمالات المتعددة لنواقل الضرر الناشئة عن استخدام الذكاء الاصطناعي.

لاحظ الباحثون أنه حتى محاولات استخدام الذكاء الاصطناعي بأمان قد تؤدي إلى العديد من المخاطر غير المقصودة من المطالبات التي تبدو حميدة. ولتحقيق نتائج أعلى من المتوسط، قام الباحثون بتدريب الأداة باستخدام ذاكرة تخزين مؤقت تضم 2000 تفاعل بشري تم فحصها في ما يقرب من 30 مهمة متميزة وإضافة معلمات غير آمنة عن عمد.

تم اختبار هذا النموذج على طلاب ماجستير إدارة أعمال رائدين، وتمكن من التمييز بين المدخلات الضارة والآمنة بنسبة 90% من الوقت في ظل بيئات اختبار متعددة. ووفقًا للتقرير، اقترح الباحثون نشر أداة المراقبة لتطبيقات مختلفة، مثل تعزيز إشارة تدريب الوكيل وتحديد متى يتم تصعيد المشكلات للحصول على موافقات المستخدم.

مخاطر قاتمة بالنسبة للذكاء الاصطناعي

في شهر أكتوبر الماضي، كشف باحثون في مجال الذكاء الاصطناعي من Anthropic في تقريرهم أن العديد من حاملي الماجستير في القانون يفضلون ذلكتملقفي ردودهم على مطالبات المستخدم بدلاً من الإجابات الصادقة. يشكل التقرير جزءًا من قائمة المخاطر المحتملة المرتبطة باستخدام الذكاء الاصطناعي، حيث يدق المنظمون أجراس الإنذار بشأن اعتمادهالتقنيات الناشئة.

OpenAI، صانعي ChatGPT، لديهمأطلقتوحدة استعداد جديدة لمواجهة مخاطر الذكاء الاصطناعي على الأمن السيبراني والقطاعات الحيوية الأخرى في الاقتصاد العالمي. ومن جهة أخرى ميتا (ناسداك: ميتا)تم حلهافريق الذكاء الاصطناعي المسؤول (RAI) الخاص به بعد إعادة الهيكلة الداخلية، مما أضعف خطط الشركة الطموحة لتطوير أدوات الذكاء الاصطناعي الجديدة بأمان.

“نحن نأخذ على محمل الجد مجموعة كاملة من مخاطر السلامة المتعلقة بالذكاء الاصطناعي، بدءًا من الأنظمة الموجودة لدينا اليوم وحتى أقصى حدود الذكاء الفائق.”قالOpenAI. “لدعم سلامة أنظمة الذكاء الاصطناعي ذات القدرة العالية، نقوم بتطوير نهجنا للتأهب لمواجهة المخاطر الكارثية.”

شاهد: الذكاء الاصطناعي وتقنية blockchain سيكونان في غاية الأهمية – وهذا هو السبب

جديد على blockchain؟ تحقق من CoinGeek بلوكتشين للمبتدئين القسم، دليل الموارد النهائي لمعرفة المزيد حول تقنية blockchain.

اقرأ أكثر

يتطلع وكيل مراقبة الذكاء الاصطناعي إلى منع المخرجات الضارة في سيناريوهات العالم الحقيقي

Reactions

ردود الفعل