قريبة بما فيه الكفاية للعمل الحكومي؟ —
يمكن أن يتم طردك لعدم دفع الإيجار، على الرغم مما يقوله برنامج الدردشة الآلي “MyCity”.
إذا كنت تتابع أخبار الذكاء الاصطناعي على الإطلاق، فمن المحتمل أنك على دراية بميل روبوتات الدردشة LLM إلى ذلك معلومات غير صحيحة أثناء تقديم تلك المعلومات على أنها صحيحة بشكل رسمي. ويبدو أن هذا الاتجاه من شأنه أن يسبب بعض المشاكل الخطيرة الآن بعد أن أصبح برنامج الدردشة الآلي الذي تديره حكومة مدينة نيويورك يقدم إجابات غير صحيحة لبعض الأسئلة المهمة المتعلقة بالقانون المحلي وسياسة البلدية.
تم إطلاق ChatBot “MyCity” في مدينة نيويورك كبرنامج “تجريبي”. أكتوبر الماضي. وصف الإعلان ChatBot كوسيلة لأصحاب الأعمال “لتوفير الوقت والمال من خلال تزويدهم على الفور بمعلومات موثوقة وقابلة للتنفيذ من أكثر من 2000 صفحة ويب ومقالات للأعمال في مدينة نيويورك حول موضوعات مثل الامتثال للقوانين واللوائح، والأعمال التجارية المتاحة والحوافز وأفضل الممارسات لتجنب المخالفات والغرامات”.
لكن تقرير جديد من موقع The Markup والموقع الإخباري المحلي غير الربحي The City، وجدت أن برنامج الدردشة MyCity يقدم معلومات خاطئة بشكل خطير حول بعض سياسات المدينة الأساسية. على سبيل المثال لا الحصر، قال الروبوت أن مباني مدينة نيويورك “ليست مطالبة بقبول قسائم القسم 8″، عندما صفحة معلومات حكومة مدينة نيويورك يقول ذلك بوضوح القسم 8 إعانات الإسكان هي واحدة من العديد من مصادر الدخل المشروعة التي يتعين على الملاك قبولها دون تمييز. تلقى الترميز أيضًا معلومات غير صحيحة ردًا على استفسارات برنامج الدردشة الآلية فيما يتعلق بأجور العمال ولوائح ساعات العمل، بالإضافة إلى معلومات خاصة بالصناعة مثل أسعار دور الجنازة.
مزيد من الاختبارات من مستخدم BlueSky كاثرين توسون يعرض برنامج الدردشة الآلي MyCity وهو يقدم بعض الإجابات الخاطئة بشكل خطير فيما يتعلق بمعاملة المبلغين عن المخالفات في مكان العمل، بالإضافة إلى بعض الإجابات السيئة المضحكة فيما يتعلق بالحاجة إلى دفع الإيجار.
هذا سوف يستمر في الحدوث
النتيجة ليست مفاجئة للغاية إذا كنت ابحث في النماذج التنبؤية القائمة على الرمز المميز التي تعمل على تشغيل هذه الأنواع من برامج الدردشة الآلية. يستخدم برنامج الدردشة الآلي الذي يعمل بنظام Microsoft Azure الخاص بـ MyCity عملية معقدة من الارتباطات الإحصائية عبر ملايين الرموز المميزة لتخمين الكلمة التالية الأكثر احتمالية في أي تسلسل معين، دون أي فهم حقيقي للمعلومات الأساسية التي يتم نقلها.
يمكن أن يسبب ذلك مشاكل عندما لا تنعكس الإجابة الواقعية الواحدة على السؤال بدقة في بيانات التدريب. في الواقع، قالت The Markup إن واحدًا على الأقل من اختباراتها أدى إلى الإجابة الصحيحة على نفس الاستعلام حول قبول قسائم الإسكان في القسم 8 (حتى مع حصول “عشرة موظفين منفصلين في Markup” على إجابة غير صحيحة عند تكرار نفس السؤال).
يخبر برنامج MyCity Chatbot – الذي تم تصنيفه بشكل بارز على أنه منتج “تجريبي” – المستخدمين الذين يكلفون أنفسهم عناء قراءة التحذيرات بأنه “قد ينتج أحيانًا محتوى غير صحيح أو ضار أو متحيز” وأنه يجب على المستخدمين “عدم الاعتماد على ردوده كبديل لـ نصيحه مهنيه.” لكن الصفحة تشير أيضًا في المقدمة والوسط إلى أنها “مدربة لتزويدك بالمعلومات الرسمية للأعمال في مدينة نيويورك” ويتم بيعها كوسيلة “لمساعدة أصحاب الأعمال في التعامل مع الحكومة”.
قال أندرو ريجي، المدير التنفيذي لـ NYC Hospitality Alliance، لصحيفة The Markup إنه واجه معلومات غير دقيقة من الروبوت نفسه وتلقى تقارير عن ذلك من صاحب عمل محلي واحد على الأقل. لكن المتحدث باسم مكتب التكنولوجيا والابتكار في مدينة نيويورك، ليزلي براون، قال لصحيفة The Markup إن الروبوت “قدم بالفعل لآلاف الأشخاص إجابات دقيقة وفي الوقت المناسب” وأننا “سنواصل التركيز على ترقية هذه الأداة حتى نتمكن من دعم الشركات الصغيرة بشكل أفضل في جميع أنحاء العالم”. المدينة.”
يسلط تقرير Markup الضوء على خطر طرح الحكومات والشركات لروبوتات الدردشة للجمهور قبل أن يتم فحص دقتها وموثوقيتها بشكل كامل. الشهر الماضي، المحكمة أجبرت شركة طيران كندا على احترام سياسة استرداد الأموال الاحتيالية اخترعها chatbot متاح على موقعه على الانترنت. أ تقرير واشنطن بوست الأخير وجدت أن برامج الدردشة المدمجة في برامج إعداد الضرائب الرئيسية توفر “إجابات عشوائية أو مضللة أو غير دقيقة” للعديد من الاستفسارات الضريبية. وقد فعل بعض المهندسين الفوريين ماكرة وبحسب ما ورد كان قادرًا على خداع روبوتات الدردشة الخاصة بوكلاء السيارات في قبول “عرض ملزم قانونًا – لا تقبل التنازلات” مقابل سيارة بقيمة دولار واحد.
هذه الأنواع من المشكلات تقود بالفعل بعض الشركات بعيدًا عن برامج الدردشة الأكثر عمومية التي تدعم LLM وتتجه نحوها نماذج الجيل المعزز للاسترجاع المدربة بشكل أكثر تحديدًا، والتي تم ضبطها فقط على مجموعة صغيرة من المعلومات ذات الصلة. يمكن أن يصبح هذا النوع من التركيز أكثر أهمية إذا كانت لجنة التجارة الفيدرالية كذلك ناجحة في جهودها ل جعل روبوتات الدردشة مسؤولة للحصول على معلومات “كاذبة أو مضللة أو مهينة”.