من فضلك تسجيل الدخول أو تسجيل لتفعل ذلك.

ليس هناك من يجادل في أن الذكاء الاصطناعي لا يزال يواجه عددًا لا بأس به من اللحظات غير الموثوقة، ولكن نأمل أن تكون تقييماته دقيقة على الأقل. ومع ذلك، في الأسبوع الماضي، زُعم أن جوجل أصدرت تعليمات للموظفين المتعاقدين”cpos:1;pos:1″ href=”https://www.engadget.com/ai/googles-gemini-deep-research-tool-is-here-to-answer-your-most-complicated-questions-154354424.html” بيانات-ylk=”slk:evaluating Gemini;cpos:1;pos:1;elm:context_link;itc:0;sec:content-canvas”> تقييم الجوزاء عدم تخطي أي مطالبات، بغض النظر عن خبرتهم،”elm:context_link;elmt:doNotAffiliate;cpos:2;pos:1″ href=”https://techcrunch.com/2024/12/18/exclusive-googles-gemini-is-forcing-contractors-to-rate-ai-responses-outside-their-expertise/” بيانات-ylk=”slk:TechCrunch reports;elm:context_link;elmt:doNotAffiliate;cpos:2;pos:1;itc:0;sec:content-canvas”>تك كرانش التقارير بناءً على التوجيه الداخلي الذي اطلعت عليه. تمت مشاركة ‏معاينة‏ من قبل ‏‎Google‎‏”cpos:3;pos:1″ href=”https://www.engadget.com/ai/gemini-20-is-googles-most-capable-ai-model-yet-and-available-to-preview-today-170329180.html” بيانات-ylk=”slk:Gemini 2.0;cpos:3;pos:1;elm:context_link;itc:0;sec:content-canvas”> الجوزاء 2.0 في وقت سابق من هذا الشهر.

يقال إن جوجل أصدرت تعليماتها لشركة GlobalLogic، وهي شركة الاستعانة بمصادر خارجية والتي يقوم مقاولوها بتقييم المخرجات الناتجة عن الذكاء الاصطناعي، بعدم مطالبة المراجعين بتخطي المطالبات خارج نطاق خبرتهم. في السابق، كان بإمكان المقاولين اختيار تخطي أي مطالبة تقع بعيدًا عن خبرتهم – مثل سؤال الطبيب عن القوانين. وكانت المبادئ التوجيهية قد ذكرت، “If you do not have critical expertise (e.g. coding, math) to rate this prompt, please skip this task.”

الآن، يُزعم أن المقاولين قد تلقوا تعليمات، “You should not skip prompts that require specialized domain knowledge” وأنه ينبغي لهم “rate the parts of the prompt you understand” مع إضافة ملاحظة مفادها أن هذا ليس مجالًا لديهم معرفة به. على ما يبدو، الأوقات الوحيدة التي يمكن فيها تخطي العقود الآن هي إذا كان جزء كبير من المعلومات مفقودًا أو إذا كانت تحتوي على محتوى ضار يتطلب نماذج موافقة محددة للتقييم.

استجاب أحد المقاولين بشكل مناسب للتغييرات قائلاً: “I thought the point of skipping was to increase accuracy by giving it to someone better?”

بعد وقت قصير من نشر هذه المقالة لأول مرة، قدمت جوجل لموقع Engadget البيان التالي: “Raters perform a wide range of tasks across many different Google products and platforms. They provide valuable feedback on more than just the content of the answers, but also on the style, format, and other factors. The ratings they provide do not directly impact our algorithms, but when taken in aggregate, are a helpful data point to help us measure how well our systems are working.”

وأشار متحدث باسم جوجل أيضًا إلى أن اللغة الجديدة لا ينبغي أن تؤدي بالضرورة إلى تغييرات في دقة جيميني، لأنهم يطلبون من المقيمين تقييم أجزاء المطالبات التي يفهمونها على وجه التحديد. يمكن أن يكون هذا بمثابة تقديم تعليقات لأشياء مثل مشكلات التنسيق حتى لو لم يكن لدى المقيم خبرة محددة في الموضوع. كما أشارت الشركة إلى”elm:context_link;elmt:doNotAffiliate;cpos:4;pos:1″ href=”https://deepmind.google/discover/blog/facts-grounding-a-new-benchmark-for-evaluating-the-factuality-of-large-language-models/” rel=”nofollow noopener” الهدف=”_blank” بيانات-ylk=”slk:this weeks’ release of the FACTS Grounding benchmark;elm:context_link;elmt:doNotAffiliate;cpos:4;pos:1;itc:0;sec:content-canvas”>إصدار هذا الأسبوع لمعيار FACTS Grounding يمكنها التحقق من استجابات LLM للتأكد “that are not only factually accurate with respect to given inputs, but also sufficiently detailed to provide satisfactory answers to user queries.”

تحديث، 19 ديسمبر 2024، الساعة 11:23 صباحًا بالتوقيت الشرقي: تم تحديث هذه القصة ببيان من Google ومزيد من التفاصيل حول كيفية عمل نظام التصنيف الخاص بها.

اقرأ المزيد

جوجل تكشف النقاب عن نموذج التفكير الجديد Gemini 2.0 Flash Thinking لمنافسة OpenAI o1
كشفت الأخطاء في نظام التوصيل الرئيسي لشركة ماكدونالدز في الهند عن بيانات حساسة للعملاء

Reactions

0
0
0
0
0
0
بالفعل كان رد فعل لهذا المنصب.

ردود الفعل