الباحثون وراء بعض من الأكثر تقدما”inline-link” HREF=”https://www.livescience.com/technology/artificial-intelligence/what-is-artificial-intelligence-ai” البيانات قبل أن تتولى المحمل=”https://www.livescience.com/technology/artificial-intelligence/what-is-artificial-intelligence-ai”>الذكاء الاصطناعي (AI) على هذا الكوكب حذرت من أن الأنظمة التي ساعدت في خلقها يمكن أن تشكل خطرًا على الإنسانية.
يجادل الباحثون ، الذين يعملون في شركات بما في ذلك Google Deepmind و Openai و Meta و Anthropic وغيرهم ، إلى أن الافتقار إلى الإشراف على عمليات التفكير في الذكاء الاصطناعى وصنع القرار قد يعني أننا نفتقد علامات السلوك الخبيث.
في الدراسة الجديدة ، نشرت في 15 يوليو إلى”inline-link” HREF=”https://arxiv.org/abs/2507.11473″ الهدف=”_blank” البيانات-url=”https://arxiv.org/abs/2507.11473″ المرجعية=”no-referrer-when-downgrade” البيانات HL المعالجة=”none”>arxiv خادم preprint (الذي لم يتم مراجعته من قبل الأقران) ، يسلط الباحثون الضوء على سلاسل الفكر (COT)-خطوات نماذج اللغة الكبيرة (LLMs) تتناولها أثناء تواجد المشكلات المعقدة. تستخدم نماذج الذكاء الاصطناعى أسرة الأطفال لتحويل الاستعلامات المتقدمة إلى خطوات منطقية وسيطة يتم التعبير عنها باللغة الطبيعية.
يجادل مؤلفو الدراسة بأن مراقبة كل خطوة في هذه العملية يمكن أن تكون طبقة حاسمة لإنشاء سلامة الذكاء الاصطناعي والحفاظ عليها.
يمكن أن تساعد مراقبة عملية COT هذه الباحثين على فهم كيفية اتخاذ LLMs ، والأهم من ذلك ، لماذا تصبح غير متوازنة مع مصالح الإنسانية. كما أنه يساعد في تحديد سبب إعطاء مخرجات بناءً على البيانات الخاطئة أو غير الموجودة ، أو لماذا تضللنا.
ومع ذلك ، هناك العديد من القيود عند مراقبة عملية التفكير هذه ، مما يعني أن مثل هذا السلوك يمكن أن يمر عبر الشقوق.
متعلق ب: يمكن الآن أن تكرر الذكاء الاصطناعى نفسه – وهو علامة فارقة خبراء مرعوب
احصل على أكثر اكتشافات العالم الرائعة التي يتم تسليمها مباشرة إلى صندوق الوارد الخاص بك.
“AI systems that ‘think’ in human language offer a unique opportunity for AI safety,” كتب العلماء في الدراسة. “We can monitor their chains of thought for the intent to misbehave. Like all other known AI oversight methods, CoT monitoring is imperfect and allows some misbehavior to go unnoticed.”
حذر العلماء من أن التفكير لا يحدث دائمًا ، لذلك لا يمكن مراقبته دائمًا ، ويحدث بعض الأسباب دون أن يعرف المشغلون البشريون ذلك. قد يكون هناك أيضًا التفكير في أن المشغلين البشريين لا يفهمون.
مراقبة أنظمة الذكاء الاصطناعي
واحدة من المشكلات هي أن النماذج التقليدية غير المقصودة مثل K-means أو DBSCAN-تستخدم مطابقة متطورة تم إنشاؤها من مجموعات بيانات ضخمة ، لذلك لا تعتمد على أسرّف الأطفال على الإطلاق. في الوقت نفسه ، فإن نماذج التفكير الأحدث مثل gemini من Google أو ChatGPT قادرة على تقسيم المشكلات إلى خطوات وسيطة لإنشاء حلول – ولكن لا تحتاج دائمًا إلى القيام بذلك للحصول على إجابة. وأشار الباحثون إلى أنه ليس هناك ما يضمن أن النماذج ستجعل أسرّة أسرّة مرئية للمستخدمين البشريين حتى لو اتخذوا هذه الخطوات.
“The externalized reasoning property does not guarantee monitorability — it states only that some reasoning appears in the chain of thought, but there may be other relevant reasoning that does not,” قال العلماء. “It is thus possible that even for hard tasks, the chain of thought only contains benign-looking reasoning while the incriminating reasoning is hidden.”وقال العلماء إن القضية الأخرى هي أن الأطفال قد لا تكون مفهومة من قبل البشر. “
New, more powerful LLMs may evolve to the point where CoTs aren’t as necessary. Future models may also be able to detect that their CoT is being supervised, and conceal bad behavior.
To avoid this, the authors suggested various measures to implement and strengthen CoT monitoring and improve AI transparency. These include using other models to evaluate an LLMs’s CoT processes and even act in an adversarial role against a model trying to conceal misaligned behavior. What the authors don’t specify in the paper is how they would ensure the monitoring models would avoid also becoming misaligned.
They also suggested that AI developers continue to refine and standardize CoT monitoring methods, include monitoring results and initiatives in LLMs system cards (essentially a model’s manual) and consider the effect of new training methods on monitorability.
“تقدم مراقبة COT إضافة قيمة إلى تدابير السلامة لـ Frontier AI ، مما يوفر لمحة نادرة حول كيفية اتخاذ وكلاء الذكاء الاصطناعى ،” the scientists said in the study. “ومع ذلك ، ليس هناك ما يضمن أن الدرجة الحالية من الرؤية ستستمر. نحن نشجع مجتمع الأبحاث وحدود AI على الاستفادة بشكل أفضل من قابلية مراقبة COT ودراسة كيفية الحفاظ عليها “.