شهد مجال الذكاء الاصطناعي تطورًا مهمًا ومثيرًا للاهتمام مع تحقيق نموذج o3 الجديد من شركة OpenAI، نتائج مذهلة تضاهي مستوى الإنسان في اختبار مصمم خصوصًا لقياس الذكاء العام، ويُعدّ هذا الإنجاز بمنزلة علامة فارقة في سعي الباحثين نحو تطوير ذكاء اصطناعي عام (AGI).
فقد سجل نموذج o3 نسبة بلغت 85% في معيار (ARC-AGI)، وهو اختبار صُمم خصوصًا لتقييم قدرة أنظمة الذكاء الاصطناعي على التفكير المجرد والاستدلال وحل المشكلات الجديدة بطريقة تشبه القدرات البشرية، وتُعدّ هذه النتيجة قفزة نوعية، إذ إنها تتجاوز بكثير أفضل نتيجة سابقة حققها أي نموذج ذكاء اصطناعي آخر، وهي التي بلغت 55% فقط.
والأكثر إثارة للإعجاب هو أن نتيجة نموذج o3 تعادل متوسط النتيجة التي يحققها الإنسان في الاختبار نفسه، بالإضافة إلى ذلك، أظهر نموذج o3 أداءً جيدًا في اختبار رياضيات عالي الصعوبة، مما يعزز من قوة هذا الإنجاز.
ويُعدّ الوصول إلى مرحلة الذكاء الاصطناعي العام، هو الهدف الأسمى الذي تسعى إليه جميع مختبرات أبحاث الذكاء الاصطناعي الرائدة حول العالم، ويشير مصطلح (الذكاء الاصطناعي العام) إلى نوع من الذكاء الاصطناعي يمتلك قدرات معرفية تشبه القدرات البشرية، بما يشمل: القدرة على التعلم والتفكير وحل المشكلات واتخاذ القرارات في مجموعة واسعة من السياقات، وليس فقط في مهام محددة كما هو الحال مع أنظمة الذكاء الاصطناعي الحالية، التي تندرج تحت نوع الذكاء الاصطناعي الضيق النطاق (NAI).
وللوهلة الأولى، يبدو أن شركة OpenAI، من خلال تطويرها لنموذج o3، قد قطعت شوطًا كبيرًا نحو تحقيق هذا الهدف الطموح، ومع ذلك؛ لا يزال هناك بعض الشكوك والتساؤلات المطروحة حول مدى قوة هذا النموذج.
وبينما تستمر المناقشات حول الجدول الزمني المتوقع لتحقيق الذكاء الاصطناعي العام، يشعر العديد من الباحثين والمطورين العاملين في مجال الذكاء الاصطناعي أن هناك تحولًا جوهريًا قد طرأ آخرًا على هذا المجال، إذ يرى الكثيرون منهم أن احتمال ظهور الذكاء الاصطناعي العام الآن أكثر واقعية وإلحاحًا وأقرب زمنيًا مما كان متوقعًا في السابق. فهل هذه التوقعات في محلها، وهل نحن حقًا على أعتاب عصر جديد من الذكاء الاصطناعي؟
فهم اختبار ARC-AGI وأهميته في قياس الذكاء العام:
لفهم الأهمية الحقيقية للنتائج التي حققها نموذج o3 في اختبار (ARC-AGI)، من الضروري فهم طبيعة هذا الاختبار، فمن الناحية التقنية، يُعدّ (ARC-AGI) اختبارًا لما يُعرف باسم (كفاءة العينة) Sample Efficiency لنموذج الذكاء الاصطناعي.
وتشير كفاءة العينة إلى قدرة النموذج على التكيف والتعلم من عدد محدود من الأمثلة أو البيانات، بمعنى آخر، يهدف الاختبار إلى تحديد عدد الأمثلة التي يحتاج إليها النموذج لفهم كيفية التعامل مع موقف أو مشكلة جديدة، وكلما قل عدد الأمثلة المطلوبة، زادت كفاءة العينة لدى النموذج.
وتُظهر أنظمة الذكاء الاصطناعي الحالية، مثل ChatGPT – الذي يستند في عمله إلى نموذج GPT-4 – ضعفًا نسبيًا في كفاءة العينة؛ لأنها تدربت على كميات ضخمة من البيانات، غالبًا ما تصل إلى ملايين الأمثلة من النصوص البشرية، وخلال عملية التدريب، تقوم هذه الأنظمة ببناء قواعد احتمالية حول احتمالية ظهور مجموعات معينة من الكلمات أو الأنماط، فعلى سبيل المثال، يتعلم النظام أن تسلسل الكلمات (كيف حالك؟)، يُتبع غالبًا برد مثل (بخير، شكرًا).
ونتيجة لذلك، تُظهر هذه الأنظمة أداءً جيدًا جدًا في المهام الشائعة والمتكررة، إذ توفرت لها كميات كبيرة من بيانات التدريب. ولكن في الوقت نفسه؛ تعاني هذه الأنظمة في المهام غير الشائعة أو الجديدة التي تفتقر إلى بيانات تدريب كافية (أي عينات أقل). يعني إذا لم يرَ النظام نمطًا معينًا مرات كافية خلال التدريب، فإنه سيواجه صعوبة في تعرّفه أو التعامل معه بشكل صحيح.
لذلك، حتى تتمكن أنظمة الذكاء الاصطناعي من الانتقال من مجرد أداء المهام المتكررة إلى التعامل مع المواقف الجديدة وغير المتوقعة، يجب عليها أن تُحسن بنحو كبير من كفاءة العينة لديها، ويعني ذلك أنها يجب أن تتعلم من أعداد صغيرة من الأمثلة، وأن تتكيف مع المعلومات الجديدة بسرعة وفعالية عالية، وطالما أن أنظمة الذكاء الاصطناعي تعتمد على كميات ضخمة من البيانات للتعلم، فإن استخدامها سيقتصر على الوظائف التي تتسم بالتكرار الشديد وتلك التي يكون فيها احتمال حدوث أخطاء عرضية مقبولًا.
وتُعرف القدرة على حل المشكلات غير المعروفة أو الجديدة بدقة باستخدام عينات محدودة من البيانات باسم (القدرة على التعميم) Generalization، وتُعدّ القدرة على التعميم على نطاق واسع عنصرًا ضروريًا، بل وحتى أساسيًا، للذكاء الحقيقي، سواء كان بشريًا أو اصطناعيًا. فبدون القدرة على التعميم، سيظل الذكاء الاصطناعي محصورًا في نطاق ضيق من المهام المحددة التي دُرب عليها، ولن يكون قادرًا على التكيف مع العالم الحقيقي المتغير باستمرار.
قياس قدرة النموذج على التعميم:
تركز اختبارات (ARC-AGI) المعيارية بنحو خاص في تقييم (التكيف الفعّال للعينة) لدى أنظمة الذكاء الاصطناعي، وذلك باستخدام مجموعة من المشكلات البصرية، التي تُعرض على شكل مصفوفات شبكية صغيرة، وتقدم هذه المشكلات تحديًا فريدًا للذكاء الاصطناعي، وهو معرفة النمط الذي يحول الشبكة الموجودة في الجهة اليسرى إلى الشبكة الموجودة في الجهة اليمنى.
ويُقدم للذكاء الاصطناعي في كل سؤال ثلاثة أمثلة فقط للتعلم منها، ثم عليه أن يحلل الأمثلة الثلاثة ويستنتج النمط أو القاعدة التي تربط بينها، والتي يمكن تطبيقها على المثال الرابع.
وبذلك، يختبر ARC-AGI قدرة الذكاء الاصطناعي على التعميم، أي قدرته على استخلاص قاعدة عامة من عدد محدود من الأمثلة، وتطبيق هذه القاعدة على حالة جديدة لم يرها من قبل، وتُشبه هذه العملية إلى حد كبير اختبارات الذكاء التقليدية التي تعرضنا لها في المدرسة، والتي تُقيّم قدرتنا على حل المشكلات والاستنتاج المنطقي.
لا نعرف بالضبط الآلية الدقيقة التي استخدمتها OpenAI لتحقيق النتائج المذهلة لنموذج o3 في اختبار (ARC-AGI)، ولكن النتائج تشير بوضوح إلى أن النموذج يتمتع بقدرة تكيف عالية جدًا، إذ يستطيع النموذج من خلال تحليل عدد قليل جدًا من الأمثلة، استخلاص قواعد عامة قابلة للتطبيق على حالات جديدة.
ويُعتقد أن نجاح النموذج يكمن في قدرته على إيجاد (القواعد الضعيفة)، وهي القواعد التي تقدم أقل قدر ممكن من الافتراضات أو القيود، ومن ثم تكون أكثر عمومية وقابلة للتطبيق على نطاق أوسع من الحالات، مما يزيد من قدرة النموذج على التكيف مع المواقف الجديدة.
ولكن يرجح الباحثون أن شركة (OpenAI) لم تُحسن نموذج o3 خصوصًا لإيجاد القواعد الضعيفة، بل اكتشف النموذج هذه القواعد كجزء من عملية التعلم، ويعتقد فرانسوا شوليه، الباحث الفرنسي في مجال الذكاء الاصطناعي ومصمم معيار (ARC-AGI)، أن نموذج o3 يعتمد على البحث من خلال سلاسل فكرية مختلفة تصف الخطوات المحتملة لحل المشكلة، ثم يختار النموذج (الأفضل) بناءً على قاعدة فضفاضة أو قاعدة استدلالية.
ويشبه ذلك إلى حد كبير الطريقة التي استخدمها نظام جوجل (AlphaGo) للتغلب على بطل العالم في لعبة (Go)، فقد بحث نظام (AlphaGo) من خلال تسلسلات مختلفة محتملة من الحركات، ثم اختار التسلسل الأفضل بناءً على تقييم محدد.
لذلك السؤال المحوري الذي يطرح نفسه الآن هو: هل يُعدّ ما حققه نموذج o3 خطوة حقيقية نحو تحقيق الذكاء الاصطناعي العام؟
يثير تحليل آلية عمل نموذج o3 تساؤلات حول مدى عمق هذا الإنجاز، لأنه إذا كان النموذج يعتمد بنحو أساسي على البحث عن سلاسل أفكار أكثر قابلية للتعميم من خلال تدريب استدلالي مخصص لاختبار (ARC-AGI) تحديدًا، فقد لا يمثل تحسينًا جوهريًا عن النماذج السابقة من حيث القدرة الحقيقية على التعميم.
بمعنى آخر، قد لا تكون المفاهيم التي يتعلمها النموذج من اللغة أكثر ملاءمة للتعميم من ذي قبل، بل قد يكون التحسن مقتصرًا على إيجاد طرق أكثر فعالية لتطبيق هذه المفاهيم في سياق اختبار (ARC-AGI).
إذ يحيط الغموض بمعظم جوانب نموذج o3 حتى الآن، فقد اقتصرت OpenAI على الكشف عن معلومات محدودة من خلال بعض العروض الإعلامية والاختبارات الأولية التي أُجريت على نطاق ضيق في عدد قليل من مراكز البحوث والمختبرات والمؤسسات المهتمة بسلامة الذكاء الاصطناعي. لذلك سيكون الاختبار الحقيقي لقدرات نموذج o3 في تطبيقاته العملية وقدرته على حل مشكلات حقيقية خارج نطاق الاختبار المحدد.
وعندما يُطلق الذكاء الاصطناعي العام بشكل كامل في نهاية المطاف، سنكون قادرين على تحديد مدى قدرته على التكيف مع المواقف الجديدة بشكل يشبه القدرات البشرية. وإذا كان الذكاء الاصطناعي العام قادرًا على التكيف والتعميم بكفاءة عالية، فقد يكون له تأثير اقتصادي ضخم يُحدث ثورة في مختلف الصناعات ويبشّر بعصر جديد من الذكاء المتسارع الذي يحسّن نفسه ذاتيًا باستمرار.
وفي هذه الحالة، سنحتاج إلى وضع معايير جديدة لتقييم الذكاء الاصطناعي العام نفسه، بالإضافة إلى التفكير مليًا في كيفية إدارته والتحكم فيه بشكل آمن ومسؤول.
أما إذا لم يحقق نموذج o3 قفزة نوعية حقيقية نحو الذكاء الاصطناعي العام، فستظل نتائجه مبهرة بحد ذاتها، لكن تأثيرها في الحياة اليومية سيكون محدودًا نسبيًا.