Google’s”https://techcrunch.com/2025/04/04/gemini-2-5-pro-is-googles-most-expensive-ai-model-yet/”> أغلى نموذج الذكاء الاصطناعي يبدو أنه عبر علامة بارزة: التغلب على لعبة فيديو عمرها 29 عامًا.
الليلة الماضية ، الرئيس التنفيذي لشركة Google Sundar Pichai”nofollow” HREF=”https://x.com/sundarpichai/status/1918455766542930004?t=8NLgn42y3kAqUbZVhg4zLw&s=19″> نشر انتصار على x، “يا له من الانتهاء! Gemini 2.5 Pro أكمل للتو Pokémon Blue!”
أن تكون واضحا ،”nofollow” HREF=”https://www.twitch.tv/gemini_plays_pokemon”> Gemini يلعب بوكيمون Livestream تم إنشاؤه بواسطة (بكلماته الخاصة) “مهندس برمجيات يبلغ من العمر 30 عامًا غير متوفى مع Google” الذي يمر به”nofollow” HREF=”https://bsky.app/profile/jcz.dev”> جويل ز. لكن المديرين التنفيذيين في Google كانوا يهتفون الجهد.
على سبيل المثال ، لوغان كيلباتريك ، يؤدي المنتج إلى Google AI Studio ،”nofollow” HREF=”https://x.com/OfficialLoganK/status/1913365614397182096″> نشر الشهر الماضي كان أن الجوزاء “يحقق تقدمًا كبيرًا في إكمال بوكيمون” و “حصل على شارةها الخامسة (أفضل نموذج له فقط 3 حتى الآن ، على الرغم من وجود عميل مختلف) ،” يقود بيشاي إلى”nofollow” HREF=”https://x.com/sundarpichai/status/1913464625393524967″> نكتة، “نحن نعمل على API ، ذكاء بوكيمون الاصطناعي :)”
لماذا بوكيمون؟ مرة أخرى في فبراير ،”nofollow” HREF=”https://www.anthropic.com/research/visible-extended-thinking”> أنثروبور أبرز التقدم أن نماذج Claude AI كانت تصنع في “Pokémon Red” ، التي تكتب أن “التفكير الموسع والتدريب على الوكيل” لكلود يمنحها “دفعة كبيرة” في مهام “أكثر غير متوقعة” ، مثل لعب لعبة كلاسيكية. (“Pokémon Red” و “Blue” هي إصدارات مختلفة من”nofollow” HREF=”https://en.wikipedia.org/wiki/Pok%C3%A9mon_Red,_Blue,_and_Yellow”> عنوان Gameboy تم إصداره لأول مرة في عام 1996 وربط بامتياز بوكيمون طويل الأجل). هناك حتى”nofollow” HREF=”https://www.twitch.tv/claudeplayspokemon”> كلود يلعب قناة بوكيمون توتش أن جويل زي استشهد كإلهام.
على الرغم من تقدمه ، لا يبدو أن كلود قد تغلب على “بوكيمون ريد” حتى الآن. هل هذا يعني أن الجوزاء أفضل بشكل موضوعي في اللعبة؟ على صفحته Twitch ، حث Joel Z للمشاهدين ، “من فضلك لا تعتبر هذا المعيار لمعرفة مدى جودة LLM للعب البوكيمون. لا يمكنك إجراء مقارنات مباشرة – لدى Gemini و كلود أدوات مختلفة وتلقي معلومات مختلفة.”
ويحتاج كلا طرازين الذكاء الاصطناعى إلى مساعدة في لعب اللعبة – هذا هو المكان”nofollow” HREF=”https://www.lesswrong.com/posts/7mqp8uRnnPdbBzJZE/is-gemini-now-better-than-claude-at-pokemon”> العميل المذكور أعلاه يسخر تعال ، وتزويد النماذج بقطات شاشة للعبة مع معلومات إضافية ، مما يسمح للنموذج بتحديد كيفية الاستجابة (والتي قد تتضمن استدعاء الوكلاء المتخصصين) ، ثم الضغط على الزر الذي يتوافق مع تعليمات الذكاء الاصطناعى.
حدث TechCrunch
بيركلي ، كاليفورنيا|5 يونيو
اعترف جويل زي بوجود “تدخلات ديف” أخرى لمساعدة الجوزاء على إكمال اللعبة ، لكنه أصر على أنها ليست غشًا.
يقول: “إن تدخلاتي تعمل على تحسين قدرات الجوزاء في اتخاذ القرارات وقدرات التفكير”. “لا أعطي تلميحات محددة – لا توجد تجول أو تعليمات مباشرة لتحديات معينة مثل جبل مون. الشيء الوحيد الذي يقترب حتى هو السماح للجوزاء بمعرفة أنه يحتاج إلى التحدث إلى نخر الصاروخ مرتين للحصول على مفتاح الرفع ، والذي كان خطأ تم إصلاحه لاحقًا باللون الأصفر.”
بالإضافة إلى ذلك ، قال: “لا يزال الجوزاء يلعب بوكيمون يجري تطويره بنشاط ، ويستمر الإطار في التطور”.
أنتوني ها هو محرر عطلة نهاية الأسبوع في TechCrunch. في السابق ، عمل كمراسل تقني في Adweek ، وهو محرر كبير في VentureBeat ، وهو مراسل حكومي محلي في Hollister Free Lance ، ونائب رئيس المحتوى في شركة VC. يعيش في مدينة نيويورك.