يعد Gemini 2.5 Pro من Google هو أذكى طراز لا تستخدمه - و 4 أسباب يهمها للمؤسسة AI

29 مارس ، 2025 8:28 صباحًا

الصورة الائتمان: VentureBeat عبر ChatGpt

“content”>

انضم إلى النشرات الإخبارية اليومية والأسبوعية للحصول على أحدث التحديثات والمحتوى الحصري على تغطية الذكاء الاصطناعى الرائدة في الصناعة.”https://venturebeat.com/newsletters/?utm_source=VBsite&utm_medium=desktopNav” نوع البيانات=”link” معرف البيانات=”https://venturebeat.com/newsletters/?utm_source=VBsite&utm_medium=desktopNav”> تعرف على المزيد

إطلاق”https://venturebeat.com/ai/google-releases-most-intelligent-model-to-date-gemini-2-5-pro/”> Gemini 2.5 Pro يوم الثلاثاء لم يهيمن بالضبط على دورة الأخبار. هبطت في نفس الأسبوع”https://venturebeat.com/ai/studio-ghibli-ai-image-trend-overwhelms-openais-new-gpt-4o-feature-delaying-free-tier/”> تحديث جيلات صور Openai أضاء وسائل التواصل الاجتماعي مع استوديو GHIBLI-الصورة الرمزية المستوحاة من الفك الفكية. ولكن على الرغم من أن الطنين ذهب إلى Openai ، فقد تكون Google قد أسقطت بهدوء نموذج التفكير الأكثر استعدادًا للمؤسسات حتى الآن.

يمثل Gemini 2.5 Pro قفزة كبيرة إلى الأمام لـ Google في سباق النماذج التأسيسية – ليس فقط في المعايير ، ولكن في قابلية الاستخدام. استنادًا إلى التجارب المبكرة ، والبيانات القياسية ، وردود أفعال المطورين العملي ، إنها نموذج يستحق اهتمامًا جادًا من صانعي القرار الفنيين للمؤسسات ، وخاصة أولئك الذين تعرضوا للتخلف تاريخياً إلى Openai أو Claude للتفكير في درجة الإنتاج.

فيما يلي أربعة الوجبات الرئيسية لفرق المؤسسات التي تقوم بتقييم Gemini 2.5 Pro.

1.

ما يميز Gemini 2.5 Pro عن ذكائه فقط – إنه مدى وضوح أن الذكاء يظهر عمله. ينتج عن نهج التدريب خطوة بخطوة من Google سلسلة من الفكر منظمة (COT) لا تشعر بالتجول أو التخمين ، مثل ما رأيناه من نماذج مثل Deepseek. ولا يتم اقتطاع هذه الأسلحة الفنية إلى ملخصات ضحلة مثل ما تراه في نماذج Openai. يعرض نموذج الجوزاء الجديد أفكارًا في خطوات مرقمة ، مع حدود فرعية ومنطق داخلي متماسك وشفاف بشكل ملحوظ.

من الناحية العملية ، هذا اختراق للثقة والقدرة على التوجيه. يمكن لمستخدمي المؤسسة الذين يقومون بتقييم الإخراج للمهام الحرجة – مثل مراجعة الآثار المترتبة على السياسة ، أو منطق الترميز ، أو تلخيص الأبحاث المعقدة – رؤية كيف وصل النموذج إلى إجابة. هذا يعني أنه يمكنهم التحقق من صحة أو تصحيحه أو إعادة توجيهه بثقة أكبر. إنه تطور كبير من “الصندوق الأسود” الذي لا يزال يصيب العديد من مخرجات LLM.

من أجل تجول أعمق في كيفية عمل هذا في العمل ،”https://www.youtube.com/watch?v=c7LDIiea7Oc”> تحقق من انهيار الفيديو حيث نختبر Gemini 2.5 Pro Live. أحد الأمثلة التي نناقشها: عندما سئل عن قيود نماذج اللغة الكبيرة ، أظهر Gemini 2.5 Pro وعيًا ملحوظًا. لقد تلاوة نقاط الضعف الشائعة ، وتصنيفها إلى مجالات مثل “الحدس المادي” ، و “تخليق مفهوم الرواية” ، و “التخطيط طويل المدى” ، و “الفروق الدقيقة الأخلاقية” ، وتوفير إطار يساعد المستخدمين على فهم ما يعرفه النموذج وكيف يقترب من المشكلة.

يمكن للفرق الفنية للمؤسسات الاستفادة من هذه القدرة على:

تصحيح سلاسل التفكير المعقدة في التطبيقات الحرجة
أفضل فهم قيود النماذج في مجالات محددة
توفير المزيد من اتخاذ القرارات بمساعدة AI لأصحاب المصلحة
تحسين تفكيرهم النقدي من خلال دراسة نهج النموذج

أحد القيود الجديرة بالملاحظة: على الرغم من توفر هذا المنطق المنظم في تطبيق Gemini و Google AI Studio ، إلا أنه لا يمكن الوصول إليه بعد عبر واجهة برمجة التطبيقات – وهو عيب للمطورين الذين يتطلعون إلى دمج هذه الإمكانية في تطبيقات المؤسسات.

2. منافس حقيقي لحالة الحديثة-وليس فقط على الورق

يجلس النموذج حاليًا في الجزء العلوي من لوحة chatbot Arena بهامش ملحوظ-35 نقطة Elo قبل النموذج التالي-وهو أمر لا سيما تحديث Openai 4O الذي انخفض في اليوم التالي لتخفيض Gemini 2.5 Pro. وعلى الرغم من أن التفوق القياسي غالبًا ما يكون تاجًا عابرًا (حيث تسقط النماذج الجديدة أسبوعيًا) ، فإن Gemini 2.5 Pro يشعر مختلفًا حقًا.

قمة”https://huggingface.co/spaces/lmarena-ai/chatbot-arena-leaderboard”> LM Arena المتصدرين، في وقت النشر.

إنه يتفوق في المهام التي تكافئ التفكير العميق: الترميز ، وحل المشكلات الدقيقة ، والتوليف عبر المستندات ، وحتى التخطيط التجريدي. في الاختبارات الداخلية ، يتم تنفيذها بشكل جيد بشكل خاص على المعايير التي يصعب صياغتها سابقًا مثل “اختبار الإنسانية الأخير” ، وهو المفضل لفضح نقاط ضعف LLM في المجالات المجردة والذاتية. (يمكنك رؤية إعلان Google”https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-thinking”> هنا، جنبا إلى جنب مع جميع المعلومات القياسية.)

قد لا تهتم فرق المؤسسات التي تفوز بها النموذج الذي يفوز به المتصدرين الأكاديميين. لكنهم سيهتمون أن هذا الشخص يمكن أن يفكر – ويظهر لك كيف يفكر. إن اختبار Vibe مهم ، ومرة واحدة ، حان دور Google لتشعر بأنهم قد مروا به.

كمهندس الذكاء الاصطناعي المحترم”https://www.interconnects.ai/p/gemini-25-pro-googles-second-ai-chance”وأشار ناثان لامبرت، “لدى Google أفضل النماذج مرة أخرى ، حيث كان ينبغي أن تبدأ هذا الإزهار بأكمله. لقد تم تصحيح الخطأ الاستراتيجي.” يجب على مستخدمي المؤسسة عرض هذا ليس فقط لأن Google تلحق بالمنافسين ، ولكن من المحتمل أن يقفزوا لهم في إمكانات مهمة لتطبيقات الأعمال.

3. أخيرًا: لعبة ترميز Google قوية

تاريخياً ، تخلفت Google عن Openai و Anthropic عندما يتعلق الأمر بمساعدة الترميز التي تركز على المطورين. Gemini 2.5 Pro يغير ذلك – بطريقة كبيرة.

في الاختبارات العملية ، تظهر قدرة قوية على طلقة واحدة على تحديات الترميز ، بما في ذلك بناء لعبة Tetris عاملة”https://www.youtube.com/watch?v=B3wLYDl2SmQ&t=811s”> تم تشغيل المحاولة الأولى عند تصديرها لإعادة الإعادة – لا حاجة لتصحيح الأخطاء. حتى أكثر ملحوظًا: لقد تم التفكير فيه من خلال بنية الكود بوضوح ، ووضع العلامات على متغيرات وخطوات مدروسة ، ووضع نهجه قبل كتابة سطر واحد من التعليمات البرمجية.

النموذج منافس كلود 3.7 سونت ، الذي كان يعتبر رائدة في توليد الكود ، و”https://venturebeat.com/ai/anthropics-stealth-enterprise-coup-how-claude-3-7-is-becoming-the-coding-agent-of-choice/”> السبب الرئيسي لنجاح الأنثروبور في المؤسسة. لكن Gemini 2.5 يوفر ميزة مهمة: نافذة سياق رمزي ضخمة قدرها مليون مليون. كلود 3.7 السوناتة”https://x.com/testingcatalog/status/1905038108845834531?s=46″> الآن فقط تتجول لتقديم 500000 رمز.

تفتح نافذة السياق الضخمة هذه إمكانيات جديدة للتفكير عبر قواعد الكود بأكملها ، وقراءة الوثائق المضمنة ، والعمل عبر ملفات متعددة المعتمد. مهندس البرمجيات”https://simonwillison.net/2025/Mar/25/gemini/”> تجربة سيمون ويليسون يوضح هذه الميزة. عند استخدام Gemini 2.5 Pro لتنفيذ ميزة جديدة عبر قاعدة البيانات الخاصة به ، حدد النموذج التغييرات اللازمة عبر 18 ملفًا مختلفًا وأكمل المشروع بأكمله في حوالي 45 دقيقة – بمتوسط أقل من ثلاث دقائق لكل ملف معدلة. بالنسبة للمؤسسات التي تجرب أطر عمل الوكيل أو بيئات التطوير المدعومة من AI ، هذه أداة خطيرة.

4. التكامل متعدد الوسائط مع السلوك الشبيه بالعامل

في حين أن بعض الطرز مثل أحدث 4O من Openai قد تظهر أكثر إبهار مع توليد الصور المبهجة ، فإن Gemini 2.5 Pro تشعر بأنها تعيد تعريف ما يبدو عليه المنطق المتعدد البناء.

في مثال واحد ، بن ديكسون”https://venturebeat.com/ai/beyond-benchmarks-gemini-2-5-pro-is-probably-the-best-reasoning-model-yet/”> اختبار عملي لـ VentureBeat أظهرت قدرة النموذج على استخراج المعلومات الرئيسية من مقالة تقنية حول خوارزميات البحث وإنشاء مخطط انسيابي SVG المقابل – ثم تحسين هذا المخطط الانسيابي عند عرض إصدار تم تقديمه بأخطاء مرئية. يمكّن هذا المستوى من التفكير متعدد الوسائط سير عمل جديد لم يكن ممكنًا من قبل مع نماذج النص فقط.

في مثال آخر ، قام المطور Sam Witteveen بتحميل لقطة شاشة بسيطة لخريطة لاس فيجاس وسأل ما حدثت أحداث Google في مكان قريب في 9 أبريل (انظر”https://www.youtube.com/watch?v=c7LDIiea7Oc”> دقيقة 16:35 من هذا الفيديو). حدد النموذج الموقع ، واستنتج نية المستخدم ، والبحث عبر الإنترنت (مع تمكين التأريض) ، وأعاد تفاصيل دقيقة حول Google Cloud Next – بما في ذلك التواريخ والموقع والاستشهادات. كل ذلك بدون إطار عمل مخصص ، فقط النموذج الأساسي والبحث المتكامل.

النموذج في الواقع أسباب حول هذا المدخلات متعددة الوسائط ، وراء مجرد النظر إليها. وهو يلمح إلى ما يمكن أن تبدو عليه سير عمل المؤسسة في ستة أشهر: تحميل المستندات أو الرسوم البيانية ولوحات المعلومات – وجعل النموذج يقوم بالتخطيط أو التخطيط أو الإجراء المعتمد على المحتوى.

المكافأة: إنها فقط … مفيدة

على الرغم من أنه ليس الوجبات الجاهزة المنفصلة ، إلا أنه من الجدير بالملاحظة: هذا هو أول إصدار من الجوزاء الذي أخرج Google من “LLM Backwater” للكثيرين منا. لم تصل الإصدارات السابقة أبدًا إلى الاستخدام اليومي ، حيث تقوم نماذج مثل Openai أو Claude بتعيين جدول الأعمال. Gemini 2.5 Pro يشعر مختلف. تجعل جودة التفكير ، وأداة المساعدة طويلة السياق ، ومسامي UX العملية-مثل إعادة تصدير الإعادة والوصول إلى الاستوديو-نموذجًا يصعب تجاهله.

ومع ذلك ، إنها الأيام الأولى. لم يكن النموذج بعد في Vertex AI من Google Cloud ، على الرغم من أن Google قالت إن هذا سيحدث قريبًا. تبقى بعض أسئلة الكمون ، لا سيما مع عملية التفكير الأعمق (مع وجود الكثير من الرموز التي يتم التفكير فيها ، ما الذي يعني ذلك في الوقت المناسب للرمز المميز الأول؟) ، ولم يتم الكشف عن الأسعار.

تحذير آخر من ملاحظاتي حول قدرتها على الكتابة: لا يزال Openai و Claude يشعران بأنهما لديهما ميزة على إنتاج النثر القابل للقراءة بشكل جيد. تَوأَم. 2.5 يشعر منظم للغاية ، ويفتقر إلى القليل من نعومة المحادثة التي يقدمها الآخرون. هذا شيء لاحظته Openai على وجه الخصوص إنفاق الكثير من التركيز عليه مؤخرًا.

ولكن بالنسبة للمؤسسات الموازنة بين الأداء والشفافية والمقياس ، فقد يكون Gemini 2.5 Pro قد جعل Google منافسًا جادًا مرة أخرى.

على حد تعبير Zoom cto xuedong huang في محادثة معي أمس: تظل Google بحزم في هذا المزيج عندما يتعلق الأمر بـ LLMs في الإنتاج. لقد أعطانا Gemini 2.5 Pro سببًا للاعتقاد بأنه قد يكون أكثر صحة غدًا مما كان عليه بالأمس.

شاهد الفيديو الكامل للمؤسسات هنا:

الرؤى اليومية حول حالات استخدام الأعمال مع VB يوميا

إذا كنت ترغب في إقناع رئيسك في العمل ، فقد غطيت VB Daily. نمنحك السبق الصحفي الداخلي على ما تفعله الشركات مع الذكاء الاصطناعي التوليدي ، من التحولات التنظيمية إلى عمليات النشر العملية ، حتى تتمكن من مشاركة رؤى لأقصى عائد على الاستثمار.

اقرأ لدينا”http://venturebeat.com/terms-of-service/”> سياسة الخصوصية

شكرا على الاشتراك. تحقق أكثر”http://venturebeat.com/newsletters/”> النشرات الإخبارية VB هنا.

حدث خطأ.

اقرأ المزيد

يعد Gemini 2.5 Pro من Google هو أذكى طراز لا تستخدمه – و 4 أسباب يهمها للمؤسسة AI

1.

2. منافس حقيقي لحالة الحديثة-وليس فقط على الورق

3. أخيرًا: لعبة ترميز Google قوية

4. التكامل متعدد الوسائط مع السلوك الشبيه بالعامل

المكافأة: إنها فقط … مفيدة

Reactions

ردود الفعل