chatgpt 4.1 المعايير المبكرة مقارنة مع Google Gemini

تم طرح ChatGPT 4.1 الآن ، وهي قفزة كبيرة من GPT 4O ، لكنها فشل في التغلب على القياس الذي وضعته Google Gemini.

أمس ، Openai”https://openai.com/index/gpt-4-1/” الهدف=”_blank” rel=”nofollow noopener”> أكد يمكن للمطورين الذين يعانون من وصول API تجربة ما يصل إلى ثلاثة نماذج جديدة: GPT – 4.1 ، GPT – 4.1 Mini ، و GPT -4.1 Nano.

وفقًا للمعايير ، فإن هذه النماذج أفضل بكثير من GPT -4O و GPT -4O Mini الحالي ، وخاصة في الترميز.

على سبيل المثال ، يتم التحقق من GPT-4.1 54.6 ٪ على SWE-BENCED ، وهو أفضل من GPT-4O بنسبة 21.4 ٪ و 26.6 ٪ على GPT-4.5. لدينا نتائج مماثلة عن أدوات القياس الأخرى التي تشاركها Openai ، ولكن كيف تتنافس ضد نماذج الجوزاء.

chatgpt 4.1 معايير مبكرة

المعايير مقارنة LLMs

وفقا للمعايير”https://x.com/kamathematic/status/1911861870283333990/photo/1″ الهدف=”_blank” rel=”nofollow noopener”> مشتركة حسب المسرح ، وهو إطار أتمتة متصفح جاهز للإنتاج ، يتمتع Gemini 2.0 Flash بأقل معدل خطأ (6.67 ٪) جنبًا إلى جنب مع أعلى درجة الدقة (90 ٪) ، وهو أيضًا رخيص وسريع.

من ناحية أخرى ، فإن GPT – 4.1 لديه معدل خطأ أعلى (16.67 ٪) ويكلف أكثر من 10 أضعاف فلاش Gemini 2.0.

متغيرات GPT أخرى (مثل “Nano” أو “Mini”) أرخص أو أسرع ولكنها ليست دقيقة مثل GPT-4.1

يقارن الرسم البياني LLMS من خلال رسم أدائها (على المحور العمودي) مقابل سعرها لكل مليون رموز (على المحور الأفقي)

في بيانات أخرى”https://x.com/bongrandp/status/1912186642560962799″ الهدف=”_blank” rel=”nofollow noopener”> مشتركة بقلم بيير بونجراند ، وهو عالم يعمل على الحمض النووي الريبي في هاروارد ، يقدم GPT-4.1 فعالية من حيث التكلفة الأكثر فقراً من النماذج المنافسة.

هذا عامل مهم لأن GPT4.1 أرخص من Chatgpt 4O.

تقترب نماذج مثل Gemini 2.0 Flash و Gemini 2.5 Pro ، وحتى Deepseek أو O3 Mini من الحدود أو على الحدود ، مما يشير إلى أنها تقدم أداءً أعلى بتكلفة أقل أو قابلة للمقارنة.

في نهاية المطاف ، في حين أن GPT – 4.1 لا يزال يعمل كخيار ، فقد طغت عليه بوضوح بدائل أرخص أو أكثر قدرة.

معايير الترميز تظهر GPT-4.1 LACS خلف Gemini 2.5

نرى نتائج مماثلة في معايير الترميز ، مع”https://x.com/daniel_mac8/status/1911837582201069875″ الهدف=”_blank” rel=”nofollow noopener”> AIDER Polyglot سرد GPT-4.1 مع درجة 52 ٪ ، في حين أن Gemini 2.5 هو الأميال إلى الأمام بنسبة 73 ٪.

من المهم أيضًا أن نلاحظ أن GPT-4.1 هو نموذج غير معرض ، ولا يزال أحد أفضل النماذج للترميز.

يتوفر GPT-4.1 عبر API ، ولكن يمكنك استخدامه مجانًا إذا قمت بالتسجيل”https://windsurf.com/editor” الهدف=”_blank” rel=”nofollow noopener”> Windsurf AI.

اقرأ المزيد

chatgpt 4.1 المعايير المبكرة مقارنة مع Google Gemini

chatgpt 4.1 معايير مبكرة

معايير الترميز تظهر GPT-4.1 LACS خلف Gemini 2.5

Reactions

ردود الفعل