من فضلك تسجيل الدخول أو تسجيل لتفعل ذلك.

تم طرح ChatGPT 4.1 الآن ، وهي قفزة كبيرة من GPT 4O ، لكنها فشل في التغلب على القياس الذي وضعته Google Gemini.

أمس ، Openai”https://openai.com/index/gpt-4-1/” الهدف=”_blank” rel=”nofollow noopener”> أكد يمكن للمطورين الذين يعانون من وصول API تجربة ما يصل إلى ثلاثة نماذج جديدة: GPT – 4.1 ، GPT – 4.1 Mini ، و GPT -4.1 Nano.

وفقًا للمعايير ، فإن هذه النماذج أفضل بكثير من GPT -4O و GPT -4O Mini الحالي ، وخاصة في الترميز.

على سبيل المثال ، يتم التحقق من GPT-4.1 54.6 ٪ على SWE-BENCED ، وهو أفضل من GPT-4O بنسبة 21.4 ٪ و 26.6 ٪ على GPT-4.5. لدينا نتائج مماثلة عن أدوات القياس الأخرى التي تشاركها Openai ، ولكن كيف تتنافس ضد نماذج الجوزاء.

chatgpt 4.1 معايير مبكرة

المعايير مقارنة LLMs

وفقا للمعايير”https://x.com/kamathematic/status/1911861870283333990/photo/1″ الهدف=”_blank” rel=”nofollow noopener”> مشتركة حسب المسرح ، وهو إطار أتمتة متصفح جاهز للإنتاج ، يتمتع Gemini 2.0 Flash بأقل معدل خطأ (6.67 ٪) جنبًا إلى جنب مع أعلى درجة الدقة (90 ٪) ، وهو أيضًا رخيص وسريع.

من ناحية أخرى ، فإن GPT – 4.1 لديه معدل خطأ أعلى (16.67 ٪) ويكلف أكثر من 10 أضعاف فلاش Gemini 2.0.

متغيرات GPT أخرى (مثل “Nano” أو “Mini”) أرخص أو أسرع ولكنها ليست دقيقة مثل GPT-4.1

يقارن الرسم البياني LLMS من خلال رسم أدائها (على المحور العمودي) مقابل سعرها لكل مليون رموز (على المحور الأفقي)

في بيانات أخرى”https://x.com/bongrandp/status/1912186642560962799″ الهدف=”_blank” rel=”nofollow noopener”> مشتركة بقلم بيير بونجراند ، وهو عالم يعمل على الحمض النووي الريبي في هاروارد ، يقدم GPT-4.1 فعالية من حيث التكلفة الأكثر فقراً من النماذج المنافسة.

هذا عامل مهم لأن GPT4.1 أرخص من Chatgpt 4O.

تقترب نماذج مثل Gemini 2.0 Flash و Gemini 2.5 Pro ، وحتى Deepseek أو O3 Mini من الحدود أو على الحدود ، مما يشير إلى أنها تقدم أداءً أعلى بتكلفة أقل أو قابلة للمقارنة.

في نهاية المطاف ، في حين أن GPT – 4.1 لا يزال يعمل كخيار ، فقد طغت عليه بوضوح بدائل أرخص أو أكثر قدرة.

معايير الترميز تظهر GPT-4.1 LACS خلف Gemini 2.5

نرى نتائج مماثلة في معايير الترميز ، مع”https://x.com/daniel_mac8/status/1911837582201069875″ الهدف=”_blank” rel=”nofollow noopener”> AIDER Polyglot سرد GPT-4.1 مع درجة 52 ٪ ، في حين أن Gemini 2.5 هو الأميال إلى الأمام بنسبة 73 ٪.

من المهم أيضًا أن نلاحظ أن GPT-4.1 هو نموذج غير معرض ، ولا يزال أحد أفضل النماذج للترميز.

يتوفر GPT-4.1 عبر API ، ولكن يمكنك استخدامه مجانًا إذا قمت بالتسجيل”https://windsurf.com/editor” الهدف=”_blank” rel=”nofollow noopener”> Windsurf AI.

اقرأ المزيد

يمكن أن يتيح لك نموذج الذكاء الاصطناعى الجديد من Google يومًا ما فهمه والتحدث مع الدلافين
رفعت Google للتو الحد الأدنى لمتطلبات المواصفات لنظام Android 15

Reactions

0
0
0
0
0
0
بالفعل كان رد فعل لهذا المنصب.

ردود الفعل