حصل روبوت (ChatGPT) على ترقية هائلة مع إطلاق نموذج (GPT-4o) الجديد، الذي يجعل طريقة التفاعل بين الإنسان والحاسوب أكثر طبيعة بفضل قدراته المتطورة في التعامل مع النصوص المكتوبة والأوامر الصوتية والصور ومقاطع الفيديو، وكذلك فهم وإدراك ما تراه كاميرا الهواتف الذكية مباشرة، مثل: نبرة الأصوات، وتحليل ملامح الوجوه وفهم المشاعر من خلالها.
يقدم (GPT-4o) الجديد القدرات نفسها التي يقدمها نموذج (GPT-4)، ولكنه يأتي مع العديد من التحسينات والمزايا التي تجعله يتفوق على سابقه.
إليك 5 مزايا يتفوق بها نموذج GPT-4o على نموذج GPT-4:
1- ChatGPT-4o مجاني للجميع:
يشكل نموذج (GPT-4o) خطوة مهمة نحو تعزيز إمكانية الوصول إلى القدرات المتطورة للذكاء الاصطناعي التوليدي خاصة بالنسبة للمستخدمين العاديين. ففي السابق، كان الوصول إلى GPT-4 الأكثر ذكاءً مقيدًا بالاشتراك في إصدار (ChatGPT Plus) بمبلغ قدره 20 دولارًا شهريًا. أما الآن، بفضل التحسينات في كفاءة المعالجة، تُتيح OpenAI استخدام GPT-4o مجانًا لجميع المستخدمين.
وبالإضافة إلى التحديثات الأصلية التي يقدمها نموذج (GPT-4o)، أعلنت الشركة إتاحة عدد كبير من المزايا لجميع المستخدمين مجانًا، ومنها:
- تصفح الويب عبر ChatGPT مجانًا.
- تحليل البيانات (Data Analysis)، بالإضافة إلى إنشاء رسوم بيانية (Charts).
- التعامل مع الصور.
- رفع الملفات والبدء بعمليات التلخيص، والكتابة والتحليل.
- الوصول إلى متجر الروبوتات البرمجية (GPTs Store)، وهي مزية كانت متاحة سابقًا لمستخدمي الإصدار المدفوع (ChatGPT Plus) فقط.
- استخدام مزية (الذاكرة) Memory، التي تساعد الروبوت في الاحتفاظ ببعض التفاصيل والمعلومات التي ترغب في استخدامها فيما بعد.
ولكن كل ذلك من المزايا لا يعني المساواة مع المشتركين في إصدار (ChatGPT Plus)، الذين سيحصلون على مزايا إضافية تشمل: زيادة عدد المطالبات اليومية بمقدار خمسة أضعاف، وإمكانية الوصول المبكر إلى ميزات الصوت والرؤية المتطورة، التي ستُحدث ثورة في طريقة التفاعل مع الذكاء الاصطناعي.
2- تحسينات كبيرة في التفاعل مع الصوت:
يحتوي نموذج (GPT-4) على وضع صوتي، ولكنه محدود للغاية. حيث يستطيع فقط الاستجابة لاستفسار واحد في كل مرة، مما يجعله يشبه المساعدات الصوتية، مثل: أليكسا من أمازون أو مساعد جوجل أو سيري من آبل. لكن مع GPT-4o، تغيرت الأمور بطريقة جذرية، كما يظهر في الفيديو التالي:
أذهل نموذج (GPT-4o) الجميع في العرض الذي قدمته الشركة بقدرته على ابتكار قصص مبدعة لحظيًا مثل (قصة ما قبل النوم عن الروبوتات والحب)، ويمكنه أيضًا الاستجابة للمقاطعات التي تطلب تعديلات سريعة أثناء سرد القصة بذكاء، الأمر الذي جعل التفاعل الصوتي مع ChatGPT أصبح في منتهى السلاسة.
بالإضافة إلى ذلك، نموذج GPT-4o أصبح لديه القدرة على تغيير نبرة صوته ليتناسب مع القصة، وإضافة لمسات درامية، وحتى إنهاء القصة بأغنية لإسعاد المستمعين.
ولكن أهم ما يميز GPT-4o هو قدرته على الاحتفاظ بالموضوع الرئيسي للمحادثة أثناء التفاعل مع المُستخدم، وهو ما لا تستطيع أفضل المساعدات الذكية حاليًا القيام به.
بعد العرض المذهل لقدرات الصوت، عُرضت إمكانيات نموذج (GPT-4o) في مجال الرؤية، التي فاقت التوقعات، إذ تمكن النموذج من حل معادلة خطية مكتوبة على ورقة، وذلك من خلال التقاط صورة لها بكاميرا الهاتف لحظيًا، والأهم من ذلك أنه تمكن من تقديم المساعدة للمستخدم دون الإفصاح عن الإجابة مباشرة، كما طلب منه المستخدم، مما يُعزز ذكاءه وتفاعله.
كما تجاوزت قدرات GPT-4o التعامل مع النصوص، حيث تمكن من تحديد مشاعر السعادة والإثارة على وجه شخص في صورة شخصية جديدة، كما في الفيديو التالي:
تفتح قدرات الرؤية المتطورة لنموذج GPT-4o آفاقًا جديدة لتطبيقات متنوعة، مثل: شرح الكود البرمجي بمجرد توجيه كاميرا الهاتف إليه، أو تلخيص النصوص الأجنبية بمجرد رؤيتها في صورة.
في الوقت الحالي، يبدو أن قدرات الرؤية المحسنة تستهدف الصور الثابتة، ومع ذلك، في المستقبل القريب، تؤمن OpenAI أن GPT-4o سيتطور في المستقبل القريب ليتمكن من التعامل مع مقاطع الفيديو، مثل مشاهدة حدث رياضي وشرح القواعد، مما يُتيح تطبيقات أكثر ثورية.
4- أداء أسرع كثيرًا:
يُظهر نموذج (GPT-4) بعض التأخير في معالجة المطالبات المعقدة، على الرغم من سرعته المُذهلة. لكن مع نموذج GPT-4o، ستجد تحسنًا هائلًا في السرعة، إذ يمكنه توليد إجابته النصية المكونة من 488 كلمة في أقل من 12 ثانية، في حين تتطلب استجابة مماثلة من (GPT-4) ما يقرب من دقيقة.
كما يتميز نموذج GPT-4o الجديد بسرعة استجابة استثنائية، إذ يمكنه الاستجابة للمدخلات الصوتية بمتوسط قدره 320 ميلّي/ الثانية، وهو ما يُقارب زمن استجابة الإنسان في المحادثة. في حين يستغرق (GPT-4) في المتوسط 5.4 ثانية، ويعود ذلك إلى أن وضع الصوت كان يعمل كسلسلة من ثلاثة نماذج منفصلة:
- نموذج بسيط يحول الصوت إلى نص.
- يعالج نموذج GPT-3.5 أو GPT-4 النص ويُخرج نصًا آخر.
- نموذج بسيط ثالث يحول النص مرة أخرى إلى صوت.
تُؤدي هذه العملية إلى فقدان الكثير من المعلومات، إذ لا يستطيع نموذج (GPT-4)، ملاحظة نبرة الصوت أو وجود عدد من المتحدثين أو الضوضاء الخلفية بنحو مباشر. كما لا يستطيع إخراج ضحك أو غناء أو التعبير عن المشاعر.
5- توفر تطبيق سطح المكتب لنظام التشغيل macOS وويندوز قريبًا:
قد يكون إصدار الويب من (ChatGPT) كافيًا لمعظم الأشخاص، ولكن بالنسبة لأولئك الذين يفضلون تطبيقات سطح المكتب، بدأت شركة OpenAI بإطلاق تطبيق جديد من روبوت ChatGPT للحواسيب التي تعمل بنظام macOS.
وسيتيح التطبيق إمكانية إجراء محادثات صوتية مباشرة مع الروبوت من الحاسوب سواء في الوضع الصوتي التقليدي المتاح بالفعل، أو باستخدام إمكانيات الصوت والفيديو في نموذج GPT-4o الجديد.
وبالنسبة لمستخدمي نظام التشغيل ويندوز أكدت شركة OpenAI أن تطبيق ويندوز قيد التطوير حاليًا، ومن المتوقع إصداره بحلول نهاية عام 2024.
وقد يكون التأخير ناتجًا عن سعي مايكروسوفت إلى توجيه مستخدمي نظام (ويندوز 11) إلى المساعد (Copilot) المدعوم من ChatGPT.