يمكن أن يصور النموذج نصًا مقروءًا وهو أكثر عملية من المولدات السريالية في الماضي. لكن من سيستخدمه؟
أصدرت Openai مولدًا جديدًا للصور مصمم أقل لفن AI السريالي النموذجي وأكثر من ذلك لإنشاء مرئيات يمكن التحكم فيه وعمليًا للغاية – علامة على أن Openai تعتقد أن أدواته جاهزة للاستخدام في مجالات مثل الإعلان وتصميم الرسوم.
كان مولد الصور ، الذي أصبح الآن جزءًا من طراز GPT-4O للشركة ،”https://openai.com/index/hello-gpt-4o/”> وعدت بواسطة Openai”https://www.technologyreview.com/2024/05/13/1092358/openais-new-gpt-4o-model-lets-people-interact-using-voice-or-video-in-the-same-model/”> مايو الماضي ولكن لم يتم إطلاق سراحه. تم ملء طلبات الصور التي تم إنشاؤها على ChatGpt بواسطة مولد صور أقدم يسمى Dall-E. قام Openai بتبديل النموذج الجديد منذ ذلك الحين وسيقوم الآن بإصداره خلال الأسابيع المقبلة لجميع مستويات المستخدمين الذين يبدأون اليوم ، لتحل محل الطراز الأكبر سناً.
يحقق النموذج الجديد تقدمًا في القضايا الفنية التي ابتليت بها مولدات صور الذكاء الاصطناعى لسنوات. على الرغم من أن معظمهم كانوا رائعين في إنشاء صور خيالية أو أعماق واقعية ، إلا أنها كانت فظيعة في شيء يسمى الربط ، والذي يشير إلى القدرة على تحديد أشياء معينة بشكل صحيح ووضعها في مكانها المناسب (مثل علامة تقول “الكلاب الساخنة” الموضوعة بشكل صحيح فوق عربة طعام ، وليس في مكان آخر في الصورة).
قبل بضع سنوات فقط ، بدأت النماذج في النجاح في أشياء مثل “وضع المكعب الأحمر أعلى المكعب الأزرق” ، وهي ميزة ضرورية لأي استخدام مهني إبداعي من الذكاء الاصطناعي. تكافح المولدات أيضًا مع توليد النص ، عادةً ما تنشئ أشكالًا مشوهة من أشكال الأحرف التي تبدو مثل Captchas أكثر من النص القابل للقراءة.
Openai
مثال الصور من Openai عرض التقدم هنا. هذا النموذج قادر على إنشاء 12 رسومات منفصلة داخل صورة واحدة – مثل الرموز التعبيرية للقطط أو صاعقة البرق – ووضعها بترتيب مناسب. يظهر آخر أربعة كوكتيلات مصحوبة ببطاقات الوصفة بنص دقيق ومساكن. تُظهر المزيد من الصور شرائط هزلية مع فقاعات نصية وإعلانات وهمية ومخططات تعليمية. يتيح لك النموذج أيضًا تحميل الصور لتعديله ، وسيكون متاحًا في مولد الفيديو Sora وكذلك في GPT-4O.
Openai
Openai
Openai
Openai
Openai
يقول جابي جوه ، المصمم الرئيسي في المولد في Openai ، إنها “أداة جديدة للتواصل”. Kenji Hata ، الباحث في Openai الذي عمل أيضًا على الأداة ، يضعها بطريقة مختلفة: “أعتقد أن الفكرة برمتها هي أننا نذهب بعيدًا عن الفن الجميل ، مثله”. لا يزال بإمكانه القيام بذلك ، كما يوضح ، لكنه سيفعل أشياء مفيدة أيضًا. يقول: “يمكنك بالفعل جعل الصور تعمل من أجلك ، وليس مجرد إلقاء نظرة عليها”.
إنها علامة واضحة على أن Openai يضع الأداة لاستخدامها أكثر من قبل المهنيين المبدعين: فكر في مصممي الجرافيك أو وكالات الإعلانات أو مديري وسائل التواصل الاجتماعي أو الرسامين. ولكن عند دخول هذا المجال ، فإن Openai لديه طريقان ، كلاهما صعب.
أولاً ، يمكن أن يستهدف المهنيين المهرة الذين استخدموا برامج طويلة مثل Adobe Photoshop ، وهو أيضًا”https://www.technologyreview.com/2024/03/26/1090129/how-adobes-bet-on-non-exploitative-ai-is-paying-off/”> الاستثمار بكثافة في أدوات الذكاء الاصطناعي التي يمكنها ملء الصور مع الذكاء الاصطناعي.
يقول David Raskino ، المؤسس والمدير الفني الرئيسي لشركة Irreverent Labs ، التي تعمل على توليد فيديو منظمة العفو الدولية: “لدى Adobe حقًا خنق في هذا السوق ، وهم يتحركون بسرعة كافية لدرجة أنني لا أعرف مدى ارتباط الناس بالتبديل”.
الخيار الثاني هو استهداف المصممين العاديين الذين توافدوا على أدوات مثل Canva (التي كانت تستثمر أيضًا في الذكاء الاصطناعي). هذا جمهور ربما لم يكن قد يحتاج إلى برامج تتطلب تقنيًا مثل Photoshop ولكنها ستستخدم المزيد من أدوات التصميم غير الرسمية لإنشاء صور مرئية. لتحقيق النجاح هنا ، سيتعين على Openai جذب الأشخاص بعيدًا عن المنصات التي تم تصميمها للتصميم على أمل أن تجعل سرعة وجودة مولد الصور الخاص بها تستحق ذلك (على الأقل ل جزء من عملية التصميم).
من الممكن أيضًا أن يتم استخدام الأداة ببساطة لأن العديد من مولدات الصور موجودة الآن: لإنشاء صور سريعة “جيدة بما يكفي” لمرافقة منشورات الوسائط الاجتماعية. ولكن مع تخطيط Openai Planning استثمارات ضخمة ، بما في ذلك المشاركة في مشروع Stargate بقيمة 500 مليار دولار لبناء مراكز بيانات جديدة على نطاق غير مسبوق ، من الصعب تخيل أن مولد الصور لن يلعب دورًا طموحًا في صنع الأموال.
بغض النظر عن ذلك ، فإن حقيقة أن مولد الصور الجديد من Openai قد دفع من خلال العقبات التقنية البارزة رفعت الشريط لشركات الذكاء الاصطناعى الأخرى. يقول راسينو إن تطهير تلك العقبات تطلب على الأرجح الكثير من البيانات المحددة للغاية ، مثل ملايين الصور التي يتم فيها عرض النص بشكل صحيح في الكثير من الزوايا والتوجهات المختلفة. سيتعين على مولدات الصور المتنافسة الآن مطابقة هذه الإنجازات لمواكبة ذلك.
يقول راسينو: “يجب أن تزداد وتيرة الابتكار هنا”.