هل أنت مستعد لجلب المزيد من الوعي لعلامتك التجارية؟ فكر في أن تصبح راعيًا لجولة AI Impact Tour. تعرف على المزيد حول الفرص هنا.
يلاحظ مصممو الجرافيك وأولئك الذين يعتمدون عليهم: هناك أداة جديدة يمكن أن تعطل المهنة إلى الأبد.
مُسَمًّى كول، الذي سمي على شرف هنري كول، المعترف به على أنه منشئ أول بطاقة عيد الميلاد الرسومية في عام 1843، تتيح الأداة الجديدة للمستخدمين كتابة فكرة مشروع تصميم رسومي – على سبيل المثال، “ملصق لحفل موسيقي قادم في عطلة الشتاء مع أشخاص يعزفون على الآلات الموسيقية بملابس دافئة وسط الثلوج المتساقطة” – والحصول على الذكاء الاصطناعي ليس فقط لإنشاء الصورة، بل أيضًا نص لدعمه مخبوز.
COLE هي في الواقع مزيج من نماذج الذكاء الاصطناعي المختلفة – بما في ذلك الإصدارات المضبوطة بدقة من Meta’s Llama2-13B، وDeepFloyd IF، وLLaVA1.5-13B (وهي في حد ذاتها نسخة مختلفة من Llama)، وGPT-4V – بالإضافة إلى الرسومات مفتوحة المصدر. العارض سكيا. تم تطويره من قبل فريق من 12 باحثًا في Microsoft Research Asia وجامعة بكين.
تم اختيار مجموعة النماذج المختلفة بسبب تعقيد التصميم الجرافيكي وندرة بيانات التدريب المتاحة على أحد التنسيقات الرئيسية في هذا المجال: ملفات .SVG. بدلاً من ذلك، توصل الباحثون إلى نهج مختلف: “دمج جميع عناصر SVG والزخارف الإضافية في طبقة صورة واحدة موحدة”، ثم جعل الذكاء الاصطناعي يستخرج طبقة الخلفية ويصفها في النص.
حدث VB
جولة تأثير الذكاء الاصطناعي
تواصل مع مجتمع الذكاء الاصطناعي للمؤسسة في جولة تأثير الذكاء الاصطناعي الخاصة بـ VentureBeat القادمة إلى مدينة قريبة منك!
قام فريق COLE بتدريب مصمم الخلفية AI على “100000 صورة تصميم رسومي خام عالية الجودة من الإنترنت.”
إطار عمل، وليس منتجًا…حتى الآن
على هذا النحو، يعتبر COLE بمثابة إطار عمل أكثر من كونه منتجًا في الوقت الحالي. لكن النتائج التي حصل عليها الفريق من التدريب والجمع بين منتجات الذكاء الاصطناعي المختلفة هذه في خدمة التصميم الجرافيكي كانت مذهلة للغاية: ببساطة كتابة مطالبات نصية، مثل المولدات الحالية الأخرى لتحويل النص إلى صورة مثل OpenAI’s DALL-E 3 أو Midjourney، تمكنت COLE من إنشاء تصميمات رسومية واضحة ومنظمة تجمع بين العناصر المرئية والنص المنمق.
المنتج الأخير ليس بالأمر السهل: كان النص المدمج في الصور يمثل تحديًا لمعظم مولدي فنون الذكاء الاصطناعي، بما في ذلك القادة مثل Midjourney وStable Diffusion. يمكن لـ DALL-E 3 إنتاج نص مدمج، لكنه ليس دقيقًا بنسبة 100%.
تصميمات تم إنشاؤها تلقائيًا مع نص قابل للتحرير وعناصر مرئية
والأكثر إثارة للإعجاب هو أن شركة COLE تنتج صورًا بها كتل مميزة قابلة للتحرير للنصوص والكائنات داخل الصورة.
يتيح ذلك لبرامج الذكاء الاصطناعي المتسلسلة إنتاج صورة من الصفر، وإذا لم تعجب المستخدم البشري النتيجة النهائية، فلن يتعين عليه العودة ومحاولة مراجعة التصميم بالكامل، ولا يتعين عليه تصديره إلى برنامج آخر مثل Adobe Photoshop أو InDesign لمسح عناصر معينة وإدخال عناصر جديدة.
يمكنهم القيام بذلك بشكل صحيح داخل إطار عمل COLE نفسه، من خلال النقر على مربع النص لتغيير النص المعروض أو الخط، بالإضافة إلى كتابة مطالبات جديدة لعناصر مرئية مختلفة، وتحويل حقيبة البقالة من صورة واقعية إلى رسم كاريكاتوري، على سبيل المثال. .
كما يصف الباحثون النظام في أ ورق تم نشره هذا الأسبوع على موقع الوصول المفتوح arXiv: “يجب أن يتطلب نظام إنشاء التصميم الجرافيكي عالي الجودة والقابل للتطوير الحد الأدنى من الجهد من المستخدمين، وإنتاج معلومات طباعة دقيقة وعالية الجودة لمجموعة متنوعة من الأغراض، وتوفير مساحة تحرير مرنة.”
مع COLE، لقد حققوا ذلك.
نتائج تنافسية وواعدة
والأكثر من ذلك، أظهر الباحثون أن النتائج التي تنشرها COLE هي “جودة تنافسية للغاية… حتى بالمقارنة مع أحدث إصدار من DALL·E 3.”
اختبر الباحثون COLE على 200 مشروع تصميم رسومي مختلف، بدءًا من الإعلانات وحتى العروض الترويجية للأحداث والمواد التسويقية، ونشروا جميع المطالبات التي استخدموها في جدول البيانات هنا.
بالإضافة إلى ذلك، COLE “يحقق أفضل جودة عند إنشاء أغلفة ورؤوس أو ملصقات”، وهو بالطبع أكثر قدرة من DALL-E 3 والمنافسين الآخرين عندما يتعلق الأمر بتحرير عناصر محددة داخل الصورة، مثل النص والكائنات المميزة.
ومع ذلك، فإن COLE ليست حلاً سحريًا للتصميم الجرافيكي – على الأقل، ليس بعد. لا يسمح النظام للمستخدمين بتغيير “ترتيب” أو موضع كتلة الطباعة الخاصة به، كما أنه لا يتضمن حتى الآن مواضع متعددة لكتل الطباعة، ويسمح فقط بلون واحد من الطباعة لكل صورة. ومع ذلك، كتب الباحثون أن “معالجة هذه القضايا هو الاتجاه الذي نود أن نتبعه في عملنا المستقبلي”.
يعتبر التصميم الجرافيكي الجيد أمرًا مفروغًا منه لدى الكثير من الناس، ولكن إذا تم تنفيذه بخبرة، فيمكن أن يكون فنًا في حد ذاته.
ولهذا السبب يجمع الناس ملصقات الأفلام والحفلات الموسيقية ويعلقونها في منازلهم ومكاتبهم – ليس فقط لتذكر التجارب الممتعة التي ربما حضروها، وإظهار أذواقهم أو ولاءاتهم، ولكن أيضًا لأن الملصقات المذكورة مبهجة من الناحية الجمالية وجميلة عند النظر إليها. وينطبق الشيء نفسه على التصاميم الرسومية الأكثر وظيفية، مثل تلك التي تظهر على لافتات الطرق أو لوحات الترخيص.
هل تهدد شركة COLE بطرد مصممي الجرافيك من العمل؟ نعم و لا. وقد صممه الباحثون خصيصًا لإنتاج صور ذات حقول قابلة للتحرير بحيث “يسمح للمستخدمين بمواصلة تحسين المخرجات، ودمج الخبرة البشرية عند الضرورة”، مما يشير إلى أن التدريب على التصميم الجرافيكي سيظل مفيدًا في الحصول على أفضل النتائج من إطار عمل الذكاء الاصطناعي.
ومع ذلك، فقد لاحظوا أيضًا أن “مهمة إنشاء التصميم الجرافيكي تتطلب عادةً درجة عالية من الخبرة المهنية لتطوير مطالبات فعالة.” بالمقارنة مع مولدات تحويل النص إلى صورة أخرى مثل DALL-E 3، والتي ذكرها الباحثون بالاسم، “نظام COLE الخاص بنا… قادر على إنشاء صور تصميم رسومي عالية الجودة بينما يتطلب فقط نية مستخدم بسيطة.”
وبعبارة أخرى: يبدو أن الباحثين يعتقدون أن مركز كول سيسمح بذلك بدون التدريب أو الخبرة في التصميم الجرافيكي لتكون قادرًا على إنشاء تصميمات عالية الجودة على قدم المساواة مع المحترفين المدربين.
بالطبع، تم بالفعل طرح نهج “أداة التصميم الجرافيكي للجماهير” هذا من قبل شركات أخرى، بما في ذلك أدوبي، ومؤخراً، كانفا. لذلك، يبدو أن COLE تمثل تهديدًا أكبر، أو ربما مجاملة (مثل ميزة) لتلك الشركات وعروضها.
في الوقت الحالي، COLE غير متاح للعامة، لكن الباحثين يقولون إن النسخة التجريبية متاحة قريبًا على صفحة الويب الخاصة بمشروع Github.
مهمة VentureBeat هو أن تكون ساحة مدينة رقمية لصانعي القرار التقنيين لاكتساب المعرفة حول تكنولوجيا المؤسسات التحويلية والمعاملات. اكتشف ملخصاتنا.