لقد حطم نظام Gemini AI من Google قواعد المعالجة المرئية، وإليك ما يعنيه ذلك بالنسبة لك

14 يناير 2025 الساعة 2:41 مساءً

الائتمان: VentureBeat مصنوع من Midjourney

“content”>

انضم إلى نشراتنا الإخبارية اليومية والأسبوعية للحصول على آخر التحديثات والمحتوى الحصري حول تغطية الذكاء الاصطناعي الرائدة في الصناعة.”https://venturebeat.com/newsletters/?utm_source=VBsite&utm_medium=desktopNav” نوع البيانات=”link” معرف البيانات=”https://venturebeat.com/newsletters/?utm_source=VBsite&utm_medium=desktopNav”> اعرف المزيد

جوجل”https://developers.googleblog.com/en/gemini-2-0-level-up-your-apps-with-real-time-multimodal-interactions/” الهدف=”_blank” rel=”noreferrer noopener”> الجوزاء الذكاء الاصطناعي لقد قلب مشهد الذكاء الاصطناعي رأسًا على عقب بهدوء، محققًا إنجازًا لم يكن من الممكن تصوره إلا قليلًا: المعالجة المتزامنة لتدفقات مرئية متعددة في الوقت الفعلي.

هذا الاختراق – الذي يسمح لـ Gemini ليس فقط بمشاهدة بث الفيديو المباشر ولكن أيضًا بتحليل الصور الثابتة في وقت واحد – لم يتم الكشف عنه من خلال منصات Google الرئيسية. وبدلا من ذلك، ظهر من تطبيق تجريبي يسمى “”https://huggingface.co/spaces/akhaliq/anychat” الهدف=”_blank” rel=”noreferrer noopener”> أني شات”.

وتؤكد هذه القفزة غير المتوقعة الإمكانات غير المستغلة لـ”https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/” الهدف=”_blank” rel=”noreferrer noopener”> عمارة الجوزاء، مما يدفع حدود قدرة الذكاء الاصطناعي على التعامل مع التفاعلات المعقدة ومتعددة الوسائط. لسنوات، كانت منصات الذكاء الاصطناعي مقتصرة على إدارة إما بث الفيديو المباشر أو الصور الثابتة، ولكن ليس كلاهما في وقت واحد. مع AnyChat، تم كسر هذا الحاجز بشكل حاسم.

قال أهسن خالق، قائد التعلم الآلي (ML) في Gradio ومبتكر AnyChat، في مقابلة حصرية مع VentureBeat: “حتى خدمة Gemini المدفوعة لا يمكنها القيام بذلك بعد”. “يمكنك الآن إجراء محادثة حقيقية مع الذكاء الاصطناعي أثناء قيامه بمعالجة بث الفيديو المباشر الخاص بك وأي صور تريد مشاركتها.”

يوضح أحد أعضاء فريق Gradio القدرة الجديدة لـ Gemini AI على معالجة الفيديو في الوقت الفعلي إلى جانب الصور الثابتة أثناء جلسة الدردشة الصوتية، مما يعرض إمكانية المعالجة المرئية متعددة الدفق في الذكاء الاصطناعي. (الائتمان: x.com /”https://x.com/freddy_alfonso_/status/1877837329416482903?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1877837329416482903%7Ctwgr%5E099510eb77cb66189b3d6a3b7edd0391ddc1775d%7Ctwcon%5Es1_&ref_url=https%3A%2F%2Fpublish.twitter.com%2F%3Furl%3Dhttps%3A%2F%2Ftwitter.com%2Ffreddy_alfonso_%2Fstatus%2F1877837329416482903″ الهدف=”_blank” rel=”noreferrer noopener”>@فريدي_ألفونسو_)

كيف يعيد برنامج Gemini من Google تعريف رؤية الذكاء الاصطناعي بهدوء

يكمن الإنجاز الفني وراء قدرة Gemini متعددة التدفق في تقدمها”https://blog.google/technology/ai/introducing-pathways-next-generation-ai-architecture/” الهدف=”_blank” rel=”noreferrer noopener”>الهندسة العصبية – بنية أساسية يستغلها AnyChat بمهارة لمعالجة مدخلات مرئية متعددة دون التضحية بالأداء. هذه القدرة موجودة بالفعل في”https://ai.google.dev/gemini-api/docs” الهدف=”_blank” rel=”noreferrer noopener”> واجهة برمجة تطبيقات الجوزاء، ولكن لم يتم توفيره في تطبيقات Google الرسمية للمستخدمين النهائيين.

في المقابل، فإن المتطلبات الحسابية للعديد من منصات الذكاء الاصطناعي، بما في ذلك”https://venturebeat.com/ai/openais-agentic-era-begins-chatgpt-tasks-offers-job-scheduling-reminders-and-more/”>الدردشةGPT، وقصرها على معالجة الدفق الواحد. على سبيل المثال، يقوم ChatGPT حاليًا بتعطيل بث الفيديو المباشر عند تحميل صورة. حتى التعامل مع خلاصة فيديو واحدة قد يؤدي إلى استنزاف الموارد، ناهيك عن دمجها مع تحليل الصور الثابتة.

إن التطبيقات المحتملة لهذا الاختراق هي تحويلية بقدر ما هي فورية. يمكن للطلاب الآن توجيه الكاميرا الخاصة بهم نحو مسألة حساب التفاضل والتكامل أثناء قيامهم بذلك”https://venturebeat.com/ai/google-deepmind-researchers-introduce-new-benchmark-to-improve-llm-factuality-reduce-hallucinations/”> تظهر الجوزاء كتاب مدرسي للإرشادات خطوة بخطوة. يمكن للفنانين مشاركة الأعمال قيد التنفيذ جنبًا إلى جنب مع الصور المرجعية، وتلقي تعليقات دقيقة في الوقت الفعلي حول التكوين والتقنية.

واجهة Gemini Chat، وهي عبارة عن منصة تجريبية تستفيد من Gemini AI من Google لبث الصوت والفيديو ومعالجة الصور المتزامنة في الوقت الفعلي، مما يعرض إمكاناتها لتطبيقات الذكاء الاصطناعي المتقدمة. (الائتمان: معانقة الوجه / غراديو)

التقنية الكامنة وراء اختراق الذكاء الاصطناعي متعدد التدفقات في Gemini

ما يجعل إنجاز AnyChat مميزًا ليس فقط التكنولوجيا نفسها ولكن الطريقة التي تتحايل بها على القيود”https://gemini.google.com/app” الهدف=”_blank” rel=”noreferrer noopener”>الانتشار الرسمي للجوزاء. لقد أصبح هذا الاختراق ممكنًا من خلال المخصصات المتخصصة التي تقدمها Google”https://ai.google.dev/gemini-api/” الهدف=”_blank” rel=”noreferrer noopener”> واجهة برمجة تطبيقات الجوزاء، مما يمكّن AnyChat من الوصول إلى الوظائف التي تظل غائبة في منصات Google الخاصة.

باستخدام هذه الأذونات الموسعة، يعمل AnyChat على تحسين آليات انتباه Gemini لتتبع وتحليل المدخلات المرئية المتعددة في وقت واحد – كل ذلك مع الحفاظ على تماسك المحادثة. يمكن للمطورين تكرار هذه الإمكانية بسهولة باستخدام بضعة أسطر من التعليمات البرمجية، كما يتضح من استخدام AnyChat لـ”https://www.gradio.app/” الهدف=”_blank” rel=”noreferrer noopener”> جراديو، منصة مفتوحة المصدر لبناء واجهات تعلم الآلة.

على سبيل المثال، يمكن للمطورين إطلاق منصة الدردشة المرئية الخاصة بهم والتي تعمل بنظام Gemini مع دعم تحميل الصور باستخدام مقتطف التعليمات البرمجية التالي:

يتيح مقتطف كود Gradio البسيط للمطورين إنشاء واجهة مدعومة من Gemini تدعم بث الفيديو وتحميل الصور في وقت واحد، مما يعرض إمكانية الوصول إلى أدوات الذكاء الاصطناعي المتقدمة.
(الائتمان: معانقة الوجه / غراديو)

تسلط هذه البساطة الضوء على أن AnyChat ليس مجرد عرض لإمكانيات Gemini، ولكنه مجموعة أدوات للمطورين الذين يتطلعون إلى إنشاء تطبيقات مخصصة للذكاء الاصطناعي تدعم الرؤية.

ما يجعل إنجاز AnyChat مميزًا ليس فقط التكنولوجيا نفسها، ولكن الطريقة التي تتحايل بها على القيود”https://gemini.google.com/app”>الانتشار الرسمي للجوزاء. أصبح هذا الاختراق ممكنًا من خلال السماحات المتخصصة التي قدمها فريق Gemini من Google، مما مكن AnyChat من الوصول إلى الوظائف التي تظل غائبة في الأنظمة الأساسية الخاصة بشركة Google.

“ميزة الفيديو في الوقت الحقيقي في”https://aistudio.google.com/prompts/new_chat” الهدف=”_blank” rel=”noreferrer noopener”> استوديو جوجل للذكاء الاصطناعي قال خالق لـ VentureBeat: “لا أستطيع التعامل مع الصور التي تم تحميلها أثناء البث”. “لم تقم أي منصة أخرى بتنفيذ هذا النوع من المعالجة المتزامنة في الوقت الحالي.”

لم يكن نجاح AnyChat مجرد حادث بسيط. عمل مطورو النظام الأساسي بشكل وثيق مع البنية التقنية لـ Gemini لتوسيع حدودها. ومن خلال القيام بذلك، فقد كشفوا عن جانب من جوانب الجوزاء لم تستكشفه حتى أدوات Google الرسمية بعد.

سمح هذا النهج التجريبي لـ AnyChat بالتعامل مع التدفقات المتزامنة للفيديو المباشر والصور الثابتة، مما أدى بشكل أساسي إلى كسر “حاجز البث الفردي”. والنتيجة هي منصة تبدو أكثر ديناميكية وبديهية وقدرة على التعامل مع حالات الاستخدام في العالم الحقيقي بشكل أكثر فعالية من منافسيها.

لماذا تُغير المعالجة المرئية المتزامنة قواعد اللعبة؟

تمتد الآثار المترتبة على قدرات Gemini الجديدة إلى ما هو أبعد من الأدوات الإبداعية وتفاعلات الذكاء الاصطناعي غير الرسمية. تخيل أن متخصصًا طبيًا يُظهر للذكاء الاصطناعي أعراضًا حية للمريض وفحوصات تشخيصية تاريخية في نفس الوقت. يمكن للمهندسين مقارنة أداء المعدات في الوقت الفعلي مع المخططات الفنية، وتلقي ردود فعل فورية. يمكن لفرق مراقبة الجودة مطابقة مخرجات خط الإنتاج مع المعايير المرجعية بدقة وكفاءة غير مسبوقة.

في التعليم، الإمكانات تحويلية. يمكن للطلاب استخدام برنامج Gemini في الوقت الفعلي لتحليل الكتب المدرسية أثناء العمل على حل مشكلات الممارسة، وتلقي دعم مدرك للسياق يعمل على سد الفجوة بين بيئات التعلم الثابتة والديناميكية. بالنسبة للفنانين والمصممين، فإن القدرة على عرض مدخلات مرئية متعددة في وقت واحد تفتح آفاقًا جديدة للتعاون الإبداعي والتعليقات.

ماذا يعني نجاح AnyChat بالنسبة لمستقبل ابتكار الذكاء الاصطناعي

في الوقت الحالي، يظل AnyChat منصة تجريبية للمطورين، ويعمل بحدود معدلات موسعة يمنحها مطورو Gemini. ومع ذلك، فإن نجاحه يثبت أن رؤية الذكاء الاصطناعي المتزامنة ومتعددة التدفق لم تعد طموحًا بعيدًا – إنها حقيقة حالية، وجاهزة للتبني على نطاق واسع.

يثير ظهور AnyChat أسئلة استفزازية. لماذا لم يتضمن الإصدار الرسمي لـ Gemini هذه الإمكانية؟ هل هو سهو أم اختيار متعمد في تخصيص الموارد، أم إشارة إلى أن المطورين الأصغر والأكثر مرونة يقودون الموجة التالية من الابتكار؟

مع تسارع سباق الذكاء الاصطناعي، أصبح الدرس المستفاد من AnyChat واضحًا: قد لا تأتي أهم التطورات دائمًا من مختبرات الأبحاث المترامية الأطراف التابعة لعمالقة التكنولوجيا. وبدلاً من ذلك، قد تنشأ هذه الابتكارات من مطورين مستقلين يرون إمكانات التقنيات الحالية ويجرؤون على دفعها إلى الأمام.

مع إثبات بنية Gemini الرائدة الآن قدرتها على معالجة التدفقات المتعددة، فإن المسرح مهيأ لعصر جديد من تطبيقات الذكاء الاصطناعي. لا يزال من غير المؤكد ما إذا كانت Google ستدمج هذه الإمكانية في منصاتها الرسمية. ومع ذلك، هناك شيء واحد واضح: أصبحت الفجوة بين ما يمكن أن يفعله الذكاء الاصطناعي وما يفعله رسميًا أكثر إثارة للاهتمام.

رؤى يومية حول حالات استخدام الأعمال باستخدام VB Daily

إذا كنت ترغب في إثارة إعجاب رئيسك في العمل، فإن VB Daily يلبي احتياجاتك. نقدم لك السبق الصحفي الداخلي حول ما تفعله الشركات باستخدام الذكاء الاصطناعي التوليدي، بدءًا من التحولات التنظيمية وحتى عمليات النشر العملية، حتى تتمكن من مشاركة الرؤى لتحقيق أقصى عائد على الاستثمار.

اقرأ لدينا”http://venturebeat.com/terms-of-service/”>سياسة الخصوصية

شكرا للاشتراك. تحقق من المزيد”http://venturebeat.com/newsletters/”> النشرات الإخبارية VB هنا.

حدث خطأ.

اقرأ المزيد

لقد حطم نظام Gemini AI من Google قواعد المعالجة المرئية، وإليك ما يعنيه ذلك بالنسبة لك

كيف يعيد برنامج Gemini من Google تعريف رؤية الذكاء الاصطناعي بهدوء

التقنية الكامنة وراء اختراق الذكاء الاصطناعي متعدد التدفقات في Gemini

لماذا تُغير المعالجة المرئية المتزامنة قواعد اللعبة؟

ماذا يعني نجاح AnyChat بالنسبة لمستقبل ابتكار الذكاء الاصطناعي

Reactions

ردود الفعل