أسقطت Deepseek فقط نموذج AI متعدد الوسائط مفتوح المصدر ، Janus-Pro-7B. إنه ترخيص MIT OpenSource.
إنه متعدد الوسائط (يمكن أن يولد صورًا) ويضرب Dall-E 3 من Openai والانتشار المستقر عبر معايير Geneval و DPG على مقاعد البدلاء.
هذا يأتي فوق جميع الضجيج R1.
هنا هو الرابط إلى Deepseek Janus 7b Github.
“async” ALT عرض=”840″ الارتفاع=”716″ Data-Eio=”l” البيانات القديمة src=”data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAA0gAAALMAQAAAAD2yq8MAAAAAnRSTlMAAHaTzTgAAABgSURBVHja7cGBAAAAAMOg+VNf4QBVAQAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAMBvKIcAAW3poDkAAAAASUVORK5CYII=” SRC=”https://nextbigfuture.s3.amazonaws.com/uploads/2025/01/Screenshot-2025-01-27-at-11.04.53-AM.jpg” srcset=”https://nextbigfuture.s3.amazonaws.com/uploads/2025/01/Screenshot-2025-01-27-at-11.04.53-AM.jpg 840w, https://nextbigfuture.s3.amazonaws.com/uploads/2025/01/Screenshot-2025-01-27-at-11.04.53-AM-300×256.jpg 300w, https://nextbigfuture.s3.amazonaws.com/uploads/2025/01/Screenshot-2025-01-27-at-11.04.53-AM-768×655.jpg 768w”>
الأخبار: Deepseek أسقطت للتو طراز AI مفتوح المصدر ، Janus-Pro-7B.
إنه متعدد الوسائط (يمكن أن يولد صورًا) ويضرب Dall-E 3 من Openai والانتشار المستقر عبر معايير Geneval و DPG على مقاعد البدلاء.
هذا يأتي فوق جميع الضجيج R1. 🐋 هو كوكين”https://t.co/yCmDQoke0f” الهدف=”_blank”> pic.twitter.com/ycmdqoke0f
– روان تشيونغ (rowancheung)”https://twitter.com/rowancheung/status/1883917681642070282?ref_src=twsrc%5Etfw” الهدف=”_blank” rel=”noopener”> 27 يناير 2025
هنا هي منطقة Huggingface لـ Deepseek Janus Pro 7b.
Janus-Pro هو إطار جديد للانحدار التلقائي يوحد الفهم والتوليد متعدد الوسائط. إنه يعالج القيود المفروضة على الأساليب السابقة عن طريق فصل الترميز المرئي إلى مسارات منفصلة ، مع الاستمرار في استخدام بنية محول موحدة واحدة للمعالجة. لا يخفف الفصل من الصراع بين أدوار المشفر البصري في الفهم والتوليد ، بل يعزز أيضًا مرونة الإطار. يتجاوز Janus-Pro النموذج الموحد السابق ويطابق أو يتجاوز أداء النماذج الخاصة بالمهمة. إن البساطة والمرونة العالية وفعالية Janus-Pro تجعلها مرشحًا قويًا للنماذج المتعددة الوسائط الموحدة من الجيل التالي.
ملخص النموذج
Janus-Pro هو فهم موحد وتوليد MLLM ، والذي يتخلص من الترميز البصري لفهم وتوليد متعدد الوسائط. تم إنشاء Janus-Pro على أساس القاعدة العميقة -lm-Llm-1.5b-base/deepseek-llm-7b.
من أجل الفهم متعدد الوسائط ، يستخدم Siglip-L كشرف رؤية ، والذي يدعم إدخال الصورة 384 × 384. لتوليد الصور ، يستخدم Janus-Pro tokenizer من هنا بمعدل Downsample قدره 16.
براين وانغ هو زعيم تفكير مستقبلي ومدون علوم شهير مع مليون قارئ شهريًا. تم تصنيف مدونته NextBigFuture.com في المدونة الأولى للأخبار العلمية. ويغطي العديد من التكنولوجيا والاتجاهات التخريبية بما في ذلك المساحة ، والروبوتات ، والذكاء الاصطناعي ، والطب ، والتكنولوجيا الحيوية المضادة للشيخوخة ، والتكنولوجيا النانوية.
يشتهر بتحديد التقنيات المتطورة ، وهو حاليًا مؤسس مشارك لبدء التشغيل وجمع التبرعات لشركات المرحلة المبكرة المحتملة. وهو رئيس البحث عن مخصصات الاستثمارات التكنولوجية العميقة ومستثمر ملاك في Space Angels.
كان متحدثًا متكررًا في الشركات ، وكان متحدثًا TEDX ، ومتحدثًا عن جامعة فرد وضيف في العديد من المقابلات للراديو والبودكاست. إنه منفتح على الخطابة والتقديم المشورة.