من فضلك تسجيل الدخول أو تسجيل لتفعل ذلك.
“text”>

أسقطت Deepseek فقط نموذج AI متعدد الوسائط مفتوح المصدر ، Janus-Pro-7B. إنه ترخيص MIT OpenSource.

إنه متعدد الوسائط (يمكن أن يولد صورًا) ويضرب Dall-E 3 من Openai والانتشار المستقر عبر معايير Geneval و DPG على مقاعد البدلاء.

هذا يأتي فوق جميع الضجيج R1.

هنا هو الرابط إلى Deepseek Janus 7b Github.

“async” ALT عرض=”840″ الارتفاع=”716″ Data-Eio=”l” البيانات القديمة src=”data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAA0gAAALMAQAAAAD2yq8MAAAAAnRSTlMAAHaTzTgAAABgSURBVHja7cGBAAAAAMOg+VNf4QBVAQAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAMBvKIcAAW3poDkAAAAASUVORK5CYII=” SRC=”https://nextbigfuture.s3.amazonaws.com/uploads/2025/01/Screenshot-2025-01-27-at-11.04.53-AM.jpg” srcset=”https://nextbigfuture.s3.amazonaws.com/uploads/2025/01/Screenshot-2025-01-27-at-11.04.53-AM.jpg 840w, https://nextbigfuture.s3.amazonaws.com/uploads/2025/01/Screenshot-2025-01-27-at-11.04.53-AM-300×256.jpg 300w, https://nextbigfuture.s3.amazonaws.com/uploads/2025/01/Screenshot-2025-01-27-at-11.04.53-AM-768×655.jpg 768w”>

الأخبار: Deepseek أسقطت للتو طراز AI مفتوح المصدر ، Janus-Pro-7B.

إنه متعدد الوسائط (يمكن أن يولد صورًا) ويضرب Dall-E 3 من Openai والانتشار المستقر عبر معايير Geneval و DPG على مقاعد البدلاء.

هذا يأتي فوق جميع الضجيج R1. 🐋 هو كوكين”https://t.co/yCmDQoke0f” الهدف=”_blank”> pic.twitter.com/ycmdqoke0f

– روان تشيونغ (rowancheung)”https://twitter.com/rowancheung/status/1883917681642070282?ref_src=twsrc%5Etfw” الهدف=”_blank” rel=”noopener”> 27 يناير 2025

هنا هي منطقة Huggingface لـ Deepseek Janus Pro 7b.

Janus-Pro هو إطار جديد للانحدار التلقائي يوحد الفهم والتوليد متعدد الوسائط. إنه يعالج القيود المفروضة على الأساليب السابقة عن طريق فصل الترميز المرئي إلى مسارات منفصلة ، مع الاستمرار في استخدام بنية محول موحدة واحدة للمعالجة. لا يخفف الفصل من الصراع بين أدوار المشفر البصري في الفهم والتوليد ، بل يعزز أيضًا مرونة الإطار. يتجاوز Janus-Pro النموذج الموحد السابق ويطابق أو يتجاوز أداء النماذج الخاصة بالمهمة. إن البساطة والمرونة العالية وفعالية Janus-Pro تجعلها مرشحًا قويًا للنماذج المتعددة الوسائط الموحدة من الجيل التالي.

ملخص النموذج

Janus-Pro هو فهم موحد وتوليد MLLM ، والذي يتخلص من الترميز البصري لفهم وتوليد متعدد الوسائط. تم إنشاء Janus-Pro على أساس القاعدة العميقة -lm-Llm-1.5b-base/deepseek-llm-7b.

من أجل الفهم متعدد الوسائط ، يستخدم Siglip-L كشرف رؤية ، والذي يدعم إدخال الصورة 384 × 384. لتوليد الصور ، يستخدم Janus-Pro tokenizer من هنا بمعدل Downsample قدره 16.

اقرأ المزيد

تغرق العقود الآجلة في الولايات المتحدة حيث يزن المستثمرون تحدي الصين بالنسبة لنا في الذكاء الاصطناعي
باتريك ماهومز ، رئيس مدينة كانساس سيتي سوبر بول ، يواصلون تفتيت أرضية جديدة

Reactions

0
0
0
0
0
0
بالفعل كان رد فعل لهذا المنصب.

ردود الفعل