من فضلك تسجيل الدخول أو تسجيل لتفعل ذلك.
“c14746263″>

“http://www.notebookcheck.net/fileadmin/_processed_/f/c/csm_Nvidia_A100_GPU_Ampere_8f2266d821.jpg” تحميل=”lazy” أولوية الجلب=”high” العرض=”240″ الارتفاع=”180″ البديل=”An Nvidia A100 GPU (Image source: Nvidia)”>
وحدة معالجة الرسوميات Nvidia A100 (مصدر الصورة: Nvidia)

تستعد شركة DeepSeek لإحداث ثورة في تعلم الذكاء الاصطناعي من خلال نموذج ضغط التعرف الضوئي على الحروف (OCR) الجديد مفتوح المصدر. بفضل الترميز البصري المتقدم، يستطيع DeepSeek التعلم من أكثر من 200000 صفحة مستند يوميًا على وحدة معالجة الرسومات Nvidia A100 واحدة.

مع انتشار مراكز بيانات الذكاء الاصطناعي وتكاليف المعالجة المرتبطة بها، يقع العبء الآن على كفاءة الخوارزمية، ويبدو أنه لا يوجد نموذج لغوي يقوم بذلك بشكل أفضل من”http://www.notebookcheck.net/Free-open-source-DeepSeek-V3-2-Exp-AI-LLM-debuts-with-lower-compute-costs-helping-businesses-save-even-more-money.1135813.0.html” الهدف=”_self”> ديب سيك. نماذجها مفتوحة المصدر، والتدريب عليها يأتي بتكلفة أقل بكثير من تلك الموجودة في ChatGPT من OpenAI أو Gemini من Google.

يعد نموذج DeepSeek-OCR الذي تم الإعلان عنه حديثًا مثالًا رئيسيًا على كفاءة التعلم. وباستخدام التعيين البصري، يمكنه ضغط المستندات الطويلة للغاية عن طريق تحويلها إلى صور بدقة التعرف بنسبة 97% وبنسبة ضغط أقل من 10x.

باستخدام أداة التشفير ووحدة فك التشفير المتقدمة، يمكن تحويل أكثر من تسعة رموز مميزة مع نص المستند إلى رمز مرئي واحد، مما يقلل بشكل كبير من موارد الحوسبة اللازمة لمعالجة المحتوى. حتى عند نسبة ضغط 20x، يمكن لنظام DeepSeek-OCR الجديد تحقيق دقة التعرف البصري بنسبة 60%، وهو إنجاز غير مسبوق إلى حد ما.

بفضل خوارزميات ضغط الذكاء الاصطناعي الجديدة، يمكن لـ DeepSeek-OCR التعلم من النص العلمي أو التاريخي الذي تتم معالجته بواسطة شخص واحد”https://www.amazon.com/NVIDIA-Ampere-Graphics-Processor-Accelerator/dp/B08X13X6HF?tag=nbcnewsnet-20″ الهدف=”_blank” rel=”sponsored”> نفيديا A100 وحدة معالجة الرسومات لمركز البيانات بسرعة 200000 صفحة يوميًا. وبالتالي، يمكن لمجموعة A100 المكونة من 20 عقدة معالجة 33 مليون صفحة مستند يوميًا، مما يمثل نقلة نوعية في تعلم LLM المثقل بالنصوص. وفقًا لتصنيف OmniDocBench، يتفوق DeepSeek-OCR على الحلول الشائعة الأخرى مثل GOT-OCR2.0 أو MinerU2.0 بفارق ميل عندما يتعلق الأمر بعدد أقل من رموز الرؤية المستخدمة لكل صفحة.

يمكن لخوارزميات DeepEncoder الجديدة التعامل مع مجموعة من أحجام المستندات ودرجات الدقة دون التضحية بالسرعة أو الدقة، بينما يعتمد جهاز فك التشفير DeepSeek3B-MoE-A570M على ما يسمى ببنية خليط الخبراء التي توزع المعرفة عبر النماذج المتخصصة اللازمة لكل مهمة التعرف الضوئي على الحروف. ونتيجة لذلك، يستطيع DeepSeel-OCR معالجة المستندات المعقدة باستخدام الرسوم البيانية أو الصيغ العلمية أو الرسوم البيانية أو الصور، حتى عند كتابتها بعدة لغات.

ولتحقيق هذا النطاق والدقة، قامت DeepSeek بفحص 30 مليون صفحة بتنسيق المستندات المحمولة (PDF) مكتوبة بما يقرب من 100 لغة، والتي تضمنت كل فئة على حدة، بدءًا من الصحف والكتابة اليدوية العلمية وحتى الكتب المدرسية ورسائل الدكتوراه. ومع ذلك، في حين أن سرعة وكفاءة الترميز المرئي التي تم تحقيقها باستخدام نظام DeepSeek-OCR الجديد لا يمكن إنكارها، يبقى أن نرى ما إذا كان هذا سيؤدي إلى تحسين أداء نموذج اللغة عندما يتعلق الأمر بالاستدلال الفعلي عند مقارنته بنموذج الرمز المميز الحالي القائم على النص.

مقالات ذات صلة

دانيال زلاتيف، 22/10/2025 (التحديث: 22/10/2025)

اقرأ المزيد

تطلق PPDS جيلًا جديدًا من أجهزة تلفزيون Philips MediaSuite
الذكاء الاصطناعي في البنوك… مشروع سري لـ “OpenAI” لدخول عالم التحليل المالي

Reactions

0
0
0
0
0
0
بالفعل كان رد فعل لهذا المنصب.

ردود الفعل