من فضلك تسجيل الدخول أو تسجيل لتفعل ذلك.

في عالم الذكاء الاصطناعي سريع التطور، تُعد تكلفة الرموز المميزة المدخلة لنماذج اللغة الكبيرة مثل Claude Code من أبرز التحديات التي تواجه المطورين والشركات. تخيل أن تتمكن من عرض سياق ضخم – مثل موجهات النظام، ومستندات الأدوات، وسجل الأوامر – كصور بدلاً من نصوص، وبالتالي تقليل عدد الرموز المميزة المطلوبة بشكل كبير. هذا هو بالضبط ما يحققه pxpipe، والذي يعد بمثابة حل مبتكر لخفض التكاليف وتحسين الكفاءة.

كيف يغير pxpipe قواعد اللعبة؟

تكمن الفكرة المحورية في أن تكلفة الرمز المميز للصورة تتحدد بأبعاد البكسل الخاصة بها، وليس بكمية النص الذي تحتويه. هذا يعني أن pxpipe يستطيع حزم محتوى كثيف، مثل الأكواد البرمجية، بيانات JSON، ومخرجات الأدوات، بمعدل يصل إلى 3.1 حرفًا لكل رمز مميز للصورة، مقارنةً بحوالي 1 حرف لكل رمز مميز نصي في سيناريوهات استخدام Claude Code الفعلية. يعمل pxpipe كوكيل محلي يستغل هذه الثغرة، حيث يقوم بإعادة كتابة الأجزاء الكبيرة من طلبك – مثل موجه النظام، ومستندات الأداة، والسجل الأقدم – إلى ملفات PNG مضغوطة قبل أن يغادر الطلب جهازك.

وفورات هائلة وتأثير مباشر

الوفورات التي يحققها pxpipe تعتمد على حجم العمل، فهو يتفوق في المحتوى الغني بالرموز المميزة، بينما يترك الطلبات المتفرقة أو الصغيرة دون تغيير. النتيجة الأولية والمستمرة هي تخفيض كبير في رموز الإدخال. على سبيل المثال، يمكن لمطالبات النظام الكثيفة ومستندات الأدوات والسجل أن تُدخل كصور مضغوطة، حيث يتم تحويل ما يقارب 25 ألف رمز نصي إلى حوالي 2.7 ألف رمز مميز للصور. يتم قياس كل طلب بناءً على عدد الرموز المميزة الفعلي.

الجانب المالي لهذه الوفورات مذهل، فبأسعار قائمة Fable الحالية، يؤدي هذا التخفيض في الرموز المميزة إلى تخفيض إجمالي في الفاتورة يتراوح بين 59% و70%، وقد يصل إلى 72%-74% للطلبات المضغوطة فعليًا. ومع ذلك، من المهم التركيز على عدد الرموز المميزة بدلاً من الدولارات، لأن أسعار القائمة يمكن أن تتغير، بينما يظل عدد الرموز المميزة هو المقياس الحقيقي للكفاءة.

تجارب الأداء والإثباتات العملية

عرض Fable 5 التوضيحي (قراءة مثالية بنسبة 100%)

في عرض توضيحي لـ Fable 5، أظهرت كلتا النسختين (العادية و pxpipe) أداءً ممتازًا. كانت Fable قادرة على قراءة المحتوى المصور بوضوح تام، بينما واجه نموذج Opus صعوبة في قراءة بعض العبارات المصورة. حقق ذراع pxpipe دقة 100% في حساب الرموز المميزة لـ 39 ملف حشو مصور، مع توفير كبير في التكلفة. كانت إجماليات الجلسة بعد العرضين: 42.21 دولارًا للنسخة العادية مع سياق ممتلئ بنسبة 96%، مقابل 6.06 دولارًا لذراع pxpipe مع توفير كبير في السياق.

عرض Opus 4.8 التوضيحي (معطل افتراضيًا)

أظهرت التجارب على Opus 4.8 أن كلا الذراعين ينجحان في إصلاح مجموعة الاختبارات الفاشلة، مع إظهار pxpipe لتخفيض كبير في حجم الطلب وعدد الرموز المميزة. ومع ذلك، عند التعامل مع سياق ملف كبير (40 ملفًا، حوالي 382 ألف رمز مميز) وسؤال يتطلب قراءة محتوى مصور، لم يتمكن pxpipe على Opus من قراءة هذا المحتوى المصور، مما يؤكد أن القيم الدقيقة يجب أن تظل نصًا.

تجربة pxpipe في 30 ثانية

يمكنك تجربة pxpipe بسهولة عبر الأوامر التالية:

npx pxpipe-proxy # يعمل الوكيل على 127.0.0.1:47821

ANTHROPIC_BASE_URL=http://localhost:47821 claude # وجّه Claude Code إليه

للوصول إلى لوحة تحكم حية تعرض الرموز المميزة المحفوظة وإحصائيات الجلسة وتحويلات النص إلى صور، افتح http://127.0.0.1:47821/. لا يتغير شيء في تجربتك، حيث يقوم pxpipe بضغط طلبك فقط (السياق الذي ترسله)، ولا يلمس مخرجات النموذج أبدًا. تبقى التحولات الأخيرة نصًا، بينما يتم تصوير موجه النظام ومستندات الأداة والسجل المجمع الأقدم.

الجزء الصادق: قيود مهمة يجب معرفتها

من المهم فهم أن pxpipe هو حل فقدان للمعلومات في جوهره، وليس تخزينًا بلا فقدان. في اختبار دقيق لاستدعاء سلاسل سداسية مكونة من 12 حرفًا داخل محتوى مصور كثيف، عادت النتائج بنسبة 0/15 في Opus و13/15 في Fable 5. وضع الفشل هو ما يسمى بـ ‘المحادثة الصامتة’: قيمة خاطئة معقولة وليست خطأ. لذلك، يجب أن يظل أي شيء تحتاجه بالبايت الدقيق (مثل المعرفات، التجزئات، الأسرار، الأرقام الدقيقة) نصًا. هذا ينطبق على التحولات الأخيرة، ولم يتم بعد إنشاء حارس مخصص للمخاطر الحرفية.

للاستدعاءات الدقيقة، يقوم pxpipe بتصوير طلبات Fable فقط (باستخدام PXPIPE_MODELS=claude-fable-5)، لذا فإن أي وكيل فرعي يستخدم نموذجًا غير Fable يمرره كنص. هذا يوفر ‘فتحة هروب’ للعمل الذي يتطلب قيمًا دقيقة بالبايت.

مقاييس الأداء الموثوقة

تم قياس pxpipe باستخدام مسائل أرقام عشوائية جديدة لضمان عدم حفظ النموذج للإجابات، وأظهرت النتائج الآتي:

  • الحساب الروائي (claude-fable-5): 100% دقة لكل من النص و pxpipe، مع توفير 38% في الرموز المميزة.
  • الحساب الروائي (claude-opus-4-8): 100% دقة للنص، 93% لـ pxpipe، مع توفير 38% في الرموز المميزة.
  • استدعاء الملخص A/B (القرارات، القيم، المسارات، الأسماء، النفي، مع المشتتات، جلسات من 15 ألف إلى 45 ألف حرف) الخرافة 5: 98/98 دقة لكل من النص و pxpipe.
  • تتبع الحالة (القيمة المتغيرة 3x، النهائي/الأول/العدد) الخرافة 5: 18/18 دقة لكل من النص و pxpipe.
  • الغموض حول الحقائق التي لم تُذكر مطلقًا (الأدنى هو الأفضل) الخرافة 5: 0/16 لكل من النص و pxpipe.
  • استدعاء سداسي عشري مكون من 12 حرفًا، عرض كثيف، Opus: 15/15 للنص، 0/15 لـ pxpipe.
  • استدعاء سداسي عشري مكون من 12 حرفًا، عرض كثيف، الخرافة 5: 13/15 لـ pxpipe.

SWE-bench Lite التجريبي (جودة المهمة الشاملة)

تم حل 10 حالات من SWE-bench Lite باستخدام Claude Code و Fable 5، ومرت جميعها بنجاح (10/10) لكل من وضع التشغيل (pxpipe ON) ووضع الإيقاف (pxpipe OFF). الأهم من ذلك، حقق وضع pxpipe تخفيضًا بنسبة 65% في حجم الطلب، مما يوضح الكفاءة دون المساس بالجودة.

SWE-bench Pro (أصعب وأفق طويل)

في 19 زوجًا مكتملًا من اختبارات SWE-bench Pro، تم حل 14/19 حالة في وضع pxpipe ON مقارنة بـ 15/19 في وضع pxpipe OFF، مع تخفيض بنسبة 60% في حجم الطلب. وافقت الأحكام في 18/19 حالة، مما يشير إلى أن الاختلاف البسيط في عدد الحلول كان نتيجة لتغير في عوامل التشغيل وليس بسبب الضغط.

الأسئلة المتكررة

هل الوفورات شاملة أم تقتصر على طلبات معينة؟

الوفورات هي من النهاية إلى النهاية، وتشمل الفاتورة بأكملها. على عكس بعض أدوات الضغط التي تعلن عن توفير فقط في شريحة الإدخال التي تلمسها، يأخذ pxpipe في الاعتبار جميع طلبات الإنتاج، بما في ذلك الطلبات الصغيرة التي يتركها دون تغيير، وكتابة وقراءة ذاكرة التخزين المؤقت، وجميع رموز الإخراج التي لا يضغطها الوكيل. في عينة مكونة من 13,709 طلبًا، بلغ التوفير 59%، وارتفع إلى حوالي 70% لـ 8,904 طلبات مضغوطة لاحقًا. يعتمد الرقم الدقيق على عبء العمل الخاص بك.

كيف يتم قياس هذه الوفورات؟

لكل طلب POST على /v1/messages، يقوم الوكيل بإجراء استكشاف مجاني لـ count_tokens على الجسم الأصلي غير المضغوط بالتوازي مع الطلب الفعلي، ويقرأ استخدام Anthropic الذي يتم إصدار فاتورة به فعليًا. يتم تسجيل كلاهما في نفس الصف في ~/.pxpipe/events.jsonl. تعتمد تحويلات الدولار على نسب قائمة Fable 5.

ما الذي يضغطه pxpipe بالضبط؟

يضغط pxpipe ثلاثة أنواع من كتل المدخلات، كل منها يخضع لبوابة الربحية:

  • أجسام tool_result الكبيرة (قراءات الملفات، مخرجات الأوامر، السجلات) التي تتجاوز حوالي 6 آلاف حرف من المحتوى الكثيف بالرموز.
  • السجل الأقدم المنهار: يتم إعادة عرض التحولات وراء الذيل المباشر كصفحات صور، بينما تبقى التحولات الأخيرة نصًا دائمًا.
  • موجه النظام الثابت ولوحة مستندات الأداة.

كل شيء آخر يمر دون تغيير: رسائلك، والتحولات الأخيرة، ومخرجات النموذج، والنثر المتناثر، وأي شيء صغير جدًا بحيث لا يحقق وفرة.

هل سبق أن فشل في حالات حقيقية خارج المعايير؟

نعم، حدث ذلك مرة واحدة في الأسبوع من الاستخدام اليومي: يتذكر النموذج اسم شخص من سجل الدردشة المصور ويخطئ في تذكره. لا يوجد خطأ، مجرد اسم خاطئ ومعقول. هذا هو وضع الفشل الموثق: السلاسل الدقيقة في المحتوى المصور ليست آمنة بالبايت. تتسامح جلسات البرمجة مع هذا لأن الوكيل يعيد قراءة الملفات قبل التحرير؛ لا يوجد مثل هذا التحقق في استدعاء الدردشة النقي.

كيف يعمل pxpipe؟

يعترض الوكيل طلبات /v1/messages، ويعيد كتابة السجل المجمع المؤهل إلى كتل صور، ويربطها مرة أخرى بطريقة صديقة للتخزين المؤقت، ثم يعيد توجيهها. يبلغ سجل الأحداث لكل طلب إلى ~/.pxpipe/events.jsonl.

من الناحية الاقتصادية، تبلغ تكلفة الصورة بحجم 1928 × 1928 حوالي 4,761 رمزًا مميزًا للرؤية، وتحمل ما يصل إلى حوالي 92,000 حرف (حوالي 48,000 رمز نصي بالكثافة المرصودة). هذا يعني أن النص العادي يكون أرخص فقط عندما يتم تشغيله بكثافة تزيد عن 19 حرفًا لكل رمز مميز. عادة ما تكون نصوص Claude Code أقل بكثير من ذلك (لوحظ 1.91 حرفًا لكل رمز مميز).

استخدام المكتبة (بدون وكيل)

يمكن استخدام نفس المحرك الخاص بـ pxpipe كمكتبة مستقلة، مما يتيح لك عرض النص إلى صور PNG مباشرة أو تشغيل التحويل الكامل الآمن لذاكرة التخزين المؤقت. على سبيل المثال، يمكنك استخدام وظائف مثل renderTextToPngs لتحويل النصوص إلى صور، أو transformAnthropicMessages لتحويل رسائل Anthropic. توفر المكتبة خيارات مثل options.keepSharp(block) لتثبيت كتل معينة كنص وتجاوز التصوير، و options.emitRecoverable لإرجاع النسخ الأصلية للكتل المصورة. وقت التشغيل هو JavaScript خالص (Node و Edge/Workers)، وتفاصيل واجهة برمجة التطبيقات الكاملة متوفرة في src/core/index.ts.

القيود

  • فقدان للمعلومات: لا يمكن الاعتماد على الاسترجاع الحرفي من الصور للحصول على دقة البايت.
  • زمن استجابة العرض: يضيف تشفير PNG وقتًا للطلبات الكبيرة قبل مغادرتها، على الرغم من أن النموذج يستوعب رموزًا أقل مما يوازن ذلك جزئيًا. تتدفق الردود بشكل طبيعي.
  • دعم الأحرف: تم اختبار ASCII/Latin-1 جيدًا؛ بينما يعمل CJK بشكل متحفظ.
  • وقت التشغيل: هو JS خالص (Node و Edge/Workers).
  • دعم النموذج: يدعم Claude Fable 5 فقط (افتراضيًا).

خريطة الطريق والتطلعات المستقبلية

تتضمن خطط التطوير المستقبلية لـ pxpipe المجالات التالية (وهي فرضيات وليست ادعاءات مؤكدة بعد):

  • حروف رسومية أوضح: تهدف لتحسين وضوح الخط لتقليل أخطاء القراءة وزيادة كفاءة الضغط.
  • سياق أكثر فعالية: القدرة على حزم المزيد من المحتوى الحقيقي في نافذة مليون رمز مميز، مما قد يسمح للمهام التي تتطلب حوالي 2 مليون رمز مميز في السياق الأولي بالعمل ضمن حدود Fable.
  • نص أقل نشاطًا ونموذج أوضح: فرضية أن السياقات الطويلة تقلل من التفكير عندما تمتلئ. يؤدي التصوير القديم إلى تقليص ما يقرأه النموذج بنشاط مع إبقائه في متناول اليد، مما قد يؤدي إلى دقة أفضل للمهام الطويلة.

الهدف هو سياق فعال أطول ونموذج أوضح للمهام الطويلة، من نفس نموذج Fable 5.

الترخيص

pxpipe مرخص بموجب ترخيص MIT.

رحلة ماكسيس: بناء عوالم افتراضية تتجاوز الخيال - الجزء الأول: SimEverything
تم تحديث الكمبيوتر اللوحي Amazon Fire HD 10 بذاكرة وصول عشوائي أكبر

Reactions

0
0
0
0
0
0
بالفعل كان رد فعل لهذا المنصب.

ردود الفعل