“الويب عبارة عن مجموعة من البيانات، ولكنها في حالة من الفوضى،” says Exa cofounder and CEO Will Bryk. “يوجد فيديو لجو روغان هنا، و الأطلسي المادة هناك. ليس هناك منظمة. لكن الحلم هو أن تبدو شبكة الإنترنت وكأنها قاعدة بيانات”.
تستهدف مجموعات الويب المستخدمين المتميزين الذين يحتاجون إلى البحث عن أشياء لا تجيد محركات البحث الأخرى العثور عليها، مثل أنواع الأشخاص أو الشركات. اسألها عن “الشركات الناشئة التي تصنع أجهزة مستقبلية” وستحصل على قائمة بشركات محددة طويلة بالمئات بدلاً من روابط الوصول أو الفشل لصفحات الويب التي تذكر هذه المصطلحات. يقول بريك إن شركة Google لا تستطيع فعل ذلك: “هناك الكثير من حالات الاستخدام القيمة للمستثمرين أو مسؤولي التوظيف أو حقًا أي شخص يريد أي نوع من البيانات من الويب.
وقد تحركت الأمور بسرعة منذ ذلك الحين مراجعة تكنولوجيا معهد ماساتشوستس للتكنولوجيا اندلعت الأخبار في عام 2021 بأن باحثي Google كانوا يستكشفون”https://www.technologyreview.com/2021/05/14/1024918/language-models-gpt3-search-engine-google/”> استخدام نماذج اللغة الكبيرة في نوع جديد من محركات البحث. وسرعان ما جذبت الفكرة”https://www.technologyreview.com/2022/03/29/1048439/chatbots-replace-search-engine-terrible-idea/”> انتقادات شرسة. لكن شركات التكنولوجيا لم تهتم كثيرًا. وبعد ثلاث سنوات، تتنافس شركات عملاقة مثل جوجل ومايكروسوفت مع مجموعة من الوافدين الجدد مثل Perplexity وOpenAI، التي أطلقت ChatGPT Search في أكتوبر، للحصول على جزء من هذا الاتجاه الجديد المثير.
لا تحاول شركة Exa (حتى الآن) التفوق على أي من تلك الشركات. وبدلا من ذلك، يقترح شيئا جديدا. تقوم معظم شركات البحث الأخرى بتغليف نماذج لغوية كبيرة حول محركات البحث الموجودة، وذلك باستخدام النماذج لتحليل استعلام المستخدم ثم تلخيص النتائج. لكن محركات البحث نفسها لم تتغير كثيرًا. ولا تزال شركة Perplexity توجه استفساراتها إلى بحث Google أو Bing، على سبيل المثال. فكر في محركات بحث الذكاء الاصطناعي اليوم وكأنها شطيرة تحتوي على خبز طازج ولكن حشوة قديمة.
أكثر من الكلمات الرئيسية
توفر شركة Exa للمستخدمين قوائم مألوفة من الروابط ولكنها تستخدم التقنية الكامنة وراء نماذج اللغات الكبيرة لإعادة اختراع كيفية إجراء البحث نفسه. إليك الفكرة الأساسية: يعمل Google عن طريق الزحف إلى الويب وإنشاء فهرس واسع من الكلمات الرئيسية التي تتم مطابقتها بعد ذلك مع استعلامات المستخدمين. يقوم Exa بالزحف إلى الويب وترميز محتويات صفحات الويب بتنسيق يُعرف باسم التضمينات، والتي يمكن معالجتها بواسطة نماذج لغوية كبيرة.
تقوم عمليات التضمين بتحويل الكلمات إلى أرقام بطريقة تجعل الكلمات ذات المعاني المتشابهة أرقامًا ذات قيم مماثلة. في الواقع، يتيح هذا لـ Exa التقاط معنى النص الموجود على صفحات الويب، وليس فقط الكلمات الرئيسية.
تستخدم نماذج اللغة الكبيرة التضمينات للتنبؤ بالكلمات التالية في الجملة. يتنبأ محرك بحث Exa بالرابط التالي. اكتب “الشركات الناشئة التي تصنع أجهزة مستقبلية” وسيأتي النموذج بروابط (حقيقية) قد تتبع هذه العبارة.
ومع ذلك، فإن نهج Exa يأتي بتكلفة. يعد تشفير الصفحات بدلاً من فهرسة الكلمات الرئيسية أمرًا بطيئًا ومكلفًا. يقول بريك إن شركة Exa قامت بتشفير نحو مليار صفحة ويب. وهذا رقم صغير جدًا مقارنة بـ Google، الذي قام بفهرسة حوالي تريليون. لكن بريك لا يرى أن هذا يمثل مشكلة، حيث يقول: “ليس عليك تضمين الويب بالكامل حتى تكون مفيدًا”. (حقيقة ممتعة: كلمة “exa” تعني 1 متبوعًا بـ 18 0 وكلمة “googol” تعني 1 متبوعًا بـ 100 0.)
Websets بطيء جدًا في إرجاع النتائج. قد يستغرق البحث في بعض الأحيان عدة دقائق. لكن بريك يدعي أن الأمر يستحق ذلك. ويقول: “بدأ الكثير من عملائنا يطلبون، على سبيل المثال، آلاف النتائج، أو عشرات الآلاف”. “وكانوا على ما يرام في الذهاب للحصول على فنجان من القهوة والعودة إلى قائمة ضخمة.”
يقول أندرو جاو، طالب علوم الكمبيوتر في جامعة ستانفورد والذي استخدم محرك البحث: “أجد Exa مفيدًا للغاية عندما لا أعرف بالضبط ما أبحث عنه”. “على سبيل المثال، يعمل الاستعلام “منشور مدونة مثير للاهتمام حول ماجستير إدارة الأعمال في مجال التمويل” بشكل أفضل على Exa مقارنةً بـ Perplexity.” لكنهم جيدون في أشياء مختلفة، كما يقول: “أنا أستخدم كليهما لأغراض مختلفة”.
يقول مايك تونغ، الرئيس التنفيذي لشركة Diffbot، وهي شركة تستخدم الرسوم البيانية المعرفية للبناء: “أعتقد أن عمليات التضمين هي طريقة رائعة لتمثيل كيانات مثل الأشخاص والأماكن والأشياء في العالم الحقيقي”.”https://www.technologyreview.com/2020/09/04/1008156/knowledge-graph-ai-reads-web-machine-learning-natural-language-processing/”>نوع آخر من محركات البحث. لكنه يشير إلى أنك تفقد الكثير من المعلومات إذا حاولت تضمين جمل كاملة أو صفحات من النص: “تمثيل الحرب والسلام نظرًا لأن التضمين الفردي سيفقد تقريبًا جميع الأحداث المحددة التي حدثت في تلك القصة، مما يترك فقط إحساسًا عامًا بنوعها وفترتها.
يقر بريك بأن Exa هو عمل قيد التقدم. ويشير إلى قيود أخرى أيضًا. Exa ليس جيدًا مثل محركات البحث المنافسة إذا كنت تريد فقط البحث عن معلومة واحدة، مثل اسم صديق تايلور سويفت أو من هو ويل بريك: “سوف يعطي الكثير من الأشخاص الذين يبدون بولنديين، لأن يقول: “اسم عائلتي بولندي والتضمينات سيئة في مطابقة الكلمات الرئيسية الدقيقة”.
في الوقت الحالي، تتغلب Exa على هذه المشكلة عن طريق إعادة الكلمات الرئيسية إلى المزيج عند الحاجة إليها. لكن بريك متفائل: “نحن نغطي الفجوات في طريقة التضمين حتى تصبح طريقة التضمين جيدة جدًا لدرجة أننا لا نحتاج إلى تغطية الفجوات”.