تحسين محركات البحث لقد قطعت شوطا طويلا منذ أيام حشو الكلمات الرئيسية. تعتمد محركات البحث الحديثة مثل Google الآن على المعالجة المتقدمة للغة الطبيعية (NLP) لفهم عمليات البحث ومطابقتها للمحتوى ذي الصلة.
تشرح هذه المقالة مفاهيم البرمجة اللغوية العصبية الأساسية التي تشكل تحسين محركات البحث الحديثة حتى تتمكن من تحسين المحتوى الخاص بك بشكل أفضل. سنغطي:
- كيف تقوم الآلات بمعالجة اللغة البشرية كإشارات وضوضاء، وليس ككلمات ومفاهيم.
- القيود المفروضة على تقنيات الفهرسة الدلالية الكامنة (LSI) التي عفا عليها الزمن.
- الدور المتزايد للكيانات – والتي تسمى على وجه التحديد التعرف على الكيانات – في البحث.
- إن أساليب البرمجة اللغوية العصبية الناشئة مثل المطابقة العصبية وBERT تتجاوز الكلمات الرئيسية لفهم نية المستخدم.
- حدود جديدة مثل نماذج اللغات الكبيرة (LLMs) وتوليد الاسترجاع المعزز (RAG).
كيف تفهم الآلات اللغة؟
من المفيد أن تبدأ بالتعرف على كيفية وسبب قيام الأجهزة بتحليل النص الذي تتلقاه كمدخلات والتعامل معه.
عندما تضغط على الزر “E” على لوحة المفاتيح، فإن جهاز الكمبيوتر الخاص بك لا يفهم مباشرة ما يعنيه “E”. وبدلاً من ذلك، يقوم بإرسال رسالة إلى برنامج منخفض المستوى، والذي يرشد الكمبيوتر حول كيفية التعامل مع الإشارات الكهربائية القادمة من لوحة المفاتيح ومعالجتها.
يقوم هذا البرنامج بعد ذلك بترجمة الإشارة إلى إجراءات يمكن للكمبيوتر فهمها، مثل عرض الحرف “E” على الشاشة أو أداء مهام أخرى متعلقة بهذا الإدخال.
يوضح هذا الشرح المبسط أن أجهزة الكمبيوتر تعمل بالأرقام والإشارات، وليس بالمفاهيم مثل الحروف والكلمات.
عندما يتعلق الأمر بالبرمجة اللغوية العصبية، فإن التحدي يكمن في تعليم هذه الآلات كيفية فهم وتفسير وإنشاء اللغة البشرية، والتي هي بطبيعتها دقيقة ومعقدة.
تسمح التقنيات الأساسية لأجهزة الكمبيوتر ببدء “فهم” النص من خلال التعرف على الأنماط والعلاقات بين هذه التمثيلات الرقمية للكلمات. يشملوا:
- الترميز، حيث يتم تقسيم النص إلى أجزاء مكونة (مثل الكلمات أو العبارات).
- التوجيهحيث يتم تحويل الكلمات إلى قيم رقمية.
النقطة المهمة هي أن الخوارزميات، حتى المتقدمة منها، لا تنظر إلى الكلمات كمفاهيم أو لغة؛ يرونها كإشارات وضوضاء. في الأساس، نحن نقوم بتغيير الشحنة الإلكترونية للرمال باهظة الثمن.
الكلمات الرئيسية LSI: الخرافات والحقائق
الفهرسة الدلالية الكامنة (LSI) هو مصطلح يتم طرحه كثيرًا في دوائر تحسين محركات البحث. الفكرة هي أن بعض الكلمات الرئيسية أو العبارات مرتبطة من الناحية المفاهيمية بكلمتك الرئيسية، وإدراجها في المحتوى الخاص بك يساعد محركات البحث على فهم صفحتك بشكل أفضل.
ببساطة، يعمل LSI مثل نظام فرز النصوص في المكتبة. تم تطويره في الثمانينيات، وهو يساعد أجهزة الكمبيوتر في فهم الروابط بين الكلمات والمفاهيم عبر مجموعة من المستندات.
ولكن “مجموعة من الوثائق” هي لا فهرس جوجل بأكمله. LSI عبارة عن تقنية مصممة للعثور على أوجه التشابه في مجموعة صغيرة من المستندات المتشابهة مع بعضها البعض.
وإليك كيفية العمل: لنفترض أنك تبحث عن “تغير المناخ”. قد يمنحك البحث الأساسي عن الكلمات الرئيسية مستندات تحتوي على عبارة “تغير المناخ” مذكورة بشكل صريح.
ولكن ماذا عن تلك المقالات القيمة التي تناقش “الاحتباس الحراري”، أو “البصمة الكربونية”، أو “الغازات الدفيئة”؟
هذا هو المكان الذي يكون فيه LSI مفيدًا. فهو يحدد تلك المصطلحات المرتبطة لغويًا، مما يضمن عدم تفويت المعلومات ذات الصلة حتى إذا لم يتم استخدام العبارة نفسها.
الأمر هو أن Google لا تستخدم تقنية مكتبة الثمانينات لتصنيف المحتوى. لديهم معدات أكثر تكلفة من ذلك.
على الرغم من الاعتقاد الخاطئ الشائع، لا يتم استخدام الكلمات الرئيسية LSI بشكل مباشر في تحسين محركات البحث الحديثة أو بواسطة محركات البحث مثل Google. LSI مصطلح قديم، ولا يستخدم Google شيئًا مثل الفهرس الدلالي.
ومع ذلك، يمكن أن يكون الفهم الدلالي وتقنيات لغة الآلة الأخرى مفيدًا. لقد مهد هذا التطور الطريق لتقنيات البرمجة اللغوية العصبية الأكثر تقدمًا والتي تعد جوهر كيفية تحليل محركات البحث لمحتوى الويب وتفسيرها اليوم.
لذلك، دعونا نتجاوز مجرد الكلمات الرئيسية. لدينا آلات تفسر اللغة بطرق غريبة، ونعلم أن Google يستخدم تقنيات لمواءمة المحتوى مع استعلامات المستخدم. ولكن ماذا يأتي بعد مطابقة الكلمة الرئيسية الأساسية؟
وهنا يأتي دور الكيانات والمطابقة العصبية وتقنيات البرمجة اللغوية العصبية المتقدمة في محركات البحث اليوم.
أحفر أكثر عمقا: الكيانات والموضوعات والكلمات الرئيسية: توضيح مفاهيم تحسين محركات البحث الدلالية الأساسية
دور الكيانات في البحث
جهات هي حجر الزاوية في البرمجة اللغوية العصبية والتركيز الرئيسي لتحسين محركات البحث. تستخدم Google الكيانات بطريقتين رئيسيتين:
- كيانات الرسم البياني المعرفي: هذه كيانات محددة جيدًا، مثل المؤلفين المشهورين، والأحداث التاريخية، والمعالم، وما إلى ذلك، الموجودة في الرسم البياني المعرفي لـ Google. ويمكن التعرف عليها بسهولة وغالبًا ما تظهر في نتائج البحث بمقتطفات منسقة أو لوحات معلومات.
- الكيانات ذات الأحرف الصغيرة: يتم التعرف على هذه العناصر بواسطة Google ولكنها ليست بارزة بما يكفي للحصول على مكان مخصص في الرسم البياني المعرفي. لا يزال بإمكان خوارزميات Google تحديد هذه الكيانات، مثل الأسماء الأقل شهرة أو المفاهيم المحددة المتعلقة بالمحتوى الخاص بك.
إن فهم “شبكة الكيانات” أمر بالغ الأهمية. فهو يساعدنا في صياغة محتوى يتوافق مع أهداف المستخدم واستفساراته، مما يزيد من احتمال اعتبار المحتوى الخاص بنا ذا صلة بمحركات البحث.
أحفر أكثر عمقا: كيان SEO: الدليل النهائي
فهم التعرف على الكيانات المسماة
التعرف على الكيانات المسماة (NER) هو أسلوب البرمجة اللغوية العصبية الذي يحدد تلقائيًا الكيانات المسماة في النص ويصنفها إلى فئات محددة مسبقًا، مثل أسماء الأشخاص والمؤسسات والمواقع.
لنأخذ المثال: “اشترت سارة شركة Torment Vortex Corp. في عام 2016.”
يتعرف الإنسان بسهولة على:
- “سارة” كشخص.
- “شركة العذاب دوامة.” كشركة.
- “2016” كزمن.
NER هي وسيلة لجعل الأنظمة تفهم هذا السياق.
هناك خوارزميات مختلفة مستخدمة في NER:
- الأنظمة القائمة على القواعد: الاعتماد على القواعد اليدوية لتحديد الكيانات بناءً على الأنماط. إذا كان يبدو وكأنه تاريخ، فهو تاريخ. إذا كان يبدو مثل المال، فهو المال.
- النماذج الإحصائية: هذه تتعلم من مجموعة البيانات المسماة. يمر شخص ما ويصنف جميع Saras و Torment Vortex Corps و 2016 على أنها أنواع الكيانات الخاصة بهم. عندما يظهر النص الجديد. نأمل أن يتم تصنيف الأسماء والشركات والتواريخ الأخرى التي تناسب الأنماط المماثلة. تشمل الأمثلة نماذج ماركوف المخفية، ونماذج الإنتروبيا القصوى، والحقول العشوائية المشروطة.
- نماذج التعلم العميق: الشبكات العصبية المتكررة، وشبكات الذاكرة الطويلة قصيرة المدى، و محولات تم استخدامها جميعًا لـ NER لالتقاط الأنماط المعقدة في البيانات النصية.
من المحتمل أن تستخدم محركات البحث الكبيرة سريعة الحركة مثل Google مزيجًا مما سبق، مما يسمح لها بالتفاعل مع الكيانات الجديدة عند دخولها إلى النظام البيئي للإنترنت.
فيما يلي مثال مبسط باستخدام مكتبة Python NTLK للنهج القائم على القواعد:
import nltkfrom nltk import ne_chunk, pos_tagfrom nltk.tokenize import word_tokenizenltk.download('maxent_ne_chunker')nltk.download('words')sentence="Albert Einstein was born in Ulm, Germany in 1879."# Tokenize and part-of-speech taggingtokens=word_tokenize(sentence)tags=pos_tag(tokens)# Named entity recognitionentities=ne_chunk(tags)print(entities)
للحصول على نهج أكثر تقدمًا باستخدام النماذج المدربة مسبقًا، يمكنك اللجوء إلى spaCy:
import spacy# Load the pre-trained modelnlp=spacy.load("en_core_web_sm")sentence="Albert Einstein was born in Ulm, Germany in 1879."# Process the textdoc=nlp(sentence)# Iterate over the detected entitiesfor ent in doc.ents: print(ent.text, ent.label_)
توضح هذه الأمثلة الأساليب الأساسية والأكثر تقدمًا لـ NER.
يمكن أن يوفر البدء بنماذج بسيطة قائمة على قواعد أو إحصائية رؤى أساسية بينما توفر الاستفادة من نماذج التعلم العميق المدربة مسبقًا طريقًا إلى قدرات التعرف على الكيانات الأكثر تطورًا ودقة.
الكيانات في البرمجة اللغوية العصبية والكيانات في تحسين محركات البحث (SEO) والكيانات المسماة في تحسين محركات البحث (SEO).
الكيانات هي مصطلح البرمجة اللغوية العصبية الذي يستخدمه Google في البحث بطريقتين.
- توجد بعض الكيانات في الرسم البياني المعرفي (على سبيل المثال، راجع المؤلفين).
- هناك كيانات ذات أحرف صغيرة تعترف بها Google ولكن لم يتم منحها هذا التمييز بعد. (يمكن لـ Google معرفة الأسماء، حتى لو لم يكونوا أشخاصًا مشهورين.)
يمكن أن يساعدنا فهم شبكة الكيانات هذه في فهم أهداف المستخدم من خلال المحتوى الخاص بنا
المطابقة العصبية، BERT، وتقنيات البرمجة اللغوية العصبية الأخرى من Google
أدى سعي Google لفهم الفروق الدقيقة في اللغة البشرية إلى تبني العديد من تقنيات البرمجة اللغوية العصبية المتطورة.
اثنان من أكثر الأشياء التي تم الحديث عنها في السنوات الأخيرة هما المطابقة العصبية و BERT. دعونا نتعمق في ماهية هذه العناصر وكيف تُحدِث ثورة في البحث.
المطابقة العصبية: فهم ما وراء الكلمات الرئيسية
تخيل أنك تبحث عن “أماكن للاسترخاء في يوم مشمس”.
ربما يكون Google القديم قد ركز على “الأماكن” و”اليوم المشمس”، ومن المحتمل أن يعرض نتائج لمواقع الطقس أو متاجر المعدات الخارجية.
يدخل المطابقة العصبية – إنها مثل محاولة Google القراءة بين السطور، مع إدراك أنك ربما تبحث عن متنزه أو شاطئ بدلاً من مؤشر الأشعة فوق البنفسجية اليوم.
بيرت: كسر الاستعلامات المعقدة
بيرت (تمثيلات التشفير ثنائية الاتجاه من المحولات) هي قفزة أخرى إلى الأمام. إذا كانت المطابقة العصبية تساعد Google على القراءة بين السطور، فإن BERT يساعده على فهم القصة بأكملها.
يستطيع BERT معالجة كلمة واحدة فيما يتعلق بجميع الكلمات الأخرى في الجملة بدلاً من معالجة كلمة واحدة تلو الأخرى بالترتيب. وهذا يعني أنه يمكنه فهم سياق كل كلمة بشكل أكثر دقة. العلاقات وترتيبها مهم.
قد يكون هناك اختلافات دلالية طفيفة بين “أفضل الفنادق التي بها حمامات سباحة” و”حمامات سباحة رائعة في الفنادق”: فكر في “لقد أوصلها فقط إلى المدرسة اليوم” مقابل “لقد أوصلها فقط إلى المدرسة اليوم”.
لذا، دعونا نفكر في هذا فيما يتعلق بأنظمتنا السابقة الأكثر بدائية.
يعمل التعلم الآلي عن طريق أخذ كميات كبيرة من البيانات، والتي يتم تمثيلها عادةً بالرموز المميزة والمتجهات (الأرقام والعلاقات بين تلك الأرقام)، وتكرار تلك البيانات لتعلم الأنماط.
باستخدام تقنيات مثل المطابقة العصبية وBERT، لم تعد Google تنظر فقط إلى المطابقة المباشرة بين استعلام البحث والكلمات الرئيسية الموجودة على صفحات الويب.
إنها تحاول فهم القصد من وراء الاستعلام وكيفية ارتباط الكلمات المختلفة ببعضها البعض لتقديم نتائج تلبي احتياجات المستخدم حقًا.
على سبيل المثال، سيؤدي البحث عن “علاجات الرأس الباردة” إلى فهم سياق البحث عن علاج للأعراض المرتبطة بالبرد بدلاً من موضوعات “البرد” أو “الرأس” الحرفية.
إن السياق الذي تستخدم فيه الكلمات وعلاقتها بالموضوع له أهمية كبيرة. هذا لا يعني بالضرورة أن حشو الكلمات الرئيسية قد انتهى، ولكن أنواع الكلمات الرئيسية تختلف.
لا ينبغي عليك أن تنظر فقط إلى ما يتم تصنيفه، بل إلى الأفكار والاستعلامات والأسئلة ذات الصلة للتأكد من اكتمالها. يُفضل المحتوى الذي يجيب على الاستعلام بطريقة شاملة وذات صلة بالسياق.
أصبح فهم نية المستخدم وراء الاستعلامات أكثر أهمية من أي وقت مضى. تعمل تقنيات البرمجة اللغوية العصبية المتقدمة من Google على مطابقة المحتوى مع نية المستخدم، سواء كان إعلاميًا أو ملاحيًا أو معامليًا أو تجاريًا.
إن تحسين المحتوى لتلبية هذه المقاصد – من خلال الإجابة على الأسئلة وتقديم الأدلة أو المراجعات أو صفحات المنتج حسب الاقتضاء – يمكن أن يؤدي إلى تحسين أداء البحث.
ولكن فهم أيضا كيف و لماذا سيتم تصنيف مكانتك حسب غرض الاستعلام هذا.
من غير المرجح أن يرغب المستخدم الذي يبحث عن مقارنات بين السيارات في الحصول على وجهة نظر متحيزة، ولكن إذا كنت على استعداد للتحدث عن المعلومات المقدمة من المستخدمين وأن تكون حاسمًا وصادقًا، فمن المرجح أن تأخذ هذا المكان.
نماذج اللغات الكبيرة (LLMs) وتوليد الاسترجاع المعزز (RAG)
وبالانتقال إلى ما هو أبعد من تقنيات البرمجة اللغوية العصبية التقليدية، فإن المشهد الرقمي يحتضن الآن نماذج لغوية كبيرة (LLMs) مثل GPT (المحولات التوليدية المدربة مسبقًا) والأساليب المبتكرة مثل الجيل المعزز للاسترجاع (RAG).
تضع هذه التقنيات معايير جديدة في كيفية فهم الآلات للغة البشرية وتوليدها.
LLMs: ما وراء الفهم الأساسي
ماجستير في القانون مثل GPT، يتم تدريبهم على مجموعات بيانات ضخمة، تشمل نطاقًا واسعًا من النصوص على الإنترنت. تكمن قوتهم في قدرتهم على التنبؤ بالكلمة التالية في الجملة بناءً على السياق الذي توفره الكلمات التي تسبقه. هذه القدرة تجعلها متعددة الاستخدامات بشكل لا يصدق لإنشاء نص يشبه الإنسان عبر مواضيع وأنماط مختلفة.
ومع ذلك، من المهم أن نتذكر أن LLMs ليسوا عرافين يعرفون كل شيء. لا يمكنهم الوصول إلى بيانات الإنترنت المباشرة أو يمتلكون فهمًا متأصلًا للحقائق. وبدلاً من ذلك، فإنها تولد استجابات بناءً على الأنماط التي تم تعلمها أثناء التدريب.
لذا، فبينما يمكنهم إنتاج نص متماسك وملائم للسياق بشكل ملحوظ، يجب التحقق من صحة مخرجاتهم، وخاصة للتأكد من دقتها وحسن توقيتها.
RAG: تعزيز الدقة مع الاسترجاع
وهنا يأتي دور الجيل المعزز للاسترجاع (RAG). يجمع RAG بين القدرات التوليدية لـ LLMs ودقة استرجاع المعلومات.
عندما تقوم LLM بإنشاء استجابة، يتدخل RAG عن طريق جلب المعلومات ذات الصلة من قاعدة بيانات أو الإنترنت للتحقق من النص الذي تم إنشاؤه أو استكماله. تضمن هذه العملية أن يكون الناتج النهائي سلسًا ومتماسكًا ودقيقًا ومستنيرًا ببيانات موثوقة.
احصل على النشرة الإخبارية اليومية التي يعتمد عليها مسوقو البحث.
تطبيقات في تحسين محركات البحث
إن فهم هذه التقنيات والاستفادة منها يمكن أن يفتح آفاقًا جديدة لإنشاء المحتوى وتحسينه.
- باستخدام LLMs، يمكنك إنشاء محتوى متنوع وجذاب يلقى صدى لدى القراء ويجيب على استفساراتهم بشكل شامل.
- يمكن لـ RAG تعزيز هذا المحتوى بشكل أكبر من خلال ضمان دقته الواقعية وتحسين مصداقيته وقيمته للجمهور.
وهذا أيضا ما بحث عن الخبرة التوليدية (SGE) هو: RAG وLLMs معًا. ولهذا السبب غالبًا ما تنحرف النتائج “التي تم إنشاؤها” بالقرب من نص الترتيب ولماذا قد تبدو نتائج SGE غريبة أو مرصوفة بالحصى معًا.
كل هذا يؤدي إلى محتوى يميل نحو الرداءة ويعزز التحيزات والصور النمطية. يقوم الحاصلون على ماجستير إدارة الأعمال، المدربون على بيانات الإنترنت، بإنتاج الناتج المتوسط لتلك البيانات ثم استرداد البيانات التي تم إنشاؤها بشكل مماثل. وهذا ما يسمونه “enshittification”.
4 طرق لاستخدام تقنيات البرمجة اللغوية العصبية في المحتوى الخاص بك
يتضمن استخدام تقنيات البرمجة اللغوية العصبية (NLP) في المحتوى الخاص بك الاستفادة من قوة فهم الآلة لتعزيز إستراتيجية تحسين محركات البحث (SEO) الخاصة بك. وإليك كيف يمكنك البدء.
1. حدد الكيانات الرئيسية في المحتوى الخاص بك
استخدم أدوات البرمجة اللغوية العصبية لاكتشاف الكيانات المسماة داخل المحتوى الخاص بك. يمكن أن يشمل ذلك أسماء الأشخاص والمؤسسات والأماكن والتواريخ والمزيد.
يمكن أن يساعدك فهم الكيانات الموجودة في ضمان أن يكون المحتوى الخاص بك غنيًا وغنيًا بالمعلومات، ويتناول الموضوعات التي يهتم بها جمهورك. يمكن أن يساعدك هذا في تضمين روابط سياقية غنية في المحتوى الخاص بك.
2. تحليل نية المستخدم
استخدم البرمجة اللغوية العصبية ل تصنيف القصد وراء عمليات البحث ذات الصلة بالمحتوى الخاص بك.
هل يبحث المستخدمون عن معلومات، أو يهدفون إلى إجراء عملية شراء، أو يبحثون عن خدمة معينة؟ يمكن أن يؤدي تصميم المحتوى الخاص بك ليتوافق مع هذه المقاصد إلى تعزيز أداء تحسين محركات البحث لديك بشكل كبير.
3. تحسين إمكانية القراءة والمشاركة
يمكن لأدوات البرمجة اللغوية العصبية تقييم مدى سهولة قراءة المحتوى الخاص بك، واقتراح تحسينات لجعله أكثر سهولة في الوصول إليه وجاذبية لجمهورك.
يمكن للغة البسيطة والبنية الواضحة والرسائل المركزة، المبنية على تحليل البرمجة اللغوية العصبية، زيادة الوقت الذي تقضيه على موقعك وتقليل معدلات الارتداد. يمكنك استخدام مكتبة قابلية القراءة وتثبيتها من النقطة.
4. التحليل الدلالي لتوسيع المحتوى
بالإضافة إلى كثافة الكلمات الرئيسية، يمكن أن يكشف التحليل الدلالي عن المفاهيم والموضوعات ذات الصلة التي ربما لم تقم بتضمينها في المحتوى الأصلي الخاص بك.
يمكن أن يؤدي دمج هذه المواضيع ذات الصلة إلى جعل المحتوى الخاص بك أكثر شمولاً وتحسين صلته باستعلامات البحث المختلفة. يمكنك استخدام أدوات مثل TF:IDF، وLDA، وNLTK، وSpacy، وGensim.
فيما يلي بعض البرامج النصية للبدء:
استخراج الكلمات الرئيسية والكيانات باستخدام NLTK في Python
import nltkfrom nltk.tokenize import word_tokenizefrom nltk.tag import pos_tagfrom nltk.chunk import ne_chunknltk.download('punkt')nltk.download('averaged_perceptron_tagger')nltk.download('maxent_ne_chunker')nltk.download('words')sentence="Google's AI algorithm BERT helps understand complex search queries."# Tokenize and part-of-speech taggingtokens=word_tokenize(sentence)tags=pos_tag(tokens)# Named entity recognitionentities=ne_chunk(tags)print(entities)
فهم نية المستخدم مع spaCy
import spacy# Load English tokenizer, tagger, parser, NER, and word vectorsnlp=spacy.load("en_core_web_sm")text="How do I start with Python programming?"# Process the textdoc=nlp(text)# Entity recognition for quick topic identificationfor entity in doc.ents: print(entity.text, entity.label_)# Leveraging verbs and nouns to understand user intentverbs=[token.lemma_ for token in doc if token.pos_=="VERB"]nouns=[token.lemma_ for token in doc if token.pos_=="NOUN"]print("Verbs:", verbs)print("Nouns:", nouns)
الآراء الواردة في هذه المقالة هي آراء المؤلف الضيف وليست بالضرورة Search Engine Land. يتم سرد المؤلفين الموظفين هنا.