تعد الاستفادة من المعرفة المملوكة للشركة أمرًا بالغ الأهمية لقدرتها على المنافسة والابتكار ، خاصة في بيئة اليوم المتقلبة. يتم تغذية الابتكار المؤسسي من خلال الإنشاء الفعال والسريع ، والإدارة ، والتطبيق ، وإعادة التركيب ، ونشر أصول المعرفة والمعرفة. ومع ذلك ، عادةً ما يتم إنشاء المعرفة داخل المؤسسات والتقاطها عبر مصادر وأشكال مختلفة ، بما في ذلك العقول الفردية والعمليات والسياسات والتقارير والمعاملات التشغيلية ولوحات المناقشة والمحادثات والاجتماعات عبر الإنترنت. على هذا النحو ، غالبًا ما تكون المعرفة الشاملة للشركة مجهولة المصير ويصعب تنظيمها ونشرها عند الحاجة بطريقة فعالة أو فعالة.
تقوم العديد من الشركات بتجربة ChatGPT ونماذج لغة أو صور كبيرة أخرى. لقد وجدواهم عمومًا مذهلين من حيث قدرتهم على التعبير عن الأفكار المعقدة بلغة واضحة. ومع ذلك ، يدرك معظم المستخدمين أن هذه الأنظمة يتم تدريبها بشكل أساسي على المعلومات المستندة إلى الإنترنت ولا يمكنها الاستجابة للمطالبات أو الأسئلة المتعلقة بالمحتوى أو المعرفة المسجلة الملكية.
تعد الاستفادة من معرفة أهلية الشركة أمرًا بالغ الأهمية لقدرتها على المنافسة والابتكار ، خاصة في بيئة اليوم المتقلبة. يتم دعم الابتكار المؤسسي من خلال الإنشاء الفعال والسريع ، والإدارة ، والتطبيق ، وإعادة التركيب ، ونشر أصول المعرفة والمعرفة. ومع ذلك ، عادةً ما يتم إنشاء المعرفة داخل المؤسسات والتقاطها عبر مصادر وأشكال مختلفة ، بما في ذلك العقول الفردية والعمليات والسياسات والتقارير والمعاملات التشغيلية ولوحات المناقشة والمحادثات والاجتماعات عبر الإنترنت. على هذا النحو ، غالبًا ما تكون المعرفة الشاملة للشركة مجهولة المصير ويصعب تنظيمها ونشرها عند الحاجة بطريقة فعالة أو فعالة.
توفر التقنيات الناشئة في شكل نماذج ذكاء اصطناعي بلغة كبيرة وصورة فرصًا جديدة لإدارة المعرفة ، وبالتالي تعزيز أداء الشركة وقدرات التعلم والابتكار. على سبيل المثال ، في ملف يذاكر تم إجراؤه في مزود Fortune 500 لبرامج العمليات التجارية ، وهو نظام قائم على الذكاء الاصطناعي لدعم العملاء أدى إلى زيادة إنتاجية وكلاء دعم العملاء وتحسين الاحتفاظ بهم ، بينما أدى إلى ردود فعل إيجابية أعلى من جانب العملاء. كما عمل النظام على تسريع وتيرة التعلم وتنمية مهارات الوكلاء المبتدئين.
مثل هذه الشركة ، يحاول عدد متزايد من المنظمات الاستفادة من مهارات معالجة اللغة وقدرات التفكير العامة لنماذج اللغة الكبيرة (LLMs) لالتقاط وتوفير وصول داخلي واسع (أو عميل) إلى رأس المال الفكري الخاص بهم. إنهم يستخدمونها لأغراض مثل إبلاغ موظفيهم الذين يواجهون العملاء بسياسة الشركة وتوصيات المنتج / الخدمة ، أو حل مشاكل خدمة العملاء ، أو الحصول على معرفة الموظفين قبل مغادرتهم المنظمة.
كانت هذه الأهداف حاضرة أيضًا خلال ذروة حركة “إدارة المعرفة” في التسعينيات وأوائل القرن الحادي والعشرين ، لكن معظم الشركات وجدت أن التكنولوجيا في ذلك الوقت غير مناسبة للمهمة. اليوم ، ومع ذلك ، فإن الذكاء الاصطناعي التوليدي يعيد إحياء إمكانية التقاط ونشر المعرفة المهمة في جميع أنحاء المنظمة وخارج أسوارها. كما قال أحد المديرين الذين يستخدمون الذكاء الاصطناعي التوليدي لهذا الغرض ، “أشعر وكأن حزمة jetpack دخلت للتو في حياتي.” على الرغم من التطورات الحالية ، لا تزال بعض العوامل نفسها التي جعلت إدارة المعرفة صعبة في الماضي موجودة.
تكنولوجيا إدارة المعرفة التوليدية القائمة على الذكاء الاصطناعي
تتطور التكنولوجيا لدمج معرفة المجال المحدد للمؤسسة في LLM بسرعة. في الوقت الحالي ، هناك ثلاث طرق أساسية لدمج المحتوى الاحتكاري في نموذج توليدي.
تدريب ماجستير من سكراتش
تتمثل إحدى الطرق في إنشاء نموذج خاص بالمجال وتدريبه من البداية. هذا ليس نهجًا شائعًا ، لأنه يتطلب قدرًا هائلاً من البيانات عالية الجودة لتدريب نموذج لغة كبير ، ومعظم الشركات ببساطة لا تمتلكه. كما يتطلب الوصول إلى قوة حاسوبية كبيرة وموهبة في علم البيانات مدربة تدريباً جيداً.
إحدى الشركات التي استخدمت هذا النهج هي Bloomberg ، التي أعلنت مؤخرًا أنها أنشأت BloombergGPT للمحتوى الخاص بالتمويل وواجهة اللغة الطبيعية مع محطة البيانات الخاصة بها. تمتلك Bloomberg ما يزيد عن 40 عامًا من البيانات المالية والأخبار والوثائق ، والتي تم دمجها مع حجم كبير من النصوص من الإيداعات المالية وبيانات الإنترنت. في المجموع ، استخدم علماء بيانات بلومبرج 700 رمز ، أو حوالي 350 مليار كلمة ، و 50 مليار معلمة ، و 1.3 مليون ساعة من وقت وحدة معالجة الرسومات. قليل من الشركات لديها هذه الموارد المتاحة.
صقل LLM موجود
النهج الثاني هو “ضبط” تدريب LLM موجود لإضافة محتوى مجال معين إلى نظام تم تدريبه بالفعل على المعرفة العامة والتفاعل القائم على اللغة. يتضمن هذا النهج تعديل بعض معلمات النموذج الأساسي ، ويتطلب عادةً بيانات أقل بشكل كبير – عادةً فقط مئات أو آلاف المستندات ، بدلاً من الملايين أو المليارات – ووقت حوسبة أقل من إنشاء نموذج جديد من البداية.
Google ، على سبيل المثال ، استخدمت تدريبًا دقيقًا على ملفات ميد- PaLM2 (الإصدار الثاني) نموذج للمعرفة الطبية. بدأ مشروع البحث بـ PaLM2 LLM العام من Google وأعاد تدريبه على المعرفة الطبية المنسقة بعناية من مجموعة متنوعة من مجموعات البيانات الطبية العامة. كان النموذج قادرًا على الإجابة على 85٪ من أسئلة امتحانات الترخيص الطبي في الولايات المتحدة – ما يقرب من 20٪ أفضل من الإصدار الأول من النظام. على الرغم من هذا التقدم السريع ، عند اختباره وفقًا لمعايير مثل الواقعية العلمية والدقة والإجماع الطبي والاستدلال والتحيز والضرر ، وتقييمه من قبل خبراء بشريين من بلدان متعددة ، شعر فريق التطوير أن النظام لا يزال بحاجة إلى تحسين كبير قبل اعتماده لأغراض إكلينيكية. يمارس.
ومع ذلك ، فإن نهج الضبط الدقيق له بعض القيود. على الرغم من أنه يتطلب طاقة ووقتًا أقل بكثير من تدريب LLM ، إلا أنه لا يزال من الممكن أن يكون التدريب مكلفًا ، وهو ما لم يكن مشكلة لشركة Google ولكنه سيكون للعديد من الشركات الأخرى. يتطلب خبرة كبيرة في علوم البيانات ؛ ال ورقة علمية بالنسبة لمشروع Google ، على سبيل المثال ، كان هناك 31 مؤلفًا مشاركًا. يرى بعض علماء البيانات أنه من الأنسب عدم إضافة محتوى جديد ، بل لإضافة تنسيقات وأنماط محتوى جديدة (مثل الدردشة أو الكتابة مثل ويليام شكسبير). بالإضافة إلى ذلك ، لا يسمح بعض بائعي LLM (على سبيل المثال ، OpenAI) بضبط أحدث LLMs الخاصة بهم ، مثل GPT-4.
الضبط الفوري لـ LLM موجود
ربما يكون النهج الأكثر شيوعًا لتخصيص محتوى LLM للشركات الموردة غير السحابية هو ضبطه من خلال المطالبات. باستخدام هذا النهج ، يتم الاحتفاظ بالنموذج الأصلي مجمّدًا ، ويتم تعديله من خلال المطالبات في نافذة السياق التي تحتوي على معرفة خاصة بالمجال. بعد الضبط الفوري ، يمكن للنموذج الإجابة على الأسئلة المتعلقة بتلك المعرفة. هذا النهج هو الأكثر كفاءة من الناحية الحسابية من بين الثلاثة ، ولا يتطلب تدريب كمية هائلة من البيانات على مجال محتوى جديد.
على سبيل المثال ، استخدم Morgan Stanley الضبط الفوري لتدريب نموذج GPT-4 الخاص بـ OpenAI باستخدام مجموعة منسقة بعناية من 100000 مستند مع معلومات مهمة عن الاستثمار والأعمال العامة وعملية الاستثمار. كان الهدف هو تزويد المستشارين الماليين للشركة بمعرفة دقيقة ويمكن الوصول إليها بسهولة حول القضايا الرئيسية التي يواجهونها في أدوارهم في تقديم المشورة للعملاء. يتم تشغيل النظام سريع التدريب في سحابة خاصة لا يمكن الوصول إليها إلا لموظفي Morgan Stanley.
في حين أن هذا ربما يكون أسهل الأساليب الثلاثة التي يجب أن تتبناها المنظمة ، إلا أنه لا يخلو من التحديات التقنية. عند استخدام بيانات غير منظمة مثل النص كمدخل إلى LLM ، فمن المحتمل أن تكون البيانات كبيرة جدًا مع وجود العديد من السمات المهمة جدًا لإدخالها مباشرةً في نافذة السياق لـ LLM. البديل هو إنشاء زخارف متجهة – مصفوفات من القيم الرقمية المنتجة من النص بواسطة نموذج تعلم آلي آخر مدرب مسبقًا (يستخدم Morgan Stanley واحدًا من OpenAI يسمى Ada). تعد عمليات تضمين المتجهات تمثيلًا أكثر إحكاما لهذه البيانات مما يحافظ على العلاقات السياقية في النص. عندما يقوم المستخدم بإدخال موجه في النظام ، تحدد خوارزمية التشابه المتجهات التي يجب إرسالها إلى نموذج GPT-4. على الرغم من أن العديد من البائعين يقدمون أدوات لجعل عملية الضبط السريع هذه أسهل ، إلا أنها لا تزال معقدة بما يكفي لدرجة أن معظم الشركات التي تتبنى هذا النهج ستحتاج إلى موهبة كبيرة في علم البيانات.
ومع ذلك ، لا يلزم أن يكون هذا الأسلوب مستهلكًا للوقت أو مكلفًا للغاية إذا كان المحتوى المطلوب موجودًا بالفعل. على سبيل المثال ، استخدمت شركة أبحاث الاستثمار Morningstar ضبطًا سريعًا وزخارف متجهة لأداة أبحاث Mo الخاصة بها المبنية على الذكاء الاصطناعي التوليدي. وهو يشتمل على أكثر من 10000 قطعة من أبحاث Morningstar. بعد شهر واحد فقط أو نحو ذلك من العمل على نظامها ، فتحت Morningstar استخدام Mo لمستشاريها الماليين وعملائها من المستثمرين المستقلين. حتى أنها ربطت Mo بشخصية رقمية يمكنها التحدث عن إجاباتها. هذا النهج الفني ليس مكلفا. في الشهر الأول من الاستخدام ، أجاب Mo على 25000 سؤال بتكلفة متوسطة قدرها 0.002 دولار لكل سؤال بتكلفة إجمالية قدرها 3000 دولار.
تنظيم المحتوى وحوكمته
كما هو الحال مع إدارة المعرفة التقليدية حيث تم تحميل الوثائق في قواعد بيانات المناقشة مثل Microsoft Sharepoint ، مع الذكاء الاصطناعي التوليدي ، يجب أن يكون المحتوى عالي الجودة قبل تخصيص LLM بأي شكل من الأشكال. في بعض الحالات ، كما هو الحال مع نظام Google Med-PaLM2 ، هناك قواعد بيانات متاحة على نطاق واسع للمعرفة الطبية تم تنسيقها بالفعل. بخلاف ذلك ، تحتاج الشركة إلى الاعتماد على التنظيم البشري لضمان دقة محتوى المعرفة وحسن توقيته وعدم تكراره. مورجان ستانلي ، على سبيل المثال ، لديه مجموعة من 20 أو نحو ذلك من مديري المعرفة في الفلبين الذين يقومون باستمرار بتسجيل المستندات وفقًا لمعايير متعددة ؛ تحدد مدى ملاءمة الدمج في نظام GPT-4. ستجد معظم الشركات التي ليس لديها محتوى جيد التنظيم صعوبة في القيام بذلك لهذا الغرض فقط.
وجد Morgan Stanley أيضًا أنه من الأسهل بكثير الحفاظ على معرفة عالية الجودة إذا كان مؤلفو المحتوى على دراية بكيفية إنشاء مستندات فعالة. يُطلب منهم أخذ دورتين ، واحدة حول أداة إدارة المستندات ، والثانية حول كيفية كتابة هذه المستندات ووضع علامات عليها. هذا هو أحد مكونات نهج الشركة في نهج إدارة المحتوى – طريقة منهجية لالتقاط وإدارة المحتوى الرقمي المهم.
في Morningstar ، يتم تعليم منشئي المحتوى نوع المحتوى الذي يعمل بشكل جيد مع نظام Mo وما لا يعمل. يرسلون المحتوى الخاص بهم إلى نظام إدارة المحتوى ويذهب مباشرة إلى قاعدة بيانات المتجه التي توفر نموذج OpenAI.
ضمان الجودة والتقييم
أحد الجوانب المهمة لإدارة محتوى الذكاء الاصطناعي التوليدي هو ضمان الجودة. من المعروف على نطاق واسع أن الذكاء الاصطناعي التوليدي “يهلوس” في بعض الأحيان ، ويذكر بثقة حقائق غير صحيحة أو غير موجودة. يمكن أن تكون الأخطاء من هذا النوع مشكلة للشركات ولكنها قد تكون مميتة في تطبيقات الرعاية الصحية. والخبر السار هو أن الشركات التي قامت بضبط LLM الخاصة بها على المعلومات الخاصة بالمجال قد وجدت أن الهلوسة أقل مشكلة من LLMs خارج الصندوق ، على الأقل إذا لم يكن هناك حوارات موسعة أو مطالبات غير تجارية.
يجب على الشركات التي تتبنى هذه الأساليب لإدارة المعرفة التوليدية للذكاء الاصطناعي تطوير استراتيجية تقييم. على سبيل المثال ، بالنسبة لـ BloombergGPT ، والتي تهدف إلى الإجابة على الأسئلة المالية والاستثمارية ، تم تقييم النظام على أساس المهام المالية لمجموعة البيانات العامة ، والتعرف على الكيانات المسماة ، والقدرة على تحليل المشاعر ، ومجموعة من المهام المنطقية ومعالجة اللغة الطبيعية العامة. نظام Google Med-PaLM2 ، الموجه في النهاية للإجابة على الأسئلة الطبية للمرضى والطبيب ، كان لديه استراتيجية تقييم أكثر شمولاً ، مما يعكس أهمية الدقة والسلامة في المجال الطبي.
الحياة أو الموت ليست مشكلة في Morgan Stanley ، ولكن إنتاج ردود دقيقة للغاية على الأسئلة المالية والاستثمارية أمر مهم للشركة وعملائها والمنظمين. تم تقييم الإجابات التي قدمها النظام بعناية من قبل المراجعين البشريين قبل إصدارها لأي مستخدم. ثم تم تجريبه لعدة أشهر من قبل 300 مستشار مالي. كنهج أساسي في التقييم المستمر ، لدى Morgan Stanley مجموعة من 400 “سؤال ذهبي” الإجابة الصحيحة عليها معروفون. في كل مرة يتم إجراء أي تغيير على النظام ، يختبره الموظفون بالأسئلة الذهبية لمعرفة ما إذا كان هناك أي “تراجع” أو إجابات أقل دقة.
القضايا القانونية والحوكمة
القضايا القانونية والحوكمة المرتبطة بنشر LLM معقدة ومتطورة ، مما يؤدي إلى عوامل الخطر التي تنطوي على الملكية الفكرية وخصوصية البيانات وأمنها والتحيز والأخلاق والمخرجات الخاطئة / غير الدقيقة. حاليًا ، لا يزال الوضع القانوني لمخرجات LLM غير واضح. نظرًا لأن LLM لا تنتج نسخًا طبق الأصل من أي من النصوص المستخدمة لتدريب النموذج ، يشعر العديد من المراقبين القانونيين أن أحكام “الاستخدام العادل” لقانون حقوق الطبع والنشر ستنطبق عليهم ، على الرغم من أن هذا لم يتم اختباره في المحاكم (وليس جميع البلدان لديها مثل هذه الأحكام في قوانين حقوق النشر الخاصة بها). على أي حال ، إنها فكرة جيدة لأي شركة تستخدم بشكل مكثف الذكاء الاصطناعي التوليدي لإدارة المعرفة (أو معظم الأغراض الأخرى لهذه المسألة) أن يكون لها ممثلون قانونيون يشاركون في عملية الإنشاء والحوكمة لـ LLMs التي تم ضبطها. في Morningstar ، على سبيل المثال ، ساعد محامو الشركة في إنشاء سلسلة من “المطالبات المسبقة” التي تخبر نظام الذكاء الاصطناعي التوليدي بأنواع الأسئلة التي يجب أن يجيب عليها وتلك التي يجب تجنبها بأدب.
تُستخدم مطالبات المستخدم في LLMs المتاحة للجمهور لتدريب الإصدارات المستقبلية من النظام ، لذلك يتم استخدام بعض الشركات (سامسونج، على سبيل المثال) تخشى نشر المعلومات السرية والخاصة وحظرت استخدام LLM من قبل الموظفين. ومع ذلك ، فإن معظم جهود الشركات لضبط LLM مع محتوى خاص بالمجال يتم إجراؤها على مثيلات خاصة من النماذج التي لا يمكن الوصول إليها من قبل المستخدمين العموميين ، لذلك لا ينبغي أن يكون هذا مشكلة. بالإضافة إلى ذلك ، تسمح بعض أنظمة الذكاء الاصطناعي التوليدية مثل ChatGPT للمستخدمين بإيقاف مجموعة سجلات الدردشة ، والتي يمكن أن تعالج قضايا السرية حتى في الأنظمة العامة.
من أجل معالجة مخاوف السرية والخصوصية ، يقدم بعض البائعين ميزات أمان وأمان متقدمة ومحسنة لـ LLM بما في ذلك محو مطالبات المستخدم ، وتقييد موضوعات معينة ، ومنع إدخال كود المصدر وبيانات الملكية في LLMs التي يمكن الوصول إليها بشكل عام. علاوة على ذلك ، يقوم بائعو أنظمة برمجيات المؤسسات بدمج “طبقة الثقة” في منتجاتهم وخدماتهم. قوة المبيعات، على سبيل المثال ، قامت بدمج ميزة Einstein GPT في مجموعة AI Cloud الخاصة بها لمعالجة “فجوة الثقة بالذكاء الاصطناعي” بين الشركات التي ترغب في نشر قدرات LLM بسرعة والمخاطر المذكورة أعلاه التي تشكلها هذه الأنظمة في بيئات الأعمال.
تشكيل سلوك المستخدم
أدت سهولة الاستخدام والتوافر العام الواسع والإجابات المفيدة التي تغطي مجالات المعرفة المختلفة إلى اعتماد سريع وغير موجه إلى حد ما وعضوي لإدارة المعرفة القائمة على الذكاء الاصطناعي من قبل الموظفين. على سبيل المثال ، أشارت دراسة استقصائية حديثة إلى أن أكثر من ثلث الموظفين الذين شملهم الاستطلاع يستخدمون الذكاء الاصطناعي التوليدي في وظائفهم ، لكن 68٪ من المستجيبين لم يبلغوا المشرفين بأنهم يستخدمون الأداة. لتحقيق الفرص وإدارة المخاطر المحتملة لتطبيقات الذكاء الاصطناعي التوليدية لإدارة المعرفة ، تحتاج الشركات إلى تطوير ثقافة الشفافية والمساءلة التي من شأنها أن تجعل أنظمة إدارة المعرفة القائمة على الذكاء الاصطناعي ناجحة.
بالإضافة إلى تنفيذ السياسات والإرشادات ، يحتاج المستخدمون إلى فهم كيفية دمج قدرات الذكاء الاصطناعي التوليدية بأمان وفعالية في مهامهم لتعزيز الأداء والإنتاجية. يمكن أن توفر قدرات الذكاء الاصطناعي التوليدية ، بما في ذلك الوعي بالسياق والتاريخ ، وإنشاء محتوى جديد من خلال تجميع أو دمج المعرفة من مصادر مختلفة ، والتنبؤات القائمة على البيانات ، دعمًا قويًا للعمل المعرفي. يمكن لأنظمة إدارة المعرفة التوليدية القائمة على الذكاء الاصطناعي أتمتة عمليات البحث كثيفة المعلومات (بحث الحالة القانونية ، على سبيل المثال) بالإضافة إلى المهام المعرفية ذات الحجم الكبير والمنخفض التعقيد مثل الرد على رسائل البريد الإلكتروني الروتينية للعملاء. يعمل هذا النهج على زيادة كفاءة الموظفين ، وتحريرهم لبذل المزيد من الجهد في اتخاذ القرارات المعقدة وحل المشكلات في وظائفهم.
تتضمن بعض السلوكيات المحددة التي قد يكون من المرغوب فيها غرسها – سواء من خلال التدريب أو السياسات – ما يلي:
- معرفة أنواع المحتوى المتوفرة من خلال النظام ؛
- كيفية إنشاء مطالبات فعالة ؛
- ما هي أنواع المطالبات والحوارات المسموح بها وأيها غير مسموح به ؛
- كيفية طلب محتوى معرفي إضافي لإضافته إلى النظام ؛
- كيفية استخدام استجابات النظام في التعامل مع العملاء والشركاء.
- كيفية إنشاء محتوى جديد بطريقة مفيدة وفعالة.
قام كل من Morgan Stanley و Morningstar بتدريب منشئي المحتوى على وجه الخصوص حول أفضل السبل لإنشاء المحتوى ووضع علامة عليه ، وأنواع المحتوى المناسبة تمامًا لاستخدام الذكاء الاصطناعي.
“كل شيء يتحرك بسرعة كبيرة”
قال أحد المديرين التنفيذيين الذين قابلناهم: “يمكنني أن أخبرك كيف تبدو الأمور اليوم. لكن كل شيء يتحرك بسرعة كبيرة في هذا المجال “. يتم الإعلان عن LLMs الجديدة والأساليب الجديدة لضبط محتواها يوميًا ، وكذلك المنتجات الجديدة من البائعين ذوي المحتوى المحدد أو بؤر المهام. يجب أن تكون أي شركة تلتزم بتضمين معرفتها الخاصة في نظام الذكاء الاصطناعي التوليدي على استعداد لمراجعة نهجها تجاه المشكلة بشكل متكرر على مدار السنوات العديدة القادمة.
في حين أن هناك العديد من القضايا الصعبة التي ينطوي عليها بناء واستخدام أنظمة الذكاء الاصطناعي التوليدية المدربة على محتوى المعرفة الخاص بالشركة ، فإننا على ثقة من أن الفائدة الإجمالية للشركة تستحق الجهد المبذول لمواجهة هذه التحديات. تعتبر الرؤية طويلة المدى المتمثلة في تمكين أي موظف – وكذلك العملاء – من الوصول بسهولة إلى المعرفة المهمة داخل الشركة وخارجها لتعزيز الإنتاجية والابتكار عامل جذب قوي. يبدو أن الذكاء الاصطناعي التوليدي هو التكنولوجيا التي جعلت ذلك ممكنًا في النهاية.