تخيل أنك تجري محادثة مع نظام ذكاء اصطناعي، وتتفاجأ بإجاباته الواثقة التي تبدو مقنعة، لكنها في الواقع خالية تمامًا من الصحة.
هذه الظاهرة تُعرف بـ “هلوسة الذكاء الاصطناعي AI Hallucination”، وهي تمثل تحديًا كبيرًا في عالم التقنية الحديثة.
لكن ما الذي نعنيه بهذا المصطلح؟ وأين تظهر هذه الظاهرة؟ وما هي أسبابها؟ وكيف يمكننا معالجتها؟ دعونا نستكشف هذه الأسئلة معًا.
المحاور الرئيسية:
ما المقصود بـ “هلوسة الذكاء الاصطناعي”؟
هلوسة الذكاء الاصطناعي تشير إلى الحالات التي تقدم فيها أنظمة الذكاء الاصطناعي، خاصة النماذج اللغوية الكبيرة Large Language Models, معلومات غير صحيحة أو مختلقة دون أساس في بيانات التدريب.
بمعنى آخر، قد يولد النظام إجابات تبدو منطقية وواثقة، لكنها في الواقع غير دقيقة أو حتى خيالية.
على سبيل المثال، قد يختلق النظام حقائق أو يقدم معلومات غير موجودة في الواقع حول أحاديث نبوية أو أبحاث فيزيائية.
ولا ننسى ان الهلوسة لها درجات والدرجة الأولى هي التخريف، وتم الإشارة للتخريف في فقرة الأبحاث ضمن هذه المقالة.
أين نجد هذه الظاهرة؟
تظهر هلوسة الذكاء الاصطناعي في عدة مجالات، منها:
- المساعدات الافتراضية: مثل ChatGPT وBard، حيث قد تقدم هذه الأنظمة إجابات خاطئة أو مختلقة عند طرح أسئلة معينة.
- أنظمة الترجمة الآلية: قد تنتج ترجمات غير دقيقة أو تضيف معلومات غير موجودة في النص الأصلي.
- توليد المحتوى: عند استخدام الذكاء الاصطناعي لكتابة مقالات أو إنشاء صور، قد ينتج محتوى غير واقعي أو مشوه.
ما سبب هذه الظاهرة؟
تعود أسباب هلوسة الذكاء الاصطناعي إلى عدة عوامل، منها:
- بيانات التدريب: إذا كانت البيانات المستخدمة في تدريب النموذج تحتوي على معلومات غير دقيقة أو متحيزة، فإن النموذج قد يتعلم هذه الأخطاء ويكررها.
- التعميم الزائد: قد يحاول النموذج التعميم بناءً على أنماط محدودة في بيانات التدريب، مما يؤدي إلى استنتاجات خاطئة عند مواجهة بيانات جديدة.
- الهجمات العدائية: يمكن للمهاجمين تقديم مدخلات مصممة خصيصًا لإرباك النموذج ودفعه لإنتاج مخرجات غير صحيحة.
- التعقيد اللغوي: قد يواجه النموذج صعوبة في فهم التعابير المجازية أو اللغة العامية، مما يؤدي إلى تفسيرات خاطئة.
ما هو تحليل الفشل Failure Analysis؟
تحليل الفشل هو عملية منهجية تهدف إلى فهم الأسباب الجذرية وراء الفشل في الأنظمة أو المنتجات أو العمليات.
يتم استخدام هذه التقنية بشكل شائع في المجالات الهندسية والصناعية لتحليل أسباب تعطل المعدات أو المنتجات، لكن المفهوم يمتد أيضًا إلى الأنظمة التكنولوجية مثل الذكاء الاصطناعي.
كيف يساعد تحليل الفشل في حل مشكلة الهلوسة؟
- تصحيح البيانات: استخدام تحليل الفشل لفحص بيانات التدريب وتصفيتها من التحيزات أو الأخطاء.
- اختبار الأنظمة ببيانات معقدة: يساعد تحليل الفشل في تقييم أداء النظام عند التعامل مع مدخلات معقدة أو غامضة لتحديد مدى استقرار النموذج.
- تحسين الخوارزميات: تطوير خوارزميات تقلل من احتمالية التوليد العشوائي للمعلومات.
- مراقبة الأداء باستمرار: تطبيق تحليل الفشل كعملية دورية لتقييم التغييرات والتأكد من تقليل نسبة الهلوسة.
تحليل الفشل هو أداة قوية لفهم الأسباب الجذرية وراء هلوسة الذكاء الاصطناعي وتحسين أداء النماذج الذكية.
من خلال تطبيق هذه المنهجية، يمكن للشركات والمطورين تحسين دقة وموثوقية أنظمة الذكاء الاصطناعي، مما يساهم في بناء ثقة أكبر مع المستخدمين وتقليل التحديات المرتبطة بالمخرجات غير الصحيحة.
أهم الدراسات والأبحاث حول هلوسة الذكاء الاصطناعي
شهدت السنوات الأخيرة اهتمامًا متزايدًا بدراسة هلوسة الذكاء الاصطناعي.
قام باحثون في الصين باختبار ChatGPT في دراسة حديثة، لتقييم قدرته على تقييم التعليمات البرمجية الخاصة به من حيث الصحة والثغرات والإصلاحات الناجحة.
تظهر النتائج، التي نُشرت في 5 نوفمبر في IEEE Transactions on Software Engineering، أن برنامج الذكاء الاصطناعي مفرط الثقة، وغالبًا ما يشير إلى أن التعليمات البرمجية أكثر إرضاءً مما هي عليه في الواقع.
تظهر النتائج أيضًا نوع المطالبات والاختبارات التي قد تعمل على تحسين قدرات ChatGPT على التحقق الذاتي.
وفي يونيو 2024، نشر باحثون من جامعة أكسفورد دراسة في مجلة Nature تقدم منهجية جديدة لاكتشاف هلوسة نماذج الذكاء الاصطناعي التوليدية، مثل ChatGPT.
تُعرّف “الهلوسة” في هذا السياق بأنها تقديم النماذج لمعلومات خاطئة بثقة.
تركز الدراسة على نوع محدد من الهلوسة يُسمى “التخريف confabulations” حيث تقدم النماذج إجابات خاطئة وغير متسقة على أسئلة تتعلق بالحقائق.
المنهجية المقترحة تتضمن:
- توليد إجابات متعددة: يُطلب من النموذج تقديم عدة إجابات (عادة بين 5 إلى 10) للسؤال نفسه.
- تصنيف الإجابات دلاليًا: يُستخدم نموذج لغوي مختلف لتصنيف هذه الإجابات بناءً على معانيها.
- حساب الأنتروبيا الدلالية: يُحسب مقياس لمدى تشابه أو اختلاف معاني الإجابات، إذا كانت الإجابات تحمل معاني مختلفة، تكون الأنتروبيا الدلالية مرتفعة، مما يشير إلى احتمال حدوث التخريف.
أظهرت النتائج أن هذه المنهجية تمكنت من التمييز بين الإجابات الصحيحة والخاطئة بنسبة دقة تصل إلى 79%، متفوقةً بحوالي 10 نقاط مئوية على الأساليب الحالية.
ورغم أن هذه الطريقة تتطلب قوة حوسبة أكبر، إلا أنها تمهد الطريق لتطوير أنظمة ذكاء اصطناعي أكثر موثوقية في المستقبل.
الحلول الحالية لمشكلة هلوسة الذكاء الاصطناعي
لمعالجة هذه الظاهرة، تم تطوير عدة استراتيجيات، منها:
1- تحسين جودة بيانات التدريب
ضمان أن تكون البيانات المستخدمة متنوعة وخالية من التحيزات، مما يقلل من احتمالية تعلم النموذج لمعلومات خاطئة.
مثال:
إذا كان هناك نظام ذكاء اصطناعي مُدرّب على بيانات طبية تُظهر فقط أعراض الرجال للأمراض القلبية، فقد يفشل في تشخيص هذه الأمراض عند النساء. تحسين جودة بيانات التدريب يعني إدراج بيانات تشمل كلا الجنسين وأعمارًا مختلفة لضمان تقديم مخرجات دقيقة وشاملة.
2- الاسترجاع المعزز للتولي Retrieval-Augmented Generation – RAG
دمج قدرات التوليد للنماذج اللغوية مع قواعد بيانات معرفية، مما يسمح للنموذج بالوصول إلى معلومات موثوقة عند توليد الإجابات.
مثال:
عند طرح سؤال على نموذج ذكاء اصطناعي مثل ما هو أطول نهر في العالم؟، قد يعتمد النموذج على بيانات غير دقيقة إذا لم يكن محدثًا.
باستخدام تقنية RAG، يمكن للنموذج البحث في قاعدة بيانات معرفية خارجية مثل ويكيبيديا أو موسوعات جغرافية موثوقة للحصول على الإجابة الصحيحة نهر النيل أو الأمازون بناءً على السياق.
3- الاستعلام التكراري Iterative Querying
استخدام وكيل ذكاء اصطناعي لتكرار الاستعلامات وتحسينها، مما يزيد من دقة الإجابات النهائية.
مثال:
إذا سألت نظام ذكاء اصطناعي: ما هي أسباب الحرب العالمية الثانية؟ وكانت الإجابة مختصرة أو غير واضحة، يمكن أن يقوم وكيل ذكاء اصطناعي بإعادة صياغة السؤال إلى ما هي الأسباب السياسية للحرب العالمية الثانية؟ أو ما دور الاقتصاد في بدء الحرب العالمية الثانية؟، ثم يجمع الإجابات المختلفة للحصول على استجابة شاملة وأكثر دقة.
4- ضبط معلمات النموذج
مثل تعديل درجة الحرارة في النموذج، مما يقلل من العشوائية في المخرجات ويزيد من دقتها.
طبعاً نقصد بدرجة الحرارة Temperature وهي معلمة تُستخدم في النماذج اللغوية مثل ChatGPT للتحكم في مدى إبداع أو تنوع المخرجات التي يُنتجها النموذج، يمكن اعتبارها مقياسًا لمستوى العشوائية أو المرونة في الاستجابة.
مثال:
عندما يُطلب من نموذج كتابة قصة، إذا كانت درجة الحرارة منخفضة 0.2 مثلًا، سيكون النص محددًا جدًا وقريبًا من النمط التدريبي.
أما إذا كانت درجة الحرارة مرتفعة (0.8 مثلًا)، سيصبح النص أكثر تنوعًا وإبداعًا.
لضمان عدم تقديم مخرجات غير منطقية في المهام الحساسة، مثل الإجابات العلمية، يتم ضبط درجة الحرارة لتكون منخفضة للحصول على إجابات دقيقة ومنطقية.
الحلول المستقبلية لمشكلة هلوسة الذكاء الاصطناعي
مع تقدم الأبحاث، تُقترح حلول مستقبلية تشمل:
- التعلم المتعدد الوسائط Multimodal Learning: دمج مصادر بيانات متعددة، مثل النصوص والصور، لتعزيز فهم النموذج والسياق وتقليل احتمالية الهلوسة.
- التعلم المستمر Continual Learning: تطوير نماذج قادرة على التعلم والتكيف مع المعلومات الجديدة باستمرار، مما يساعدها على تحديث معرفتها وتجنب تقديم معلومات قديمة أو خاطئة.
- التفاعل البشري في التدريب: إشراك البشر في عملية تدريب النماذج لمراجعة وتقييم المخرجات، مما يساعد في تصحيح الأخطاء وتوجيه النموذج نحو تقديم معلومات أكثر دقة.
- تطوير خوارزميات اكتشاف الهلوسة: تصميم خوارزميات قادرة على اكتشاف وتصحيح الهلوسات في مخرجات النماذج اللغوية قبل تقديمها للمستخدم.
خلاصة أخيرة
تُعد هلوسة الذكاء الاصطناعي تحديًا حقيقيًا في تطوير أنظمة ذكاء اصطناعي موثوقة.
من خلال فهم أسباب هذه الظاهرة وتطبيق الحلول الحالية والمستقبلية، يمكننا تقليل تأثيرها وضمان أن تكون مخرجات الذكاء الاصطناعي أكثر دقة وموثوقية.