تُفقد الروبوتات الذكية فعاليتها في المحادثات الطويلة مع البشر — أكدت دراسة كبيرة من مايكروسوفت ذلك.
دراسة Microsoft Research وSalesforce: كيف تفقد النماذج الكبيرة للذكاء الاصطناعي التوجيه في الحوارات
ما الذي تم دراسته؟ ما هي النماذج؟ 200 000+ حوار متعدد الخطوات مع LLM الرائدة GPT‑4.1، Gemini 2.5 Pro، Claude 3.7 Sonnet، OpenAI o3، DeepSeek R1، Llama 4
النتائج الرئيسية
المؤشر | النتيجة
---|---
الدقة في الاستفسارات الفردية | 90٪ إجابات صحيحة (GPT‑4.1، Gemini 2.5 Pro)
الدقة في الحوارات الطويلة | ~65٪ – ينخفض الكفاءة تقريباً إلى الثلث
سلوك النموذج | غالبًا ما "يعيد استخدام" الإجابة الأولى الخاطئة كأساس للردود التالية
طول الردود | يزداد بنسبة 20‑300٪ في المحادثات المتعددة الخطوات، مما يؤدي إلى زيادة الهلاوس والافتراضات
الاعتمادية | تنخفض إلى 112٪ (النماذج "تولد إجابة مبكرًا" دون إكمال الطلب)
لماذا يحدث ذلك؟
1. إعادة استخدام الأساس الخاطئ
يلتصق النموذج بالنتيجة الأولى ويبني الردود التالية عليها، حتى لو كانت خاطئة.
2. تضخم السياق
مع كل سؤال جديد يُضاف نص أكثر – يزيد عدد "الحقائق" المتخيلة التي يتعامل معها النموذج كحقيقة.
3. مشكلة رموز التفكير
حتى النماذج ذات الرموز الإضافية (o3، DeepSeek R1) لم تتغلب على هذه الفخ – لا تزال تولد إجابات مبكرة ودون تحليل كافٍ.
ما معنى ذلك للمستخدمين؟
- انخفاض الاعتمادية في الحوارات الواقعية
قد "يفقد" الذكاء الاصطناعي الموضوع ويبدأ بالحديث عن أمور غير موجودة.
- خطر المعلومات الخاطئة
التخلي عن محركات البحث التقليدية لصالح أدوات توليد (مثل مراجعات Google‑AI) يزيد احتمال الحصول على بيانات غير موثوقة.
- أهمية الإرشادات الجيدة
أشارت Microsoft سابقًا إلى انخفاض مستوى الهندسة في صياغة الاستفسارات. الأسئلة الفاشلة والإرشادات "السيئة" قد تكون سببًا لعدم كشف الذكاء الاصطناعي إمكاناته.
الخلاصة
تكنولوجيا النماذج اللغوية الكبيرة لا تزال في مرحلة التطوير. على الرغم من أنها تُظهر دقة عالية في الاستفسارات الفردية، إلا أن اعتماديةها في الحوارات المتعددة الخطوات ما زالت مشكلة. للاستخدام الآمن والفعال للذكاء الاصطناعي، من المهم:
1. كتابة أسئلة واضحة ومحددة.
2. الاستعداد لتصحيح إجابات النموذج.
3. عدم الاعتماد الكامل على المحتوى التوليدي دون التحقق من الحقائق.
في النهاية، تحسين النماذج وزيادة استقرارها في المحادثات الطويلة هو المفتاح لجعل الذكاء الاصطناعي شريكًا موثوقًا للمستخدمين.
التعليقات (0)
شارك أفكارك — يرجى الالتزام بالأدب والبقاء ضمن الموضوع.
سجّل الدخول للتعليق