تدريب نماذج الذكاء الاصطناعي ببيانات منتجة ذاتيا .. قد يؤثر على دقة المعلومات
أظهرت دراسة جديدة أجراها باحثون من جامعتي ” رايس” و” ستانفورد”الأمريكيتين أن تدريب نماذج الذكاء الاصطناعي باستخدام بيانات منتجة أصلا بالتقنية ذاتها يمكن أن يؤدي إلى مشاكل كبيرة في دقة وجودة المعلومات، وعرض محتوى متضارب بصورة متزايدة مع مرور الوقت.
وتوصل الباحثون إلى هذه النتيجة بعد دراستهم لنماذج الذكاء الاصطناعي التي تولد الصور مثل ” ميدجورني”، و” دال-اي”، و” ستيبل ديفيوجن”، والتي أظهرت أن الصور المنتجة تصبح مليئة بعناصر غير متطابقة كلما أضيفت بيانات منتجة بواسطة الذكاء الاصطناعي إلى النموذج.
وتسلط الدراسة الضوء على ما يسمى بـ”الالتهام الذاتي” في الذكاء الاصطناعي، حيث يعتمد النموذج بشكل متزايد على بيانات تم إنتاجها بواسطة تقنيات الذكاء الاصطناعي بدلا من مصادر بشرية متنوعة.
وحذر الباحثون من أن هذه الظاهرة تشكل تهديدا على شبكة الإنترنت المليئة بمحتوى منتج بواسطة الذكاء الاصطناعي، وعلى مستقبل مجال الذكاء الاصطناعي الذي يشهد ازدهارا كبيرا وتبلغ قيمته مليارات الدولارات.
وتؤكد الدراسة ضرورة مراجعة منهجيات التدريب وتطوير استراتيجيات جديدة لضمان جودة البيانات المستخدمة في تدريب نماذج الذكاء الاصطناعي.
وتستخدم شركات الذكاء الاصطناعي في مرات كثيرة “بيانات اصطناعية” لتدريب برامجها، بسبب سهولة الحصول عليها ووفرتها وتكلفتها المنخفضة مقارنة ببيانات ابتكرها البشر.
جدير بالذكر أن النماذج القائمة على أدوات الذكاء الاصطناعي التوليدي مثل برنامج ” تشات جي بي تي” والتي تتيح إنتاج مختلف أنواع المحتوى بناء على طلب بسيط من المستخدمين، تحتاج إلى التدريب من خلال كميات هائلة من البيانات.