اخیراً تحقیقی توسط مرکز Tow Center for Digital Journalism انجام شده که عملکرد ۸ موتور جستجوی هوش مصنوعی از جمله ChatGPT، Perplexity، Microsoft Copilot و Grok را مورد بررسی قرار داده است. این تحقیق نشان میدهد که موتورهای جستجوی مبتنی بر هوش مصنوعی در ۶۰ درصد مواقع پاسخهای نادرستی ارائه میکنند.
نتایج جالب این تحقیق:
هوش مصنوعی ChatGPT به تمام ۲۰۰ سوال پاسخ داد، اما فقط ۲۸٪ از پاسخها کاملاً صحیح بودند و ۵۷٪ کاملاً اشتباه بودند.
هوش مصنوعی پر سر و صدای ایلان ماسک، Grok-3، بدترین عملکرد را داشت و در ۹۶٪ موارد پاسخهای نادرست تولید کرد!
هوش مصنوعی Microsoft Copilot بیش از نیمی از سوالات را نادیده گرفت و در پاسخهای ارائه شده نیز ۷۰٪ کاملاً نادرست بودند.
هوش مصنوعی Perplexity نسبت به سایرین کمی بهتر عمل کرد، اما همچنان خطاهای قابلتوجهی داشت.
هزینه بالا، دقت پایین:
نسخههای پولی این خدمات (۲۰ تا ۲۰۰ دلار در ماه) فقط اندکی بهتر از نسخههای رایگان بودند، اما همچنان خطای بالایی دارند.
یکی از مشکلات بزرگ این ابزارها، توهم (Hallucination) مدلهای زبانی است، یعنی این مدلهای میتوانند اطلاعات کاملا نادرست را با لحنی به شما پاسخ بدهند که به راحتی متوجه اشتباه بودن پاسخ نخواهید شد.
همچنین در این تحقیق مشخص شد بسیاری از موتورهای جستجو نتوانستند منبع خبر، نام رسانه و لینک اصلی را به درستی نمایش بدهند. جالبتر اینکه در برخی موارد حتی لینکهای ساختگی درست کردند یا به منابعی ارجاع دادند که اصلا وجود خارجی نداشتند.
مورد بعدی اینکه برخلاف گوگل که لینکها را از منابع رسمی و معتبر میدهد، مدلهای زبانی طوری طراحی شدهاند که برای هر سوالی جوابی در آستین داشته باشند حتی اگر اطلاعاتشان نادرست باشد. در نتیجه به جای نمایش یک نتیجه معتبر، یک پاسخ کاملا ساختگی ولی کاملا متقاعد کننده تحویلتان میدهند.
از طرف دیگر، موتورهای جستجوی سنتی مانند گوگل، از سیستم رتبه بندی پیشرفته برای فیلتر کردن اطلاعات نادرست و اولویت دادن به منابع معتبر استفاده میکنند. اما الگوریتمهای هوش مصنوعی اصلا این سطح از اعتبار سنجی را ندارند و ممکن است اطلاعات قدیمی، تحریف شده یا نادرستی به شما بدهند.