ШІ "дурнішає" від довгих розмов з людьми — дослідження Microsoft
Навіть найсучасніші ШІ-чатботи втрачають надійність у довгих діалогах, хоча в коротких запитах демонструють високі результати. Спільне дослідження Microsoft Research і Salesforce на основі понад 200 тисяч розмов показало, що під час багатокрокового спілкування різко зростає кількість збоїв.
Про це пише Windows Central.
Чому "сильні" моделі губляться в багатокрокових діалогах
Автори роботи проаналізували понад 200 000 розмов із провідними LLM, серед яких GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 і Llama 4. Вони дійшли висновку, що моделі нерідко "втрачають нитку" під час виконання завдань, якщо ті розбиті на природний багатокроковий діалог.
Моделі на кшталт GPT-4.1 і Gemini 2.5 Pro у форматі одного запиту можуть показувати близько 90% успішності, але в тривалій "питання-відповідь" взаємодії цей показник падає приблизно до 65%.
Різниця не означає, ніби модель "стала дурнішою" у прямому сенсі. За оцінками дослідників, зниження "здібності" становило близько 15%, тоді як ненадійність у багатокрокових діалогах зросла на 112%.
Одне з пояснень — явище передчасної генерації: чатбот намагається видати рішення ще до того, як користувач завершив пояснення. Інший фактор — схильність опиратися на власну першу відповідь у наступних кроках, навіть якщо вона була помилковою, і будувати подальші висновки на хибній основі.
Окремо дослідники описують "роздування відповіді": у багатокроковому форматі відповіді ставали довшими на 20-300%. На їхню думку, більша довжина підвищує ризик припущень і галюцинацій, які потім можуть закріплюватися як контекст розмови.
Ці висновки з'являються на тлі активного впровадження ШІ в повсякденні пристрої. Штучний інтелект дедалі глибше інтегрують у смартфони та комп'ютери, однак значна частина користувачів досі скептично ставиться до таких функцій.
Навіть на тлі популярності ChatGPT багато активних користувачів не можуть пояснити, що саме означає абревіатура "GPT".
Читайте Новини.live!