ШІ "дурнішає" від довгих розмов з людьми — дослідження Microsoft

Навіть потужні чатботи "ламаються" від спілкування з людьми. Фото: Unsplash. Колаж: Новини.LIVE

Навіть найсучасніші ШІ-чатботи втрачають надійність у довгих діалогах, хоча в коротких запитах демонструють високі результати. Спільне дослідження Microsoft Research і Salesforce на основі понад 200 тисяч розмов показало, що під час багатокрокового спілкування різко зростає кількість збоїв.

Про це пише Windows Central.

Чому "сильні" моделі губляться в багатокрокових діалогах

Автори роботи проаналізували понад 200 000 розмов із провідними LLM, серед яких GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 і Llama 4. Вони дійшли висновку, що моделі нерідко "втрачають нитку" під час виконання завдань, якщо ті розбиті на природний багатокроковий діалог.

Моделі на кшталт GPT-4.1 і Gemini 2.5 Pro у форматі одного запиту можуть показувати близько 90% успішності, але в тривалій "питання-відповідь" взаємодії цей показник падає приблизно до 65%.

Різниця не означає, ніби модель "стала дурнішою" у прямому сенсі. За оцінками дослідників, зниження "здібності" становило близько 15%, тоді як ненадійність у багатокрокових діалогах зросла на 112%.

Одне з пояснень — явище передчасної генерації: чатбот намагається видати рішення ще до того, як користувач завершив пояснення. Інший фактор — схильність опиратися на власну першу відповідь у наступних кроках, навіть якщо вона була помилковою, і будувати подальші висновки на хибній основі.

Окремо дослідники описують "роздування відповіді": у багатокроковому форматі відповіді ставали довшими на 20-300%. На їхню думку, більша довжина підвищує ризик припущень і галюцинацій, які потім можуть закріплюватися як контекст розмови.

Ці висновки з'являються на тлі активного впровадження ШІ в повсякденні пристрої. Штучний інтелект дедалі глибше інтегрують у смартфони та комп'ютери, однак значна частина користувачів досі скептично ставиться до таких функцій.

Навіть на тлі популярності ChatGPT багато активних користувачів не можуть пояснити, що саме означає абревіатура "GPT".