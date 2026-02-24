ШІ "дурнішає" від довгих розмов з людьми — дослідження Microsoft
Навіть найсучасніші ШІ-чатботи втрачають надійність у довгих діалогах, хоча в коротких запитах демонструють високі результати. Спільне дослідження Microsoft Research і Salesforce на основі понад 200 тисяч розмов показало, що під час багатокрокового спілкування різко зростає кількість збоїв.
Про це пише Windows Central.
Чому "сильні" моделі губляться в багатокрокових діалогах
Автори роботи проаналізували понад 200 000 розмов із провідними LLM, серед яких GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 і Llama 4. Вони дійшли висновку, що моделі нерідко "втрачають нитку" під час виконання завдань, якщо ті розбиті на природний багатокроковий діалог.
Моделі на кшталт GPT-4.1 і Gemini 2.5 Pro у форматі одного запиту можуть показувати близько 90% успішності, але в тривалій "питання-відповідь" взаємодії цей показник падає приблизно до 65%.
Різниця не означає, ніби модель "стала дурнішою" у прямому сенсі. За оцінками дослідників, зниження "здібності" становило близько 15%, тоді як ненадійність у багатокрокових діалогах зросла на 112%.
Одне з пояснень — явище передчасної генерації: чатбот намагається видати рішення ще до того, як користувач завершив пояснення. Інший фактор — схильність опиратися на власну першу відповідь у наступних кроках, навіть якщо вона була помилковою, і будувати подальші висновки на хибній основі.
Окремо дослідники описують "роздування відповіді": у багатокроковому форматі відповіді ставали довшими на 20-300%. На їхню думку, більша довжина підвищує ризик припущень і галюцинацій, які потім можуть закріплюватися як контекст розмови.
Ці висновки з'являються на тлі активного впровадження ШІ в повсякденні пристрої. Штучний інтелект дедалі глибше інтегрують у смартфони та комп'ютери, однак значна частина користувачів досі скептично ставиться до таких функцій.
Навіть на тлі популярності ChatGPT багато активних користувачів не можуть пояснити, що саме означає абревіатура "GPT".
