ШІ "дурнішає" від довгих розмов з людьми — дослідження Microsoft

ШІ-чатботи "ламаються" в довгих розмовах — дослідження Microsoft
Навіть потужні чатботи "ламаються" від спілкування з людьми. Фото: Unsplash. Колаж: Новини.LIVE

Навіть найсучасніші ШІ-чатботи втрачають надійність у довгих діалогах, хоча в коротких запитах демонструють високі результати. Спільне дослідження Microsoft Research і Salesforce на основі понад 200 тисяч розмов показало, що під час багатокрокового спілкування різко зростає кількість збоїв.

Про це пише Windows Central.

Реклама
Читайте також:

Чому "сильні" моделі губляться в багатокрокових діалогах

Автори роботи проаналізували понад 200 000 розмов із провідними LLM, серед яких GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 і Llama 4. Вони дійшли висновку, що моделі нерідко "втрачають нитку" під час виконання завдань, якщо ті розбиті на природний багатокроковий діалог.

Моделі на кшталт GPT-4.1 і Gemini 2.5 Pro у форматі одного запиту можуть показувати близько 90% успішності, але в тривалій "питання-відповідь" взаємодії цей показник падає приблизно до 65%.

Різниця не означає, ніби модель "стала дурнішою" у прямому сенсі. За оцінками дослідників, зниження "здібності" становило близько 15%, тоді як ненадійність у багатокрокових діалогах зросла на 112%.

Одне з пояснень — явище передчасної генерації: чатбот намагається видати рішення ще до того, як користувач завершив пояснення. Інший фактор — схильність опиратися на власну першу відповідь у наступних кроках, навіть якщо вона була помилковою, і будувати подальші висновки на хибній основі.

Окремо дослідники описують "роздування відповіді": у багатокроковому форматі відповіді ставали довшими на 20-300%. На їхню думку, більша довжина підвищує ризик припущень і галюцинацій, які потім можуть закріплюватися як контекст розмови.

Ці висновки з'являються на тлі активного впровадження ШІ в повсякденні пристрої. Штучний інтелект дедалі глибше інтегрують у смартфони та комп'ютери, однак значна частина користувачів досі скептично ставиться до таких функцій.

Навіть на тлі популярності ChatGPT багато активних користувачів не можуть пояснити, що саме означає абревіатура "GPT".

Microsoft дослідження штучний інтелект чатбот ChatGPT люди
Реклама
Реклама
Реклама
Реклама