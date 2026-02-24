Даже мощные чатботы "ломаются" от общения с людьми. Фото: Unsplash. Коллаж: Новини.LIVE

Даже самые продвинутые ИИ-чат-боты начинают сбоить, когда общение превращается в длинную переписку, хотя в формате одного запроса показывают сильные результаты. Совместный анализ Microsoft Research и Salesforce на базе более 200 тысяч диалогов показал заметный провал качества в многоходовых разговорах.

Почему "сильные" модели теряются в многошаговых диалогах

Авторы работы проанализировали более 200 000 разговоров с ведущими LLM, среди которых GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 и Llama 4. Они пришли к выводу, что модели нередко "теряют нить" во время выполнения задач, если те разбиты на естественный многошаговый диалог.

Модели вроде GPT-4.1 и Gemini 2.5 Pro в формате одного запроса могут показывать около 90% успешности, но в длительном "вопрос-ответ" взаимодействии этот показатель падает примерно до 65%.

Разница не означает, будто модель "стала глупее" в прямом смысле. По оценкам исследователей, снижение "способности" составило около 15%, тогда как ненадежность в многошаговых диалогах выросла на 112%.

Одно из объяснений — явление преждевременной генерации: чат-бот пытается выдать решение еще до того, как пользователь завершил объяснение. Другой фактор — склонность опираться на собственный первый ответ в последующих шагах, даже если он был ошибочным, и строить дальнейшие выводы на ложной основе.

Отдельно исследователи описывают "раздувание ответа": в многошаговом формате ответы становились длиннее на 20-300%. По их мнению, большая длина повышает риск предположений и галлюцинаций, которые затем могут закрепляться как контекст разговора.

Эти выводы появляются на фоне активного внедрения ИИ в повседневные устройства. Искусственный интеллект все глубже интегрируют в смартфоны и компьютеры, однако значительная часть пользователей до сих пор скептически относится к таким функциям.

Даже на фоне популярности ChatGPT многие активные пользователи не могут объяснить, что именно означает аббревиатура "GPT".