Исследование показало, что ИИ "тупеет" во время диалогов с людьми
Даже самые продвинутые ИИ-чат-боты начинают сбоить, когда общение превращается в длинную переписку, хотя в формате одного запроса показывают сильные результаты. Совместный анализ Microsoft Research и Salesforce на базе более 200 тысяч диалогов показал заметный провал качества в многоходовых разговорах.
Об этом пишет Windows Central.
Почему "сильные" модели теряются в многошаговых диалогах
Авторы работы проанализировали более 200 000 разговоров с ведущими LLM, среди которых GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 и Llama 4. Они пришли к выводу, что модели нередко "теряют нить" во время выполнения задач, если те разбиты на естественный многошаговый диалог.
Модели вроде GPT-4.1 и Gemini 2.5 Pro в формате одного запроса могут показывать около 90% успешности, но в длительном "вопрос-ответ" взаимодействии этот показатель падает примерно до 65%.
Разница не означает, будто модель "стала глупее" в прямом смысле. По оценкам исследователей, снижение "способности" составило около 15%, тогда как ненадежность в многошаговых диалогах выросла на 112%.
Одно из объяснений — явление преждевременной генерации: чат-бот пытается выдать решение еще до того, как пользователь завершил объяснение. Другой фактор — склонность опираться на собственный первый ответ в последующих шагах, даже если он был ошибочным, и строить дальнейшие выводы на ложной основе.
Отдельно исследователи описывают "раздувание ответа": в многошаговом формате ответы становились длиннее на 20-300%. По их мнению, большая длина повышает риск предположений и галлюцинаций, которые затем могут закрепляться как контекст разговора.
Эти выводы появляются на фоне активного внедрения ИИ в повседневные устройства. Искусственный интеллект все глубже интегрируют в смартфоны и компьютеры, однако значительная часть пользователей до сих пор скептически относится к таким функциям.
Даже на фоне популярности ChatGPT многие активные пользователи не могут объяснить, что именно означает аббревиатура "GPT".
Читайте Новини.LIVE!