Неустанно врет — ChatGPT-4.5 "галлюцинирует" более трети времени

OpenAI признала, что ChatGPT-4.5 "галлюцинирует" на каждый третий запрос — что это значит
ChatGPT на экране смартфона. Фото: Pexels

Если бы ваш партнер или друг начинал придумывать факты каждый раз, когда вы задаете вопрос, это, без сомнения, существенно усложнило бы общение. Но, похоже, для OpenAI такое поведение воспринимается иначе. В собственном релизе, ссылаясь на внутреннюю систему оценки правдивости SimpleQA, компания признала, что ее новая большая языковая модель GPT-4.5 "галлюцинирует" — то есть уверенно выдает выдумки, маскируя их под реальные факты, в 37% случаев.

Об этом пишет Futurism.

Читайте также:

ChatGPT маскирует ложные факты на каждый третий запрос

Последняя ИИ-модель от компании, капитализацию которой оценивают в сотни миллиардов долларов, дает ложные ответы более одного раза на три попытки.

Но, как ни странно, OpenAI пытается представить эту проблему с "извращенными" выдумками в положительном свете. Их логика — GPT-4.5 вроде бы врет реже, чем предыдущие версии тех же LLM.

Красноречивым является график, показывающий, что GPT-4, модель с заявленными "продвинутыми" возможностями логического рассуждения, "галлюцинирует" в 61,8% случаев на том же бенчмарке SimpleQA. А упрощенный и более дешевый вариант этой же системы под названием o3-mini дает выдумки аж в 80,3% ответов.

Впрочем, такие ошибки присущи не только технологиям от OpenAI.

"Сейчас даже лучшие модели только примерно в 35% случаев могут гарантировать текст без галлюцинаций", — пояснила Вентин Чжао, аспирантка Корнельского университета, которая в прошлом году стала соавтором исследования о показателях "галлюцинаций" в ИИ.

В интервью TechCrunch она отметила, что мы пока не можем полностью доверять тому, что генерируют эти модели.

Если оставить в стороне огромные суммы инвестиций в проекты, которые иногда имеют проблемы с правдивостью, это все равно многое говорит о состоянии всей ИИ-индустрии. Технологии, требующие колоссальных ресурсов, подаются как шаг к "интеллекту, близкому к человеческому", но при этом не способны корректно отвечать даже на базовые запросы.

Складывается впечатление, что LLM-модели от OpenAI постепенно теряют динамику развития, и компания отчаянно ищет новый способ удержать тот уровень ажиотажа, который она имела после появления ChatGPT.

Напомним, OpenAI представила новую модель искусственного интеллекта GPT-4.5. По сравнению с предыдущими версиями, эта модель обучалась на большем объеме данных.

Также мы писали, что OpenAI обновила приложение ChatGPT для iOS. Теперь чат-бот можно использовать как основную поисковую систему на устройствах Apple, активировав специальное расширение в браузере Safari.

технологии нейросеть искусственный интеллект чат-бот ChatGPT OpenAI
Реклама
Реклама
Реклама