Неустанно врет — ChatGPT-4.5 "галлюцинирует" более трети времени
Если бы ваш партнер или друг начинал придумывать факты каждый раз, когда вы задаете вопрос, это, без сомнения, существенно усложнило бы общение. Но, похоже, для OpenAI такое поведение воспринимается иначе. В собственном релизе, ссылаясь на внутреннюю систему оценки правдивости SimpleQA, компания признала, что ее новая большая языковая модель GPT-4.5 "галлюцинирует" — то есть уверенно выдает выдумки, маскируя их под реальные факты, в 37% случаев.
Об этом пишет Futurism.
ChatGPT маскирует ложные факты на каждый третий запрос
Последняя ИИ-модель от компании, капитализацию которой оценивают в сотни миллиардов долларов, дает ложные ответы более одного раза на три попытки.
Но, как ни странно, OpenAI пытается представить эту проблему с "извращенными" выдумками в положительном свете. Их логика — GPT-4.5 вроде бы врет реже, чем предыдущие версии тех же LLM.
Красноречивым является график, показывающий, что GPT-4, модель с заявленными "продвинутыми" возможностями логического рассуждения, "галлюцинирует" в 61,8% случаев на том же бенчмарке SimpleQA. А упрощенный и более дешевый вариант этой же системы под названием o3-mini дает выдумки аж в 80,3% ответов.
Впрочем, такие ошибки присущи не только технологиям от OpenAI.
"Сейчас даже лучшие модели только примерно в 35% случаев могут гарантировать текст без галлюцинаций", — пояснила Вентин Чжао, аспирантка Корнельского университета, которая в прошлом году стала соавтором исследования о показателях "галлюцинаций" в ИИ.
В интервью TechCrunch она отметила, что мы пока не можем полностью доверять тому, что генерируют эти модели.
Если оставить в стороне огромные суммы инвестиций в проекты, которые иногда имеют проблемы с правдивостью, это все равно многое говорит о состоянии всей ИИ-индустрии. Технологии, требующие колоссальных ресурсов, подаются как шаг к "интеллекту, близкому к человеческому", но при этом не способны корректно отвечать даже на базовые запросы.
Складывается впечатление, что LLM-модели от OpenAI постепенно теряют динамику развития, и компания отчаянно ищет новый способ удержать тот уровень ажиотажа, который она имела после появления ChatGPT.
Напомним, OpenAI представила новую модель искусственного интеллекта GPT-4.5. По сравнению с предыдущими версиями, эта модель обучалась на большем объеме данных.
Также мы писали, что OpenAI обновила приложение ChatGPT для iOS. Теперь чат-бот можно использовать как основную поисковую систему на устройствах Apple, активировав специальное расширение в браузере Safari.
Читайте Новини.LIVE!