Невпинно бреше — ChatGPT-4.5 "галюцинує" понад третину часу
Якби ваш партнер або друг починав вигадувати факти щоразу, коли ви ставите запитання, це, без сумніву, суттєво ускладнило б спілкування. Та, схоже, для OpenAI така поведінка сприймається інакше. У власному релізі, посилаючись на внутрішню систему оцінки правдивості SimpleQA, компанія визнала, що її нова велика мовна модель GPT-4.5 "галюцинує" — тобто впевнено видає вигадки, маскуючи їх під реальні факти, у 37% випадків.
Про це пише Futurism.
ChatGPT маскує неправдиві факти на кожен третій запит
Остання ШІ-модель від компанії, капіталізацію якої оцінюють у сотні мільярдів доларів, дає неправдиві відповіді понад один раз на три спроби.
Але, як не дивно, OpenAI намагається подати цю проблему зі "збоченими" вигадками в позитивному світлі. Їхня логіка — GPT-4.5 начебто бреше рідше, ніж попередні версії тих самих LLM.
Промовистим є графік, який показує, що GPT-4, модель із заявленими "просунутими" можливостями логічного міркування, "галюцинує" у 61,8% випадків на тому ж бенчмарку SimpleQA. А спрощений і дешевший варіант цієї ж системи під назвою o3-mini дає вигадки аж у 80,3% відповідей.
Втім, такі помилки притаманні не лише технологіям від OpenAI.
"Зараз навіть найкращі моделі лише приблизно у 35% випадків можуть гарантувати текст без галюцинацій", — пояснила Вентін Чжао, аспірантка Корнельського університету, яка торік стала співавторкою дослідження про показники "галюцинацій" у ШІ.
В інтерв'ю TechCrunch вона зазначила, що ми поки що не можемо цілком довіряти тому, що генерують ці моделі.
Якщо залишити осторонь шалені суми інвестицій у проєкти, які інколи мають проблеми з правдивістю, це все одно багато говорить про стан усієї ШІ-індустрії. Технології, що потребують колосальних ресурсів, подаються як крок до "інтелекту, близького до людського", але при цьому не здатні коректно відповідати навіть на базові запити.
Складається враження, що LLM-моделі від OpenAI поступово втрачають динаміку розвитку, і компанія відчайдушно шукає новий спосіб утримати той рівень ажіотажу, який вона мала після появи ChatGPT.
Нагадаємо, OpenAI представила нову модель штучного інтелекту GPT-4.5. У порівнянні з попередніми версіями, ця модель навчалася на більшому обсязі даних.
Також ми писали, що OpenAI оновила застосунок ChatGPT для iOS. Тепер чатбот можна використовувати як основну пошукову систему на пристроях Apple, активувавши спеціальне розширення в браузері Safari.
Читайте Новини.LIVE!