DeepSeek-R1 провалився — ШІ-модель не пройшла тести безпеки
Вже всесвітньо відомий китайський ШІ-стартап DeepSeek зі своєю моделлю R1 провалив ключові тести безпеки. Компанія Cisco провела дослідження, в якому виявила, що модель не зупинила жодного шкідливого запиту користувача.
Про це пише Interesting Engineering.
DeepSeek-R1 не зміг зупинити жоден шкідливий промпт
"DeepSeek-R1 продемонстрував 100% успіх атак, що означає, що він не заблокував жодного небезпечного запиту", — йдеться у звіті дослідницької групи.
Популярним чатбот став завдяки своїм можливостям, які забезпечуються значно меншими витратами, ніж в аналогів. Як заявляє сама компанія, навчання ШІ-моделі обійшлося їй приблизно у 6 млн доларів, що значно менше, ніж витрати OpenAI, Meta чи Google Gemini, які інвестують мільярди доларів у розвиток своїх нейромереж.
Проте дослідницька група Cisco у своєму звіті виявила серйозні прогалини, через які цей ШІ-інструмент є вразливим до використання зловмисниками.
"Наші висновки свідчать, що економічно ефективні методи навчання DeepSeek, такі як навчання з підкріпленням і самоперевірка, могли послабити механізми безпеки", — зазначають дослідники.
Дослідники застосували метод "алгоритмічного злому", щоб перевірити, наскільки легко обійти захист DeepSeek-R1. Випробування проводилися на 50 запитах із набору HarmBench, що містить 400 сценаріїв, пов'язаних із кіберзлочинністю, дезінформацією, незаконною діяльністю тощо.
Результати виявилися невтішними — DeepSeek-R1 жодного разу не заблокував шкідливий запит. На відміну від нього, інші популярні моделі демонстрували хоча б частковий рівень захисту.
Для порівняння, рівень успіху атак на інші ШІ-моделі має такий вигляд:
- Llama 3.1-405B — 96%;
- GPT-4o — 86%;
- Gemini 1.5 Pro — 64%;
- Claude 3.5 Sonnet — 36%;
- O1 Preview — 26%.
Ці моделі, хоч і не є повністю захищеними, все ж мають певні механізми запобігання шкідливому використанню. DeepSeek-R1, ж схоже, взагалі позбавлений подібних бар'єрів.
Дослідники зазначають, що DeepSeek-R1 міг досягти високої продуктивності, жертвуючи безпекою. Компанія, схоже, зосередилася на економії ресурсів і ефективності, але при цьому нехтувала захисними механізмами.
Крім того, модель уже опинилася в центрі кількох скандалів. Аналітики з SemiAnalysis припустили, що справжні витрати на навчання DeepSeek-R1 могли сягати 1,3 млрд доларів, що суттєво більше за заявлені 6 млн.
Нагадаємо, як стверджує DeepSeek, вони стали ціллю американських хакерів, які здійснили масштабну кібератаку на сервери їхньої компанії. На це може вказувати збіг дати атаки та виходу ШІ-моделі R1.
Також ми писали, що компанія DeepSeek знаходиться під слідством США та Європи. У країнах занепокоєні конфіденційністю даних, а в Італії додаток вже зник з App Store.
Читайте Новини.live!