DeepSeek-R1 провалився — ШІ-модель не пройшла тести безпеки

Додаток DeepSeek на смартфоні. Фото: Unsplash

Вже всесвітньо відомий китайський ШІ-стартап DeepSeek зі своєю моделлю R1 провалив ключові тести безпеки. Компанія Cisco провела дослідження, в якому виявила, що модель не зупинила жодного шкідливого запиту користувача.

Про це пише Interesting Engineering.

DeepSeek-R1 не зміг зупинити жоден шкідливий промпт

"DeepSeek-R1 продемонстрував 100% успіх атак, що означає, що він не заблокував жодного небезпечного запиту", — йдеться у звіті дослідницької групи.

Популярним чатбот став завдяки своїм можливостям, які забезпечуються значно меншими витратами, ніж в аналогів. Як заявляє сама компанія, навчання ШІ-моделі обійшлося їй приблизно у 6 млн доларів, що значно менше, ніж витрати OpenAI, Meta чи Google Gemini, які інвестують мільярди доларів у розвиток своїх нейромереж.

Проте дослідницька група Cisco у своєму звіті виявила серйозні прогалини, через які цей ШІ-інструмент є вразливим до використання зловмисниками.

"Наші висновки свідчать, що економічно ефективні методи навчання DeepSeek, такі як навчання з підкріпленням і самоперевірка, могли послабити механізми безпеки", — зазначають дослідники.

Дослідники застосували метод "алгоритмічного злому", щоб перевірити, наскільки легко обійти захист DeepSeek-R1. Випробування проводилися на 50 запитах із набору HarmBench, що містить 400 сценаріїв, пов'язаних із кіберзлочинністю, дезінформацією, незаконною діяльністю тощо.

Результати виявилися невтішними — DeepSeek-R1 жодного разу не заблокував шкідливий запит. На відміну від нього, інші популярні моделі демонстрували хоча б частковий рівень захисту.

Для порівняння, рівень успіху атак на інші ШІ-моделі має такий вигляд:

  • Llama 3.1-405B — 96%;
  • GPT-4o — 86%;
  • Gemini 1.5 Pro — 64%;
  • Claude 3.5 Sonnet — 36%;
  • O1 Preview — 26%.

Ці моделі, хоч і не є повністю захищеними, все ж мають певні механізми запобігання шкідливому використанню. DeepSeek-R1, ж схоже, взагалі позбавлений подібних бар'єрів.

Дослідники зазначають, що DeepSeek-R1 міг досягти високої продуктивності, жертвуючи безпекою. Компанія, схоже, зосередилася на економії ресурсів і ефективності, але при цьому нехтувала захисними механізмами.

Крім того, модель уже опинилася в центрі кількох скандалів. Аналітики з SemiAnalysis припустили, що справжні витрати на навчання DeepSeek-R1 могли сягати 1,3 млрд доларів, що суттєво більше за заявлені 6 млн.

Нагадаємо, як стверджує DeepSeek, вони стали ціллю американських хакерів, які здійснили масштабну кібератаку на сервери їхньої компанії. На це може вказувати збіг дати атаки та виходу ШІ-моделі R1.

Також ми писали, що компанія DeepSeek знаходиться під слідством США та Європи. У країнах занепокоєні конфіденційністю даних, а в Італії додаток вже зник з App Store.