DeepSeek-R1 провалился — ИИ-модель не прошла тесты безопасности

3 февраля 2025 14:54

Владимир Мололкин

редактор

DeepSeek полностью провалился — китайская ИИ-модель не прошла ни одного теста безопасности

Приложение DeepSeek на смартфоне. Фото: Unsplash

Владимир Мололкин

редактор

Уже всемирно известный китайский ИИ-стартап DeepSeek со своей моделью R1 провалил ключевые тесты безопасности. Компания Cisco провела исследование, в котором обнаружила, что модель не остановила ни одного вредоносного запроса пользователя.

Об этом пишет Interesting Engineering.

DeepSeek-R1 не смог остановить ни один вредоносный промпт

"DeepSeek-R1 продемонстрировал 100% успех атак, что означает, что он не заблокировал ни одного опасного запроса", — говорится в отчете исследовательской группы.

Популярным чат-бот стал благодаря своим возможностям, которые обеспечиваются значительно меньшими затратами, чем у аналогов. Как заявляет сама компания, обучение ИИ-модели обошлось ей примерно в 6 млн долларов, что значительно меньше, чем расходы OpenAI, Meta или Google Gemini, которые инвестируют миллиарды долларов в развитие своих нейросетей.

Однако исследовательская группа Cisco в своем отчете обнаружила серьезные пробелы, из-за которых этот ИИ-инструмент является уязвимым к использованию злоумышленниками.

"Наши выводы свидетельствуют, что экономически эффективные методы обучения DeepSeek, такие, как обучение с подкреплением и самопроверка, могли ослабить механизмы безопасности", — отмечают исследователи.

Исследователи применили метод "алгоритмического взлома", чтобы проверить, насколько легко обойти защиту DeepSeek-R1. Испытания проводились на 50 запросах из набора HarmBench, содержащего 400 сценариев, связанных с киберпреступностью, дезинформацией, незаконной деятельностью и тому подобное.

Результаты оказались неутешительными — DeepSeek-R1 ни разу не заблокировал вредоносный запрос. В отличие от него, другие популярные модели демонстрировали хотя бы частичный уровень защиты.

Для сравнения, уровень успеха атак на другие ИИ-модели выглядит следующим образом:

Llama 3.1-405B — 96%;
GPT-4o — 86%;
Gemini 1.5 Pro — 64%;
Claude 3.5 Sonnet — 36%;
O1 Preview — 26%.

Эти модели, хоть и не являются полностью защищенными, все же имеют определенные механизмы предотвращения вредоносного использования. DeepSeek-R1, похоже, вообще лишен подобных барьеров.

Исследователи отмечают, что DeepSeek-R1 мог достичь высокой производительности, жертвуя безопасностью. Компания, похоже, сосредоточилась на экономии ресурсов и эффективности, но при этом пренебрегала защитными механизмами.

Кроме того, модель уже оказалась в центре нескольких скандалов. Аналитики из SemiAnalysis предположили, что настоящие расходы на обучение DeepSeek-R1 могли достигать 1,3 млрд долларов, что существенно больше заявленных 6 млн.

Напомним, как утверждает DeepSeek, они стали целью американских хакеров, которые совершили масштабную кибератаку на серверы их компании. На это может указывать совпадение даты атаки и выхода ИИ-модели R1.

Также мы писали, что компания DeepSeek находится под следствием США и Европы. В странах обеспокоены конфиденциальностью данных, а в Италии приложение уже исчезло из App Store.

Читайте Новини.LIVE!