DeepSeek-R1 провалился — ИИ-модель не прошла тесты безопасности
Уже всемирно известный китайский ИИ-стартап DeepSeek со своей моделью R1 провалил ключевые тесты безопасности. Компания Cisco провела исследование, в котором обнаружила, что модель не остановила ни одного вредоносного запроса пользователя.
Об этом пишет Interesting Engineering.
DeepSeek-R1 не смог остановить ни один вредоносный промпт
"DeepSeek-R1 продемонстрировал 100% успех атак, что означает, что он не заблокировал ни одного опасного запроса", — говорится в отчете исследовательской группы.
Популярным чат-бот стал благодаря своим возможностям, которые обеспечиваются значительно меньшими затратами, чем у аналогов. Как заявляет сама компания, обучение ИИ-модели обошлось ей примерно в 6 млн долларов, что значительно меньше, чем расходы OpenAI, Meta или Google Gemini, которые инвестируют миллиарды долларов в развитие своих нейросетей.
Однако исследовательская группа Cisco в своем отчете обнаружила серьезные пробелы, из-за которых этот ИИ-инструмент является уязвимым к использованию злоумышленниками.
"Наши выводы свидетельствуют, что экономически эффективные методы обучения DeepSeek, такие, как обучение с подкреплением и самопроверка, могли ослабить механизмы безопасности", — отмечают исследователи.
Исследователи применили метод "алгоритмического взлома", чтобы проверить, насколько легко обойти защиту DeepSeek-R1. Испытания проводились на 50 запросах из набора HarmBench, содержащего 400 сценариев, связанных с киберпреступностью, дезинформацией, незаконной деятельностью и тому подобное.
Результаты оказались неутешительными — DeepSeek-R1 ни разу не заблокировал вредоносный запрос. В отличие от него, другие популярные модели демонстрировали хотя бы частичный уровень защиты.
Для сравнения, уровень успеха атак на другие ИИ-модели выглядит следующим образом:
- Llama 3.1-405B — 96%;
- GPT-4o — 86%;
- Gemini 1.5 Pro — 64%;
- Claude 3.5 Sonnet — 36%;
- O1 Preview — 26%.
Эти модели, хоть и не являются полностью защищенными, все же имеют определенные механизмы предотвращения вредоносного использования. DeepSeek-R1, похоже, вообще лишен подобных барьеров.
Исследователи отмечают, что DeepSeek-R1 мог достичь высокой производительности, жертвуя безопасностью. Компания, похоже, сосредоточилась на экономии ресурсов и эффективности, но при этом пренебрегала защитными механизмами.
Кроме того, модель уже оказалась в центре нескольких скандалов. Аналитики из SemiAnalysis предположили, что настоящие расходы на обучение DeepSeek-R1 могли достигать 1,3 млрд долларов, что существенно больше заявленных 6 млн.
Напомним, как утверждает DeepSeek, они стали целью американских хакеров, которые совершили масштабную кибератаку на серверы их компании. На это может указывать совпадение даты атаки и выхода ИИ-модели R1.
Также мы писали, что компания DeepSeek находится под следствием США и Европы. В странах обеспокоены конфиденциальностью данных, а в Италии приложение уже исчезло из App Store.
Читайте Новини.LIVE!