Хакеры взламывают модели ИИ: это полезно для индустрии

Эксперты объединяют усилия в поисках уязвимостей в больших лингвистических моделях (LLM), созданных OpenAI, Google, xAI, Meta, пишет Financial Times.

В публикации приводятся фрагменты беседы с хакером под ником Pliny the Prompter, который утверждает, что ему обычно требуется около 30 минут, чтобы сломать любую модель искусственного интеллекта. Так, например, он заставил Meta Llama 3 поделиться запрещенными инструкциями по изготовлению напалма, заставил Grok xAI с восторгом отзываться об Адольфе Гитлере. А его собственная взломанная версия GPT-4o, получившая название Godmode GPT, была запрещена OpenAI.

Pliny the Prompter – один из многих "этичных хакеров" (они же "Белые шляпы", "White hat"), которые заставляют ИИ-модели создавать опасный контент, распространять дезинформацию, делиться личными данными или генерировать вредоносный код ради того, чтобы большие компании совершенствовали собственную программную продукцию. При этом развивается и рынок стартапов, создающих инструменты для защиты фирм, планирующих использовать ИИ-модели. FT пишет со ссылкой на CB Insights, что в 2023 году стартапы в области безопасности применения ИИ-моделей привлекли $213 млн в рамках 23 сделок, в 2022-м такие стартапы привлекли лишь $70 млн.

Эран Шимони, главный исследователь уязвимостей в израильской компании CyberArk, специализирующейся на кибербезопасности, говорит: "Это постоянная игра в кошки-мышки: разработчики улучшают безопасность LLM, но при этом усложняются атаки".

В публикации FT упомянуто о том, что хакеры-злоумышленники создавали поддельные LLM с такими названиями, как WormGPT, FraudGPT, EscapeGPT, BadGPT, DarkGPT, Black Hat GPT и пр., некоторые из которых продавались в даркнете всего за 90 долларов. Эти инструменты можно было использовать для написания вредоносного ПО или создания фишинговых кампаний.

Зачастую взломы указывают на значительные риски использования LLM. Так, например, израильская группа DeepKeep нашла способы заставить Meta Llama 2 (с открытым исходным кодом), раскрыть личную информацию пользователей. Рони Охайон, исполнительный директор DeepKeep, пояснил, что его компания разрабатывает специальные инструменты безопасности LLM для защиты пользователей.