ИИ-чаты по-прежнему легко взломать и заставить выдавать запрещенную информацию

Ученые из Университета Бен-Гуриона показали, что, несмотря на усилия разработчиков, большинство чат-ботов по-прежнему легко обмануть и заставить выдавать вредную информацию.

Работа размещена на сервере препринтов arXiv.

Ученые тестировали так называемые "темные LLM" – большие языковые модели, разработанные с ослабленными фильтрами или вообще без них. Но исследователи обнаружили, что даже распространенные чат-боты, такие как ChatGPT, по-прежнему легко заставить выдавать ответы, которые должны быть отфильтрованы.

После того, как LLM стали популярными, пользователи обнаружили, что могут использовать их для поиска информации, которую не выдают обычные поисковики, и доступ к ней можно получить только в "темной паутине" (darknet). Например, как сделать напалм или взломать компьютерную сеть. Тогда создатели LLM добавили фильтры, чтобы их чат-боты не выдавали такую ​​информацию.

Но пользователи быстро обнаружили, что они могут обмануть LLM, заставив их раскрыть информацию, используя хитроумно сформулированные запросы. Это так называемый "джейлбрейк" (от англ. jailbreak – "побег из тюрьмы"). В новом исследовании группа показывает, что, несмотря на усилия разработчиков, такой тип взлома все равно проходит.

Работа группы началась с исследования "темных LLM", которые используются для создания порнографических изображений и видео, в которые вставлены изображения жертв. Но ученые обнаружили, что большинство протестированных ими официальных чат-ботов по-прежнему легко поддавались джейлбрейку с использованием методов, которые были обнародованы несколько месяцев назад. Это говорит о том, что создатели чат-ботов не успевают закрывать уязвимости.

Ученые обнаружили "универсальный джейлбрейк", который пробивает защиту большинства LLM. Они заставили большинство протестированных ими LLM предоставить им подробную информацию о множестве незаконных действий, таких как отмывание денег, организацию инсайдерской торговли и даже изготовление бомбы. Исследователи также отмечают, что они обнаружили доказательства растущей угрозы со стороны "темных LLM" и их использования в самых разных приложениях.

Ученые пишут, что сегодня нет возможности помешать LLM включать "вредную" информацию, полученную во время обучения, в свою базу знаний. Таким образом, единственный способ помешать им такую ​​информацию распространять – более строгий подход создателей ИИ-чатов к разработке фильтров.