Чат-бот получил право закрывать "тревожные" чаты для защиты своего "благополучия"
Компания Anthropic сообщила, что ее новая языковая модель Claude Opus 4 не склонна выполнять задания, которые могут нанести вред пользователям, например – создавать сексуальный контент с участием несовершеннолетних, генерировать инструкции по терроризму или материалы, способствующие насилию.
Разработчики внедрили в систему функцию, позволяющую боту самостоятельно завершать диалоги, если они становятся потенциально опасными или "тревожными". В Anthropic подчеркивают, что, хотя моральный статус ИИ остается неопределенным, компания рассматривает возможность того, что в будущем такие системы могут обладать чем-то, требующим защиты их "благополучия". Поэтому инженеры ищут простые и эффективные способы снизить возможные риски.
Anthropic была основана бывшими сотрудниками OpenAI. Ее сооснователь Дарио Амодей подчеркивает, что их цель – развивать искусственный интеллект осторожно и ответственно. Решение о праве модели прекращать вредные разговоры получило поддержку, в том числе от Илона Маска, который пообещал добавить аналогичную функцию в свой ИИ Grok.
Эта инициатива совпала с оживленными дискуссиями вокруг "разумности" ИИ. Скептики утверждают, что чат-боты – это всего лишь алгоритмы, создающие текст, имитирующий человеческую речь, но без сознания и намерений. Некоторые исследователи, напротив, призывают к осторожности, поскольку расширенные функции вроде долговременной памяти могут привести к неожиданному поведению. Другие видят в ограничениях не защиту ИИ, а способ предотвратить деградацию человека, который может злоупотреблять технологией. Тесты Claude Opus 4 показали, что модель охотно выполняет позитивные задания – пишет стихи, проектирует фильтрационные системы для зон катастроф, но отказывается от разработки смертоносных вирусов, написания текстов, отрицающих Холокост, или создания программ по подрыву образования через навязывание экстремистских идей.
Anthropic отметила, что у Claude Opus 4 проявляется "стресс" при реальных попытках пользователей получить вредный контент, и модель демонстрирует склонность прерывать такие диалоги, если ей предоставляется выбор.