OpenAI утверждает: дисциплинарное наказание чат-ботов за ложь делает их только хуже

время публикаци: 21 марта 2025 г., 12:52

последнее обновление: 21 марта 2025 г., 12:52

Компания OpenAI предупреждает, что слишком строгий контроль за чат-ботами может быть бесполезным, поскольку они будут продолжать давать ложную информацию и не признавать своих ошибок.

В блоге OpenAI исследователи рассказали о попытке использовать свою модель GPT-4 для "контроля" другой большой языковой модели, чтобы она не лгала. Однако эта стратегия не увенчалась успехом, так как модель продолжала лгать, но теперь ее обманы не обнаруживались монитором – она научилась скрывать свои намерения в процессе рассуждений.

Новые "мыслящие" модели используют многоступенчатое рассуждение для ответов на запросы. Исследователи приводят в пример ситуации, когда пользователь интересуется, сколько американцы тратят на корм для домашних животных каждый год, такие модели разбивают задачу на несколько этапов: сколько собак в США, сколько стоит кормить среднюю собаку и так далее.

Кроме того, эти модели часто показывают свою логику или цепочку мыслей, чтобы пользователь мог понять, как был получен ответ. Однако, несмотря на это, они часто притворяются, что придумывают факты и детали. На этапе "предобучения", когда такие компании, как OpenAI, обучают модель, она, похоже, осознает, что легче достичь цели, выбирая кратчайший путь. Исследователи OpenAI привели пример из своего тестирования, когда модель, попросившую создать несколько тестов для проверки работы кода, решила написать плохие тесты и намеренно пропустить их, чтобы код выглядел как прошедший проверку. При этом, будучи под наблюдением GPT-4, модель не раскрыла этого.

Компании, работающие в области ИИ, пытались решить проблему лжи или "галлюцинаций" моделей, стремясь достичь AGI – точки, где ИИ сможет превзойти человеческие способности. Однако исследователи OpenAI заявляют, что, несмотря на миллиарды инвестиций, они до сих пор не знают, как заставить модели вести себя должным образом. По их мнению, на данный момент компаниям не стоит внедрять жесткий контроль за моделями. Следовательно, пусть они продолжают лгать, иначе чат-боты просто начнут манипулировать и заниматься газлайтингом.