Галлюцинации языковых ИИ-моделей может распознать другая ИИ-модель

Ученые Оксфордского университета предложили метод, который позволяет во многих случаях выявить ошибочные ответы больших языковых моделей.

Большие языковые модели (LLM) ошибаются. Это случается совсем не редко. Особенно критичны случаи, когда ответы LLM выглядят правдоподобно, а у пользователя недостаточно компетенций, чтобы проверить ответ или даже заподозрить неладное.

Чем шире используются LLM, тем опаснее такие ошибки или "галлюцинации" ИИ, как их принято сегодня называть.

В журнале Nature ученые Оксфордского университета опубликовали работу, специально посвященную распознаванию галлюцинаций ИИ.

Ученые предложили метод измерения "семантической энтропии", то есть, меру случайности ответов, полученных на один и тот же вопрос. Соавтор работы Себастьян Фаркуар так объясняет суть алгоритма: "Если бы я хотел проверить, говорите вы правду или выдумываете случайный ответ, я бы задавал вам один и тот же вопрос снова и снова. Если ответы всякий раз разные, значит что-то не так".

Величина семантической энтропии измерялась с помощью второй LLM.

Исследователи задали первой LLM вопрос: "К какому сектору строительства относится возведение нефтеперерабатывающих заводов, фабрик и промышленных предприятий?" Модель дала три варианта ответа: "Все вышеперечисленное относится к промышленному сектору строительства"; "Все это относится к строительству тяжелой промышленности" и "Нефтеперерабатывающие, химические, энергетические и производственные предприятия относятся к промышленному сектору строительства".

Вторая LLM оценила, насколько схожи эти ответы и пришла к выводу, что все они достаточно близки по смыслу, а значит вероятность того, что первая LLM говорит правду, достаточно высока.

Чтобы проверить свою систему, исследователи попросили двух людей ответить на те же вопросы, которые они задавали первой LLM. Затем третья LLM сравнила ответы, полученные первой LLM, с ответами одного из людей. Ученые обнаружили, что люди соглашались друг с другом в 92% случаев, а с оценкой, которую дала вторая LLM, – в 93% случаев.

Как отметил Грэм Нойбиг, эксперт по LLM из Университета Карнеги-Меллон, самые современные модели уже двигаются по сходному пути: например, Google Gemini используют метод, известный как "самосогласованность", который предполагает генерацию нескольких ответов на один и тот же запрос и выборку наиболее надежного.

Но этот метод работает не всегда. Если LLM будет упорствовать в своем незнании и повторять один и тот же ошибочный ответ – оценка не сработает. А такое "упорство" тоже случается, например, если ошибка была в обучающих данных.