Мозг по-разному реагирует на голос реального человека и дипфейк

Ученые Цюрихского университета проверили с помощью фМРТ, как мозг человека реагирует на синтезированный голос по сравнению с реальным, и показали, что две области мозга способны отличить дипфейк.

Нейросети уже довольно давно создают портреты несуществующих людей. При этом человек не может уверенно отличить, что перед ним – фотография реального человека или изображение синтезированное нейросетью. Реакции мозга в обоих случаях идентичны.

Синтез голоса по прототипу, – это одна из первых возможностей, которая была реализована нейросетью. Но до сих пор, несмотря на огромный прогресс, во всех ИИ-моделях, где нужно голосовое общение, используются голоса-прототипы, принадлежащие реальным людям. Все "поющие" и "говорящие" модели используют реальные голоса. На сегодня не существует ИИ-моделей, которые настолько точно синтезируют "несуществующий" голос, что человек принимает его за реальный. ИИ может как угодно модифицировать реальный голос, но что-то главное создать не удается.

Это эмпирическое наблюдение стало предметом исследования ученых Цюрихского университета. Он решили проверить, как наш мозг реагирует на синтезированный и реальный голоса.

Результаты работы опубликованы в журнале Communications Biology.

25 добровольцам было предложено распознать является ли голос синтезированным или реальным. Они справились с задачей практически безошибочно. При этом проводилось фМРТ-сканирование мозга. Как показали измерения, при восприятии разных типов голоса активность мозга отличается.

Во-первых, иначе реагирует слуховая кора. Это означает, что существующие на сегодня методы синтеза и воспроизведения искусственного голоса не дают точной картины. В чем состоят эти отличия ученые пока сказать не могут, но слуховая кора надежно отличает синтезированный голос

Другая область мозга, которая демонстрирует различия при восприятии разных типов голоса, – это прилежащее ядро ​​(NAcc). Эта область участвует в формировании вознаграждения и важна при обучении с подкреплением. Ученые считают, что дипфейковые голоса не вызывают чувства узнавания (и соответственно вознаграждения), которое дают естественные голоса.

Ученые пришли к выводу, что сегодня синтез реального голоса практически невозможен: мозг распознает подделку.