Израильские ученые выявили музыку речи, которую не передать словами
Ученые из Института Вейцмана с помощью ИИ-модели составили словарь звуковых шаблонов, возникающих в естественной речи. На основе этого словаря можно обучить ИИ говорить по-человечески.
Работа опубликована в журнале PNAS.
Мелодия речи называется лингвистическим термином "просодия". Она добавляет в речь тонкую смысловую поправку, и мы это очень хорошо чувствуем. Для анализа просодии естественной речи ученые использовали две обширные коллекции аудиозаписей: одна состояла из телефонных разговоров, другая – из разговоров в самых разных местах, например, на кухне или в учебной аудитории.
Сначала группа составила словарь коротких мелодий (звуковых шаблонов), которые функционируют как "слова" в англоязычной просодии, и попыталась присвоить каждому шаблону функцию и значение.
Хотя мелодия речи каждого человека уникальна, ИИ-модель распознала сравнительно небольшое количество основных шаблонов, которые повторяются с небольшими вариациями во всех спонтанных английских разговорах. Просодическое "слово" представляет собой последовательность звуков с различной высотой тона, длящуюся в среднем около секунды. Ученые попытались установить значение 20 самых частотных шаблонов.
"Мы обнаружили, что каждый шаблон имеет несколько лингвистических функций, – объясняет соавтор работы Надав Маталон. – Например, в зависимости от контекста, шаблон определяет, задает ли кто-то вопрос или делает утверждение. Но каждый шаблон обычно передает только одно конкретное отношение говорящего к тому, что говорится: любопытство, удивление или замешательство. Одним из распространенных просодических "слов" является резкий подъем тона, за которым следует быстрый спад. Этот шаблон, как правило передает, высокую степень согласия или подтверждение получения важной новой информации".
Затем исследователи попытались определить синтаксические правила, регулирующие порядок использования шаблонов и построить своего рода просодический синтаксис. Ученые заметили, что есть шаблоны, которые, как правило, появляются в спонтанной речи парами. Это простая статистическая система, в которой правильный выбор следующей единицы в последовательности зависит исключительно от предыдущей. Это позволяет работать с просодией, как со словами в предложении.
Ученые считают, что основным применением просодического словаря может стать разработка ИИ, способного понимать и передавать сообщения не только с помощью слов, но и с помощью мелодии речи. Это сделает разговор с ИИ более естественным, а речь моделей близкой к речи человека.