ИИ-модель поможет слабослышащим "говорить" с теми, кто ними общается

время публикаци: 10 июня 2024 г., 14:35

последнее обновление: 10 июня 2024 г., 14:40

Опубликованы сразу две ИИ-модели, работающие с жестовыми языками. Одна – переводит с языка жестов на звучащие языки, другая – работает в обратную сторону, переводит текст на язык жестов (в этом случае жесты воспроизводит аватар).

По данным ООН, в мире жестовыми языки постоянно пользуются более 70 миллионов слабослышащих. Разных жестовых языков на сегодня описано более 300. Жестовые языки – особенные. Это – бесписьменные языки грамотных людей. Использующие жестовый язык люди чаще всего читают и пишут на языке своего окружения, а на жестовом только говорят. Хотя жестовые языки описаны по крайней мере 200 лет назад, только в 1960-е годы впервые была исследована их структура. Она сильно отличается от структуры звучащих языков.

Жестовыми языками пользуются не только слабослышащие между собой, но и люди с нормальным слухом, которые с ними общаются. Выучить жестовый язык во взрослом возрасте довольно сложно, но в некоторых случаях необходимо. Например, если у нормально слышащих родителей растет глухой ребенок.

Проблема автоматического перевода с жестового языка на звуковой, гораздо труднее, чем, например, с английского на русский, при котором текст преобразуется в текст. При работе с жестовым языком нужно распознать жесты (видео) и превратить жесты в текст (или голос), а в обратном направлении – нужно превратить текст в жесты (видео).

Но ИИ помогает решить эту проблему. Работа ученых Университета Суррея, размещена на сайте препринтов arxiv. В статье описана ИИ-модель Sign2GPT, которая превращает сообщение на жестовом языке в текст. Модель обучалась на видеозаписях жестовых языков. Трудность анализа изображения в этом случае состоит еще и в том, что жестовый язык принципиально трехмерный (рука – главный инструмент языка – двигается не только вверх-вниз, но и вперед-назад, а видеоизображение двумерно). Анализа отдельных кадров недостаточно, поскольку значение слов и фраз зависит от последовательности жестов, а в некоторых случаях даже от темпа. Тем не менее, разработанная модель уверенно переводит жестовый язык в текст.

Задача, которую решала команда ученых из нескольких американских университетов, была еще сложнее. Работа также размещена на сайте препринтов arxiv. В статье описана ИИ-модель SignLLM. Она тоже обучалась на видеозаписях жестового языка, но ее цель была другой: превратить текст в видео. Модель получает на входе текст и моделирует изображение аватара, которые выполняет сурдоперевод.

Следующий шаг, который планируют сделать обе команды – это объединить возможности обеих моделей в одну, и добавить распознавание и синтез голоса. Тогда общение слабослышащих людей приблизится к обычному общению людей с нормальным слухом. Ученые считают такое развитие моделей не только возможным, но достижимым в недалеком будущем.

SignLLM. Видео с аватарами, которые воспроизводят сообщения на 8 жестовых языках.