ИИ-модель учится познавать мир, как это делает ребенок
Ученые Окинавского института науки и технологий (Япония) создали ИИ-модель, которая помогает понять, как ребенок изучает свой первый язык.
Результаты исследования опубликованы в журнале Science Robotics.
Новая модель PV-RNN обучается в ходе, так называемого "воплощенного взаимодействия". Обучение происходит по трем одновременно работающим входным каналам. Зрительный канал работает с видео. Проприоцепция работает с углами суставов руки робота при ее движении. Третий канал связан с языковыми инструкциями, например, "положи красный кубик на синий".
Перед моделью ставится задача сгенерировать либо картинку и движение суставов в ответ на языковую инструкцию, либо выдать языковую инструкцию в ответ на сенсорный ввод.
Нейросети больших языковых моделей (LLM), например ChatGPT, содержат очень много внутренних слоев и непонятно, как передается и преобразуется информация внутри сети. Неглубокая архитектура PV-RNN позволяет исследователям визуализировать скрытое состояние сети и наблюдать, как меняется внутреннее представление информации.
Изучая поток информации внутри модели, исследователи получили представление о том, как она интегрирует различные типы входных данных для создания моделируемых действий и языковых ответов. Соавтор работы доктор Виджаярагхаван говорит: "Мы обнаружили, что чем больше модель сталкивается с одним и тем же словом в разных контекстах, тем лучше она его усваивает. Это отражает реальную жизнь, где малыш гораздо быстрее усвоит понятие красного цвета, если будет взаимодействовать с различными красными предметами, а не просто все время играть красным мячиком".
Модель показывает возможное решение проблемы "бедности стимулов". Эта проблема заключается в том, что доступный ребенку языковой материал недостаточен для объяснения такого быстрого овладения языком. Несмотря на очень ограниченный набор данных модель смогла связать действия и язык. Это позволяет предположить, что поведение и взаимодействие со средой является важнейшим фактором освоения языка ребенком. Изучение слова "страдание" с чисто лингвистической точки зрения, как это делают LLM, будет иметь меньший эмоциональный вес, чем для PV-RNN, которая узнает значение через воплощенный опыт.
Доктор Виджаярагхаван заключает: "Наблюдая за тем, как модель учится объединять язык и действия, мы получаем представление о фундаментальных процессах, лежащих в основе человеческого познания".