По данным СМИ, исследователи из Массачусетского технологического института (MIT) совершили прорыв в области обучения роботов, разработав систему, способную понимать неявные команды и скрытые предпочтения человека. Новый подход, получивший название Masked Inverse Reinforcement Learning (Masked IRL), обещает значительно ускорить процесс обучения роботов и повысить безопасность их взаимодействия с людьми.
В современном мире, где роботы все активнее проникают в нашу жизнь, от домашних помощников до промышленных манипуляторов, возникает одна фундаментальная проблема: люди редко формулируют свои желания максимально полно. Например, когда мы просим робота выполнить простую задачу, вроде подачи чашки кофе, мы интуитивно избегаем определенных действий, например, не подходим слишком близко к хрупкой технике или личному пространству. Однако, для робота, обученного только на прямых командах, эти нюансы остаются невидимыми.
Традиционные методы обучения роботов опираются либо на множество физических демонстраций, либо на подробные текстовые инструкции. Оба подхода имеют свои недостатки: демонстрации могут быть трудоемкими, а инструкции – слишком общими или неполными. Команда MIT решила эту проблему, задействовав мощь больших языковых моделей.
Как работает Masked IRL?
Система Masked IRL функционирует в два этапа:
1. Уточнение инструкций: На первом этапе одна из языковых моделей анализирует физическую демонстрацию действий человека. Цель – выявить и уточнить неоднозначные или неявные команды. Например, команда "держись ближе" может быть автоматически интерпретирована как "держись ближе к поверхности стола", если система анализирует траекторию движения и сравнивает ее с оптимальным маршрутом, чтобы понять, какие аспекты поведения были важны для человека.
2. Оценка важности объектов: Затем вторая языковая модель анализирует окружающую среду. Она определяет, какие объекты в поле зрения робота имеют значение для выполнения задачи, а какие – нет. Если в процессе демонстрации человек случайно задел стол, этот факт будет проигнорирован. Однако расположение ноутбука, препятствий или самого объекта, который нужно переместить, будет учтено при построении плана действий.
Этот механизм отбора информации оказался ключевым. В ходе испытаний, проведенных как в виртуальной среде, так и с использованием реального роботизированного манипулятора, Masked IRL на 15% чаще правильно определял скрытые предпочтения пользователей.
Преимущества нового подхода
Новый метод Masked IRL продемонстрировал значительное ускорение процесса обучения. Роботам требовалось в пять раз меньше демонстраций для освоения задачи по сравнению с существующими методами. Более того, уточнение инструкций с помощью языковой модели существенно повысило качество выполнения заданий, особенно при работе с расплывчатыми или неполными командами.
Практические испытания подтвердили эти результаты. Робот, обученный на 50 физических демонстрациях, успешно передавал предметы, избегая столкновений с ноутбуком, который он научился воспринимать как объект, от которого следует держаться подальше. В других экспериментах робот аккуратно протирал стол, сохраняя близость к его поверхности, а также передавал пакет чипсов, одновременно избегая как самого пользователя, так и стоящего рядом стола.
Будущие перспективы
Авторы исследования отмечают, что текущая версия системы в основном опирается на данные датчиков и информацию о движениях. Следующим шагом станет интеграция камер компьютерного зрения. Это позволит роботам самостоятельно анализировать окружающую обстановку и выделять значимые объекты еще до начала выполнения задачи. Например, робот, получивший команду поднять игрушку, сможет визуально определить, что лежащие рядом бананы к поручению отношения не имеют, и сосредоточится только на нужном объекте.
Работа будет представлена на конференции IEEE International Conference on Robotics and Automation (ICRA 2026), которая пройдет в июне в Вене. По мнению разработчиков, технология Masked IRL может найти широкое применение в домашних роботах, складской автоматизации, промышленности и офисной среде, где машины все чаще работают бок о бок с людьми.