Alibaba переворачивает обучение AI-агентов: что такое Qwen-AgentWorld и почему это ломает систему

Окей, давайте сразу к делу. Есть проблема, которая бесит всех, кто пытается натренировать по-настоящему умного AI-агента. Реальные среды — будь то веб-поиск, командная строка или API-вызовы — это диктаторы. Они не дают тебе нужных условий. Тебе нужно, чтобы поисковик вернул пустой результат, чтобы проверить устойчивость агента? Иди лесом, поисковик вернёт то, что есть. Тебе нужно, чтобы в терминале внезапно закончилось место на диске? Терминал работает стабильно — он не актёр. Тренировка агентов упирается в потолок: ты видишь только то, что production-среда готова тебе показать. Граничные случаи, которые убьют агента в бою, в проде не встретишь.

И вот команда Qwen из Alibaba взяла и перевернула доску. Во вторник они выкатили Qwen-AgentWorld — две архитектуры-монстра (35B и 397B параметров), которые обучены ровно обратному. Не тому, «что делать агенту», а тому, «что вернёт среда». Это как если бы вместо того, чтобы учить гонщика жать на газ, ты научил бы его предсказывать поведение трассы на следующем повороте. Звучит как магия? Это называется «языковая модель мира» — world model на стероидах.

Как работает «перевёрнутая» логика обучения AI-агентов

Большинство моделей-агентов решают одно уравнение: «Вот что я вижу на экране, скажи, что делать». Qwen-AgentWorld решает обратное: «Вот что я только что сделал, скажи, что я увижу». Они тренируются предсказывать следующее состояние среды, а не выбирать действие. И делают это сразу для семи доменов под капотом: MCP (протоколы), Поиск, Терминал, Разработка ПО (Software Engineering), Android, Веб и OS (операционные системы). Раньше были проекты типа WebWorld (только веб), Snowflake’s Agent World Model (кодогенерация баз данных). Qwen-AgentWorld — первый, кто впихнул семь доменов в единую архитектуру с момента самой ранней стадии претрейнинга.

Как это готовили? Собрали больше 10 миллионов траекторий взаимодействия с реальными средами. Первый этап — модель учится азам: как ведут себя файловые системы, как меняется DOM браузера, как выглядит JSON ответа API. Второй этап — модель учится сначала рассуждать, что будет дальше, а потом предсказывать. Третий этап — reinforcement learning (RL), где предсказания затягиваются правилами и оценкой качества. И да, это Mixture-of-Experts: у 35B версии активно только 3B параметров на токен, у 397B — 17B. Обе поддерживают окно контекста в 256K токенов. Графические интерфейсы (Android, Web, OS) они анализируют не по скриншотам, а по текстовым accessibility-деревьям и иерархиям UI. Чертовски умно.

Цифры, ради которых всё затевалось

Бенчмарки — это хорошо, но реальные результаты тренировки — вот где мясо. Агенты, обученные внутри контролируемой симуляции (coSim-RL), показали результаты выше, чем те, что гоняли на реальных средах. Смотрите:

— MCPMark: с 24.6 (без контроля) рванул до 33.8.

— Поисковый бенчмарк WideSearch F1: с 34.02 до 50.31. И это агенты, обученные на ВЫДУМАННЫХ мирах, которые потом переключились на реальный поиск.

— Warm-up тест (обучение world model в качестве разминки перед финальной настройкой): BFCL v4 вырос с 62.29 до 71.25, Claw-Eval — с 53.60 до 64.88. И никакой специальной донастройки под агентские задачи!

Не всё так гладко: критика и риск переобучения

Разумеется, в X разгорелись споры. Один из AI-исследователей (@drawais_ai) сказал: «Они перевернули вопрос. Теперь предиктивное знание переносится на агентские задачи даже без специального обучения. Результат coSim-RL — это рецепт того, что синтетика может заменить реальное RL в масштабе». Звучит круто, но есть нюанс.

Парень с ником @TheSignal_Desk сразу подметил: «AgentWorldBench — это бенчмарк, который Alibaba написала и опубликовала в той же самой статье. Они написали тест, а потом обошли его на 0.46». Логично — собственная кухня.

Но самый серьёзный выстрел прилетел от @limalemonnn, который строит продакшн-агентов: «Традиционно агенты, обученные на симуляторах, переобучаются на причуды симулятора. Если модель мира слишком чистая, агент учит модель, а не задачу». И это — ключевой риск.

Alibaba, впрочем, не лыком шиты. Разрыв между контролируемой симуляцией (33.8) и неконтролируемой (24.6) как раз показывает, что дело именно в механизме контроля, а не в случайности. А результат с «выдуманным поиском», который отлично работает в реальности, — самый сильный аргумент против переобучения.

Что это значит для тех, кто строит агентские пайплайны

Если коротко: у команд, которые тренируют AI-агентов в масштабе, теперь есть третий путь. Раньше был RL на реальных средах (дорого, негибко) и статические тесты (бесполезно для сложности). Теперь — контролируемая симуляция, которая подкидывает те самые граничные случаи, которых production никогда не даст.

Синтетические окружения становятся легитимным слоем обучения. Это не замена реальному RL, а умный комплемент. Но главное: то, чему модель учится до того, как начать агентскую тренировку, оказывается важнее, чем думали. Warm-up эффект (рост на невиданных бенчмарках без специфического обучения) чётко намекает: «заземление» на среду должно идти на самых ранних этапах, а не как финишный штрих.

Кстати, 35B версия Qwen-AgentWorld и бенчмарк AgentWorldBench уже под Apache 2.0 на GitHub. А вот 397B — пока в тени. Ждём.