Давайте честно: все мы привыкли, что в любой IT-системе должен быть главный. Босс, сервер, контроллер — call it what you want. Мультиагентные ИИ-фреймворки тоже брали этот шаблон: ставишь в центр умную модель, она фрукты нарезает, задачи раздаёт и следит, чтобы мелкие агенты не переругались. Стэнфордская команда разработчиков DeLM решила зайти с другой стороны — а что если босс только мешает? И оказалось — мешает, ещё как.
Как устроена классическая «овчарня»
В традиционном подходе центральный агент дробит задачу, раздаёт кусочки сателлитам, ждёт ответы, потом склеивает, фильтрует и снова раздаёт. Пока сателлиты копаются, контроллер превращается в бутылочное горлышко — он вынужден читать, переваривать и пересылать весь шлак. Чем больше сателлитов, тем дольше цикл. А ещё контроллер имеет свойство «сглаживать углы» — терять или искажать полезные находки. В итоге агенты переспрашивают, перезапускают, тратят деньги на повторные вызовы модели.
DeLM — «рабочий коллектив» без начальника
DeLM (Decentralized Language Model) предлагает радикально иную архитектуру. Три кита: параллельные агенты, общая память (shared context) и очередь задач. Агенты не знают друг друга в лицо — они просто читают из общей «записной книжки» то, что уже сделали коллеги, и берут следующую свободную подзадачу. В общую память пишутся не сырые логи, а компактные «гисты» (gists) — проверенные выводы, задокументированные неудачи и ограничения. Если один агент наступил на грабли, второй уже не пойдёт по тому же пути.
Вот как выглядит типичный пайплайн: на старте входные данные дробятся на юниты и кладутся в очередь. Агенты параллельно выхватывают задачи, читают общий контекст и работают. Когда находят результат — сжимают его в gist, проверяют по исходным данным, и только если всё подтверждено — кидают в общую память. Когда очередь пустеет, последний завершивший работу агент окидывает взглядом всё накопленное, решает, нужно ли ещё что-то сделать, и выдаёт финальный ответ. Всё — без центрального звена.
Золото в цифрах
На бенчмарке по софт-инженерии SWE-bench Verified DeLM обошёл лучший централизованный baseline на 10,5% по точности. Но главное — стоимость за задачу упала почти вдвое. Это не случайность: агенты перестали перечитывать одни и те же файлы, не дублируют неудачные попытки и не гоняют гигабайты контекста через одного «диспетчера». А на LongBench-v2 (длинные многодокументные вопрос-ответы) DeLM показал наивысшую точность среди всех тестируемых моделей, включая GPT-5.4, Claude Sonnet, Gemini Flash и DeepSeek‑V4‑Pro.
Почему это ломает мозг
Секрет успеха — в механизме «разворачивания» (unfolding). Агенты видят короткие гисты, но если нужно — могут развернуть их до детальной выписки с исходниками. Никто не заставляет таскать с собой всю простыню — только то, что реально нужно. С одной стороны, это экономит контекстное окно, с другой — не даёт важным уликам затеряться.
Для энтерпрайз-разработчиков это вызов: придётся пересмотреть архитектуры, где каждый уважающий себя фреймворк тащит оркестратор. DeLM доказывает, что децентрализация быстрее, точнее и дешевле. А значит, скоро мы увидим лавину стартапов, переписывающих свои мультиагентные системы под «безбоссную» схему.