Стэнфордский DeLM: как заставить ИИ-агентов работать без босса и срубить цену вдвое

Давайте честно: все мы привыкли, что в любой IT-системе должен быть главный. Босс, сервер, контроллер — call it what you want. Мультиагентные ИИ-фреймворки тоже брали этот шаблон: ставишь в центр умную модель, она фрукты нарезает, задачи раздаёт и следит, чтобы мелкие агенты не переругались. Стэнфордская команда разработчиков DeLM решила зайти с другой стороны — а что если босс только мешает? И оказалось — мешает, ещё как.

Как устроена классическая «овчарня»

В традиционном подходе центральный агент дробит задачу, раздаёт кусочки сателлитам, ждёт ответы, потом склеивает, фильтрует и снова раздаёт. Пока сателлиты копаются, контроллер превращается в бутылочное горлышко — он вынужден читать, переваривать и пересылать весь шлак. Чем больше сателлитов, тем дольше цикл. А ещё контроллер имеет свойство «сглаживать углы» — терять или искажать полезные находки. В итоге агенты переспрашивают, перезапускают, тратят деньги на повторные вызовы модели.

DeLM — «рабочий коллектив» без начальника

DeLM (Decentralized Language Model) предлагает радикально иную архитектуру. Три кита: параллельные агенты, общая память (shared context) и очередь задач. Агенты не знают друг друга в лицо — они просто читают из общей «записной книжки» то, что уже сделали коллеги, и берут следующую свободную подзадачу. В общую память пишутся не сырые логи, а компактные «гисты» (gists) — проверенные выводы, задокументированные неудачи и ограничения. Если один агент наступил на грабли, второй уже не пойдёт по тому же пути.

Вот как выглядит типичный пайплайн: на старте входные данные дробятся на юниты и кладутся в очередь. Агенты параллельно выхватывают задачи, читают общий контекст и работают. Когда находят результат — сжимают его в gist, проверяют по исходным данным, и только если всё подтверждено — кидают в общую память. Когда очередь пустеет, последний завершивший работу агент окидывает взглядом всё накопленное, решает, нужно ли ещё что-то сделать, и выдаёт финальный ответ. Всё — без центрального звена.

Золото в цифрах

На бенчмарке по софт-инженерии SWE-bench Verified DeLM обошёл лучший централизованный baseline на 10,5% по точности. Но главное — стоимость за задачу упала почти вдвое. Это не случайность: агенты перестали перечитывать одни и те же файлы, не дублируют неудачные попытки и не гоняют гигабайты контекста через одного «диспетчера». А на LongBench-v2 (длинные многодокументные вопрос-ответы) DeLM показал наивысшую точность среди всех тестируемых моделей, включая GPT-5.4, Claude Sonnet, Gemini Flash и DeepSeek‑V4‑Pro.

Почему это ломает мозг

Секрет успеха — в механизме «разворачивания» (unfolding). Агенты видят короткие гисты, но если нужно — могут развернуть их до детальной выписки с исходниками. Никто не заставляет таскать с собой всю простыню — только то, что реально нужно. С одной стороны, это экономит контекстное окно, с другой — не даёт важным уликам затеряться.

Для энтерпрайз-разработчиков это вызов: придётся пересмотреть архитектуры, где каждый уважающий себя фреймворк тащит оркестратор. DeLM доказывает, что децентрализация быстрее, точнее и дешевле. А значит, скоро мы увидим лавину стартапов, переписывающих свои мультиагентные системы под «безбоссную» схему.

Справка по теме (FAQ)

Что такое DeLM?

DeLM (Decentralized Language Model) — фреймворк от Стэнфорда, который позволяет нескольким ИИ-агентам координироваться без центрального оркестратора, используя общую память и очередь задач.

Какие преимущества у DeLM перед традиционными системами?

Снижение затрат на выполнение задачи примерно на 50% и повышение точности (на 10,5% на SWE-bench Verified) за счёт исключения узкого горлышка контроллера и повторного использования общих находок и ошибок.

На каких задачах DeLM показал лучшие результаты?

На софт-инженерном бенчмарке SWE-bench Verified (кодинг) и на многодокументном QA LongBench-v2 (текст, чтение). Второй бенч сравнивали с GPT-5.4, Claude Sonnet, Gemini Flash и DeepSeek‑V4‑Pro — DeLM выиграл по точности.

Как DeLM предотвращает дублирование работы?

Агенты пишут в shared context не только успехи, но и неудачи. Следующие агенты видят «закрытые» пути и не тратят на них время и деньги.

Что такое «гисты» и «unfolding» в DeLM?

Гисты — это сжатые проверенные выводы. Unfolding — механизм, позволяющий агенту при необходимости «развернуть» гист до полных исходных данных, сохраняя баланс между компактностью и детальностью.

Где можно ознакомиться с оригинальной работой?

Исходное исследование опубликовано командой DeLM (Yuzhen Mao, Azalia Mirhoseini). Подробности доступны в научных репозиториях и на сайте TechLoot. [SITE_END]