Вместо того чтобы пичкать агента векторными базами данных, исследователи предлагают дать ему... терминал! Да-да, тот самый, из 90-х. Метод называется Direct Corpus Interaction (DCI), и он позволяет агентам напрямую взаимодействовать с "сырыми" данными, используя стандартные команды командной строки.
Классический подход, типа RAG (Retrieval-Augmented Generation), работает так: документы разбиваются на куски, преобразуются в векторные представления и индексируются в векторной базе данных. Когда агент получает запрос, он фильтрует эту базу данных, чтобы найти наиболее подходящие фрагменты. Но, как говорят авторы DCI, "семантическое сходство может быть хрупким" в задачах, требующих точных совпадений, чисел, версий, кодов ошибок и т.д.
DCI же дает агенту возможность динамически пересматривать свои планы поиска, используя такие команды, как "find", "glob", "grep", "rg", "head", "tail", "sed", "cat" и даже Python-скрипты. Агент может объединять эти инструменты в конвейеры, чтобы выполнять сложные поисковые запросы.

И еще один важный момент: DCI решает проблему устаревания данных. Векторные индексы – это всегда снимок на определенный момент времени, а DCI позволяет агенту работать с текущим состоянием данных. Это особенно актуально для предприятий, где данные постоянно меняются.
Предлагаются две версии системы:
* DCI-Agent-Lite: Легкая и дешевая версия на базе GPT-5.4 nano, работающая только с терминальными командами.
* DCI-Agent-CC: Более мощная версия на Claude Code, обеспечивающая лучшую координацию инструментов и обработку контекста.

В тестах DCI показал себя лучше, чем традиционные методы. Например, на бенчмарке BrowseComp-Plus замена семантического ретривера Qwen3 на DCI на базе Claude Sonnet 4.6 повысила точность с 69% до 80% и снизила стоимость API.
Так что, может быть, пора дать нашим ИИ-агентам немного свободы и выпустить их в терминал? Кто знает, может, они там такого натворят... хорошего, конечно.