Итак, народ, у нас тут свежачок подъехал из мира ИИ. Все мы знаем, как тупят эти ваши "интеллектуальные" ассистенты, забывая, что вы им говорили пять минут назад. Каждый раз, когда ваш кодовый помощник теряет нить отладки или агент анализа данных повторно поглощает тот же контекст, который он уже обработал, команда платит за это задержкой, стоимостью токенов и хрупкими рабочими процессами. И что делают разработчики? Правильно, пихают больше данных в контекстное окно или добавляют RAG. Но это, блин, дорого и не всегда работает!
Но, как сообщает VentureBeat, кажется, кто-то решил эту проблему по-умному. Ребята из Mind Lab и нескольких университетов предложили delta-mem – эффективную технику, которая сжимает историческую информацию модели в динамически обновляемую матрицу, не изменяя саму модель. В итоге модуль добавляет всего 0.12% параметров основной модели. Для сравнения, одно из ведущих альтернативных решений требует аж 76.40%! При этом delta-mem ещё и обгоняет конкурентов по тестам на "память".
Delta-mem позволяет моделям непрерывно накапливать и повторно использовать исторические данные, снижая зависимость от огромных контекстных окон или сложных внешних модулей извлечения для обеспечения поведенческой непрерывности.
В чём вообще проблема? Да в том, что обычные решения просто сваливают всю инфу в контекстное окно модели. Но, как говорит Джинди Лей, один из авторов исследования, современные системы рассматривают память просто как проблему управления контекстом. Либо мы расширяем контекстное окно, либо извлекаем больше документов через RAG. Эти подходы полезны и останутся важными, но они становятся все более дорогими и хрупкими, когда агентам необходимо работать в течение длительных, многоэтапных взаимодействий, и они действительно не работают как человеческая память, поскольку больше похожи на поиск документов.
В корпоративной среде узкое место заключается не только в том, может ли модель получить доступ к истории, но и в том, может ли она повторно использовать эту историю эффективно, непрерывно и с низкой задержкой. Стандартные механизмы внимания несут квадратичные вычислительные затраты по мере увеличения длины последовательности. Кроме того, расширение контекстного окна не гарантирует, что модель действительно эффективно вспомнит информацию. Модели часто страдают от ухудшения контекста или гниения контекста, поскольку они перегружаются большим количеством (и часто противоречивой) информации, даже если они теоретически поддерживают один миллион токенов.
Исследователи утверждают, что необходимы продвинутые механизмы памяти, которые могут компактно представлять историческую информацию и динамически поддерживать ее во время взаимодействий. Существующие решения связаны с серьезными компромиссами и обычно попадают в три парадигмы:
* Текстовая память: хранит историю как текст, внедренный в контекст — ограничена лимитами окна и подвержена потере информации при сжатии.
* Внешний канал (RAG): кодирует и извлекает из внешних модулей — добавляет задержку, сложность интеграции и потенциальное несоответствие основной модели.
* Параметрическая: кодирует память в веса модели через адаптеры — статична после обучения, не может адаптироваться к новой информации во время живых взаимодействий.
Delta-mem сжимает прошлые взаимодействия агента в «онлайн-состояние ассоциативной памяти.