Назад в ленту

Научная сенсация: сжатие контекста LLM в 16 раз без потерь — LCLM выходят в продакшен и всё ускоряют

Пока все вокруг продолжают соревноваться, кто запихнёт в контекст LLM миллион токенов и при этом не уронит сервер, научное сообщество пошло другим, куда более изящным путём. Исследователи из NYU, Columbia, Princeton, University of Maryland, Harvard и Lawrence Livermore National Laboratory опубликовали работу, которая с высокой вероятностью изменит подход к работе с длинным контекстом в продакшене. Встречайте — Latent Context Language Models, или LCLM. По данным VentureBeat, новинка уже доступна на HuggingFace, и это не очередное “бумажное” исследование, а реально работающий инструмент.

Давайте по порядку. Главная проблема современных LLM — контекстное окно растёт, а инфраструктура за ним не успевает. Чем дольше работает агент, тем больше токенов накапливается от извлечённых документов, цепочек рассуждений и истории диалога. Всё это жрёт память и вычисления. Существующие методы сжатия контекста либо режут точность модели, либо требуют сначала материализовать весь контекст, а только потом сжимать — что сводит на нет весь выигрыш. LCLM решают это кардинально: они сжимают входную последовательность токенов до того, как она попадёт в декодер. Энкодер превращает блоки токенов в короткие латентные эмбеддинги, и декодер работает уже с ними. Никаких лишних материализаций — сразу экономия памяти и вычислений.

Цифры, которые впечатляют

На бенчмарке RULER (длинный контекст) LCLM при 16-кратном сжатии показали ускорение в 8,8 раза по сравнению с обычными KV cache методами. И это не в ущерб адекватности: точность упала с 94,41% (без сжатия) до 75,06%. Для сравнения, все протестированные KV cache методы на том же сжатии выдали ещё более низкие результаты. При 4-кратном сжатии точность составила 91,76% — разница в менее чем 3百分点 при сокращении контекста вчетверо. И это работает не только на длинных текстах: на математических задачах GSM8K, где сжимается весь промпт, LCLM также обошли всех конкурентов.

Архитектура модели — пара “энкодер (0,6B) + декодер (4B)”. Энкодер сжимает входные блоки в короткие последовательности латентных эмбеддингов, декодер обрабатывает их вместо оригинальных токенов. Обучение прошло на более чем 350 миллиардах токенов с использованием трёх типов данных: обычное продолжающееся предобучение (сжатые и несжатые фрагменты перемешаны), supervised fine-tuning на задачах рассуждения и длинного контекста, а также вспомогательная задача реконструкции, которая заставляет энкодер сохранять мелкие детали. Именно этот микс позволил преодолеть традиционный компромисс между качеством восстановления и общей производительностью.

Как это вписать в существующий стек?

Соавтор проекта Мика Голдблюм (Columbia University) говорит прямо: “Вы просто заменяете любую существующую LLM на LCLM. Когда нужно загрузить документы в контекст, сначала прогоняете их через компрессор LCLM, и только потом декодер обрабатывает сжатое представление”. По сути, это как человек, который сначала бегло просматривает текст, а потом углубляется в важные детали. Исследователи даже продемонстрировали агентов, которые выборочно декомпрессируют полезные участки.

При этом Голдблюм предупреждает: командам, интегрирующим LCLM в существующие RAG-пайплайны, придётся тюнить свои системы под новую схему. А ещё пока не решена проблема сжатия цепочек рассуждений (reasoning traces) — когда агент генерирует длинные логи и они сами становятся частью контекста. “Наивный подход — просто периодически сжимать трассу во время генерации — может сработать, но это ещё нужно проверить”, — отмечает он.

Что это значит для бизнеса и разработки

Контекстные окна растут быстрее, чем инфраструктура для инференса. Согласно опросу VB Pulse Q1 2026, гибридный retrieval (RAG) вырос с 10,3% до 33,3% за три месяца, а оптимизация retrieval обогнала evaluation как главный приоритет инвестиций. При контексте в 1 миллион токентов стандартный инференс с KV cache просто не влезает в память одного H200 GPU. LCLM при 16-кратном сжатии остаются в пределах памяти GPU на том же объёме — и это прямое доказательство, что технология готова к продакшену.

Три вещи, которые стоит вынести:

1. Стоимость инференса растёт линейно с длиной контекста. LCLM разрывают эту зависимость.

2. Интеграция с RAG потребует калибровки — нужно убедиться, что качество retrieval не страдает после сжатия.

3. Проблема сжатия reasoning traces пока открыта, но исследователи уже знают, как к ней подойти.

Модели уже доступны на huggingface.co/latent-context, код на github.com/LeonLixyz/LCLM. Всё open source, никаких “эксклюзивных API” за миллион долларов. Как сказал Голдблюм: “Наша архитектура не просто даёт доступ к гигантским контекстам, она открывает мультимасштабные подходы: модель может бегло просматривать огромные объёмы текста или кода, а затем фокусироваться только на самом важном”. Похоже, сжатие контекста наконец-то перестало быть академической игрушкой и становится реальным инструментом продакшена.