AI уперся в стену памяти: почему GPU больше не главный тормоз, и как контекстная память спасет инференс

При поддержке Solidigm. Пока инференс-нагрузки эволюционируют из разрозненных вопросов-ответов в постоянные многошаговые агентные системы, наличие GPU перестало быть главным узким местом. Узкое место сместилось с вычислительной мощности на контекст, утверждает Джефф Харторн, ведущий исследователь AI в Solidigm.

«Почему управление контекстом стало основным тормозом — более критичным, чем доступность GPU или эффективность вычислений — вот вопрос 2026 года, — говорит Харторн. — GPU стали значительно дешевле на флопс. Модели архитектур и движки инференса стали намного эффективнее. Но контекст растет быстрее всего этого. Персистентное состояние, которое должно существовать между сессиями, выросло еще быстрее самого контекста».

Происходит это на фоне резкого расширения контекстных окон — отдельные входные данные стали куда больше. Агентные AI-системы цепляют десятки или сотни вызовов моделей, каждый из которых генерирует состояние, которое нужно отслеживать. А предприятия требуют, чтобы состояние инференса сохранялось между сессиями для аудита, управления и повторного использования. Эти тренды накладываются друг на друга, взвинчивая объемы контекста далеко за пределы того, на что рассчитан любой существующий уровень памяти.

«Все три процесса происходят одновременно, и каждый толкает контекстные данные и контекстную память в стратосферу гораздо быстрее, чем мы привыкли», — добавляет Эйс Страйкер, директор по маркетингу AI и экосистемы Solidigm.

Решение — выделенный контекстный уровень, который встраивается между памятью GPU и сетевым хранилищем. Это слой высокопроизводительной, плотной флэш-памяти, спроектированной специально для хранения и отдачи KV-кэша — данных инференса, позволяющих моделям сохранять и переиспользовать контекст, а также данные поиска на скорости инференса. Nvidia формализовала эту архитектуру под названием CMX. Производители систем хранения, включая Solidigm, строят SSD, оптимизированные под эту нагрузку.

«Хранилище никогда не было первым, о чем думали при планировании корпоративной инфраструктуры, — говорит Страйкер. — Во многом это была относительно небольшая статья расходов по сравнению с вычислениями, и это был просто товар. Выбирали самый дешевый доллар за гигабайт — и все. Но теперь, если хранилище не тянет, страдает ROI, и это напрямую бьет по прибыли».

Почему архитектура хранилища для AI-инференса должна отличаться от тренировочной

Архитектура, на которой сегодня держатся AI-системы, в значительной степени унаследована от тренировочных пайплайнов. Тренировка — процесс последовательный, с доминированием записи: данные движутся большими блоками к объектному хранилищу и обратно. Иерархия — высокопроизводительная память на GPU, быстрый NVMe в сервере и сетевое хранилище — неплохо справляется с этой задачей.

Инференс — совсем другая история. Его I/O-профиль мелкозернистый, чувствительный к задержкам и все более зависим от состояния. Данные KV-кэша и данные поиска имеют разные паттерны доступа, но обоим нужно, чтобы их быстро отдавали и переиспользовали между взаимодействиями. Ни один из вариантов не укладывается ни в дорогую и ограниченную по объему высокопроизводительную память GPU, ни в традиционное блочное хранилище, которое никогда не проектировалось для активных инференс-нагрузок.

«Архитектурный разрыв, который меня сейчас интересует, — не наверху стека и не внизу, а прямо посередине, — говорит Харторн. — Многое из того, что находится под HBM GPU, теперь вынуждено делать вещи, для которых оно не предназначалось. Именно здесь сегодня происходит самая интересная системная работа».

Один из самых заметных симптомов этого разрыва — перевычисление. В инференсе стадия pre-fill обрабатывает весь контекст, релевантный для данной сессии, до того как начнется генерация токенов. Когда KV-кэш недоступен в быстром, доступном слое, система перевычисляет его — сжигая циклы GPU, которые не производят никакой новой ценности.

«Значительная доля циклов GPU уходит на повторный pre-fill, — объясняет Харторн. — Весь этот вычисленный контекст — потенциально бесполезная трата ресурсов на воспроизведение состояния вместо выполнения новой работы. Когда смотришь на проблему так, утилизация GPU начинает выглядеть как проблема хранения».

Такая переформулировка подогревает интерес к метрике, заимствованной из сетей: goodput — полезные токены на доллар, а не сырые токены на доллар.

Уровень контекстной памяти для AI и как он работает

Ответ индустрии начинает принимать структурную форму. Между памятью GPU и традиционным сетевым хранилищем появляется новый слой — спроектированный специально для хранения и обслуживания контекста инференса. Он отличается от дисков внутри GPU-серверов (G3) и серверов хранения в сети (G4), создан, чтобы отдавать контекстные данные обратно ускорителям максимально быстро.

«Если вы строите дата-центр во второй половине этого года или в начале следующего, вы не можете думать, что хранилище живет только в двух местах, — говорит Страйкер. — Хранилище должно быть как минимум в трех местах, чтобы обрабатывать контекстный слой памяти. И это, скорее всего, станет постоянным элементом инфраструктуры в будущем».

Это напоминает появление объектного хранения как категории — его не существовало, пока под него не набралось достаточно рабочих нагрузок. А когда оно появилось, обзавелось собственными примитивами, SLA, моделями ценообразования и экосистемой вендоров. «Контекстный слой, похоже, идет по похожей дуге, — считает Харторн. — Именно объемное давление формирует эту категорию, а не дорожная карта какого-то одного вендора».

Для технических руководителей это означает активное планирование нового уровня, а не отношение к нему как к опции. Размещение дополнительной NAND на этом уровне снижает зависимость от DRAM, которая на порядки дороже за гигабайт и ограничена как по доступности, так и по тепловыделению. «С точки зрения эффективности инвестиций вы тратите меньше денег, если опираетесь на SSD-слой так, как сейчас рекомендует и предписывает Nvidia для многих кейсов», — добавляет Страйкер.

Что флэш-память должна обеспечивать для поддержки AI-инференса

Участие в стеке инференса предъявляет новые требования к SSD-технологиям. Хвостовая задержка — наихудшая производительность диска — должна быть предсказуемой, а не просто быстрой в среднем. Система оркестровки, которая выделяет ресурсы GPU на основе ожидаемого времени отклика хранилища, не может терпеть неожиданные многомиллисекундные задержки. Стабильная, наблюдаемая производительность здесь важнее пиковой пропускной способности.

Помимо задержек, критична плотность, особенно на гипермасштабе. В дата-центрах, где ограничивающим фактором становится не стоимость, а мощность, ватты на петабайт становятся ключевой метрикой. Floating-gate NAND — производственный подход, лежащий в основе продуктов Solidigm, — хорошо подходит для такого расчета. Сетевая интеграция через NVMe over Fabrics, RDMA и в перспективе CXL также обязательна, учитывая жесткие бюджеты задержек в активных инференс-пайплайнах.

«Диски должны обладать надежными характеристиками производительности — не только по пропускной способности и скорости передачи данных, как того требовало обучение, — говорит Хартон. — Теперь речь о том, чтобы делать это очень стабильно, с возможностью наблюдения для людей, которые управляют и оркестрируют эти системы».

Как руководителям AI-инфраструктуры планировать контекстный уровень

Стандарты, программные примитивы и лучшие практики, которые формируются сейчас, определят, как будет работать инфраструктура AI-инференса на годы вперед. Solidigm участвует в этом процессе через комитеты по стандартизации, совместные лабораторные проекты и публичные исследования — это критически важно именно потому, что категория еще формируется.

«Интересный вопрос на ближайшие пару лет — не в том, нужно ли AI-инф