ИИ-прорыв или хайп?
MiniMax снова заставляет говорить о себе, анонсировав новую модель M3 с инновационным механизмом sparse attention. По данным VentureBeat, компания обещает 15.6-кратное увеличение скорости обработки длинных контекстов. Что это, реальный прорыв или очередной хайп? Давайте разбираться.
MiniMax, одна из многочисленных китайских компаний, борющихся за долю рынка и внимание в глобальном масштабе, выделяется своим стремлением предоставлять передовой интеллект в различных модальностях, включая текст, код и видео (через серию своих моделей Hailuo), часто под разрешительными, удобными для предприятий стандартными лицензиями с открытым исходным кодом. Теперь MiniMax снова вызывает интерес у опытных пользователей и разработчиков ИИ во всем мире, выпустив новый подробный технический отчет о создании своей популярной серии языковых моделей M2 (M2, M2.5 и M2.7), проливающий свет на многочисленные инженерные инновации и умные подходы, в то время как компания и ее руководители также намекнули на совершенно новый подход sparse attention для своей будущей серии моделей MiniMax M3, который, по их словам, обеспечивает до 15,6 раз более высокую скорость декодирования (или ответа LLM) при длинных контекстах (миллион токенов) за счет принятия пользовательской субквадратичной структуры. Тем самым MiniMax разработала M3, чтобы сделать развертывание ИИ-агентов со сверхдлинным контекстом экономически жизнеспособным.
Отчет M2 заслуживает внимания для любого предприятия, работающего с моделями ИИ, и особенно для тех, кто хочет точно настроить и обучить свои собственные модели. В конце концов, модели серии M2 от MiniMax часто достигали лучших в мире показателей для ИИ с открытым исходным кодом, когда они были выпущены. Хотя с тех пор это звание было затмевается несколькими другими китайскими лабораториями, включая DeepSeek и Xiaomi, новый отчет MiniMax предлагает план, который может быть использован для улучшения производительности моделей и агентов ИИ предприятиями по всему миру.
Как отметила Адина Якуп из Hugging Face в X (Twitter), "Помимо тестов, они проделали действительно солидную работу над эффективностью MoE и дизайном, ориентированным на агентов. Интересно посмотреть, куда пойдет M3 дальше!"
Дилемма внимания
Основная техническая архитектура серии M2 основана на sparse Mixture-of-Experts (MoE) decoder-only Transformer layout, используемой многими другими современными LLM.
Фундаментальная основа содержит 229,9 миллиарда общих параметров, но поддерживает на удивление экономный рабочий след, активируя всего 9,8 миллиарда параметров на токен среди 256 точно настроенных экспертов. Однако для оптимизации маршрутизации и избежания стандартных проблем балансировки нагрузки MiniMax внедрила сигмоидное стробирование в сочетании с обучаемыми, специфичными для экспертов условиями смещения, что значительно снижает зависимость от ограничительных вспомогательных потерь.
Самым важным инженерным решением, задокументированным в статье M2, было строгое соблюдение полного multi-head attention с Grouped Query Attention (GQA) на всех 62 слоях. В больших языковых моделях "квадратичное масштабирование" относится к вычислительно дорогостоящей реальности стандартных механизмов full attention, где каждый токен в последовательности должен математически соединяться с каждым другим токеном. Используя реальную аналогию, это похоже на посещение сетевого мероприятия и принуждение к глубокому разговору с каждым человеком в комнате, одновременно отслеживая все другие текущие разговоры. Хотя этот подход дает невероятно тщательный контекст, требуемая вычислительная мощность и память взрываются в квадрате от длины ввода, создавая серьезное аппаратное узкое место, поскольку модели пытаются поглотить сотни тысяч слов.
Проблема с субквадратичным масштабированием
"Субквадратичное" масштабирование вводит архитектурные ярлыки, предназначенные для обхода этой экспоненциальной вычислительной нагрузки. Вместо сопоставления всех возможных связей субквадратичные методы, такие как Sliding Window Attention или сжатое линейное внимание, могут анализировать только локализованное окно близлежащих слов или генерировать сжатое резюме более широкого текста. Эти эффективные методы значительно снижают аппаратные затраты и позволяют моделям обрабатывать массивные документы на высоких скоростях, но исторически они вносят серьезные компромиссы в точность, часто заставляя ИИ упускать из виду "общую картину" или терять след удаленного контекста.
Эта математическая дилемма определяет архитектурную эволюцию от MiniMax M2 до ее будущей серии M3. Во время разработки M2 исследователи тщательно протестировали субквадратичные ярлыки, но обнаружили, что они парализуют "многошаговое рассуждение" модели — ее способность связывать разрозненные подсказки по всему длинному документу — заставляя команду поглощать огромные вычислительные затраты full quadratic attention для поддержания передового интеллекта. Действительно, они агрессивно тестировали эффективные альтернативы attention во время предварительного обучения, но намеренно выбросили их. Они широко экспериментировали с гибридными настройками, чередуя full attention с субквадратичными архитектурами, такими как Lightning Attention или гибридные конфигурации Sliding Window Attention (SWA).Эмпирические результаты были однозначными: в большем масштабе линейные и оконные варианты attention демонстрировали серьезные недостатки в рассуждениях. В оценках, превышающих контекстные окна 32K, варианты SWA работали значительно хуже, чем full attention, упав с базовой оценки 90,0 до 72,0 в задаче сложного извлечения слов RULER 128K. Субквадратичные конфигурации оказались подвержены ограничениям, связанным с памятью, во время обучения, не имели встроенной поддержки префиксного кэширования и не смогли плавно выровняться с модулями Multi-Token Prediction (MTP), используемыми для спекулятивного декодирования. Full attention была признана необходимой для сохранения возможности многошагового рассуждения.
Однако, признавая, что физические аппаратные ограничения не могут поддерживать квадратичное масштабирование бесконечно, MiniMax разрабатывает серию M3 на основе новой субквадратичной структуры, чтобы, наконец, обеспечить как высокоскоростную обработку, так и бескомпромиссное рассуждение.
MiniMax Sparse Attention (MSA) и приближающееся субквадратичное масштабирование
Будущая MiniMax-M3 отходит от вычислительно тяжелых ограничений своего предшественника. Как сообщила инженерная команда MiniMax под лозунгом "Грядет что-то БОЛЬШОЕ", M3 представляет "MiniMax Sparse Attention" (MSA). В отличие от Multi-head Latent Attention (MLA) от DeepSeek, который сжимает ключи и значения в низкоразмерное латентное пространство, MSA работает на стандартной основе GQA, но использует выбор на уровне блоков для реальных, несжатых Key-Values. Эли Бакуш из лаборатории Prime Intellect, занимающейся инфраструктурой и платформой для обучения ИИ, разместил в X (Twitter), отметив, что основные изменения заключаются в "выборе на уровне блоков, как в CSA, но внимание уделяется реальному KV, а не в [сжатом пространстве]". Это решает проблему потери точности и препятствий для префиксного кэширования, отмеченных в статье M2. Динамически фильтруя и выбирая последовательности на уровне блоков, MSA обеспечивает архитектурный скачок: ранняя аппаратная профилировка показывает…
Пока что это все, что известно. Но, судя по всему, MiniMax всерьез настроена перевернуть игру в сфере ИИ. Посмотрим, что из этого выйдет!