Subquadratic SubQ AI: прорыв в LLM или «искусственный интеллект Theranos»?

Разбор сенсации

Стартап из Майами решил, что хватит прятаться. Subquadratic вышел из тени с заявлением, от которого у индустрии глаза полезли на лоб: мы, мол, взломали математический бутылочный горлышек, который душил большие языковые модели добрую декаду. Амбиций — вагон, но деталей — кот наплакал. Многие скептически закатывали глаза. Однако Subquadratic начал подвозить доказательства — опубликовал результаты независимой проверки своей технологии. И они, хм, намекают, что за этим шумом что-то есть.

По словам Subquadratic, они разработали новую LLM, названную SubQ, которая работает быстрее, дешевле и жрёт намного меньше энергии, чем любая другая модель на рынке. Мало того — SubQ способна обрабатывать сразу до 12 раз больше текста, чем обычные модели, что позволяет ей ворочать гигантские объёмы данных: анализировать сотни документов, целые кодовые базы и прочие дата-монстры. И при этом, утверждают в Subquadratic, SubQ не уступает по качеству лучшим моделям Google DeepMind, OpenAI и Anthropic в таких задачах, как написание кода.

Проблема была в том, что компания поначалу не предоставила почти никаких доказательств, кроме пары самопальных тестов. Да и саму SubQ в открытый доступ не выложили — не попробуешь. Неудивительно, что к заявлениям отнеслись с изрядной долей скептицизма. Инженер по AI-моделям Дэн Макатир ёмко подытожил реакцию в соцсетях: «SubQ — либо величайший прорыв со времён Transformer, либо AI-версия Theranos».

Прошёл месяц — компания подкинула больше инфы, в том числе результаты независимых тестов от сторонней фирмы Appen. «Мы ожидали здорового скепсиса, — говорит сооснователь и технический директор Subquadratic Алекс Уидон. — Если оглянуться, то публикация сторонних бенчмарков одновременно с анонсом сняла бы много вопросов. Поэтому теперь мы тратим время, чтобы все будущие результаты были тщательно верифицированы». Appen, которая обычно тестирует чужие модели, проверила SubQ. Результаты, похоже, подтверждают большинство заявлений. «Это было реально впечатляюще — их архитектура получила валидацию, — говорит Джинин Синанан-Сингх, директор по генеративному AI-исследованию в Appen. — Я подумала: „Ого, это может перевернуть игру“, потому что модели страдают от медлительности и неэффективности. Но когда у тебя на руках шокирующие результаты, доверия к ним больше, если ты не сам их озвучиваешь».

SubQ не заменит топовые модели на все сто, но для определённых задач она может быть молниеносной и стоить копейки. Впрочем, в Subquadratic настаивают: их прорыв в перспективе изменит то, как строят LLM. «Надеемся, мы открываем новую эру эффективности, — говорит сооснователь и CEO Джастин Дэнджел. — Думаю, через несколько лет никто не будет строить модели на основе Transformer».

Внимание! Чтобы понять, почему заявления Subquadratic — это реально круто, давайте разберёмся, как работает большинство LLM. Главный механизм внутри большой языковой модели — это тип нейросети под названием transformer, который выполняет процесс плотного внимания (dense attention). Сегодняшние LLM обычно нанизывают несколько таких трансформеров друг на друга. (Основополагающая статья эпохи LLM, опубликованная исследователями Google в 2017 году, называлась «Attention Is All You Need».)

Плотное внимание работает так: когда трансформер обрабатывает кусок текста, он сначала кодирует каждое слово (или часть слова — токен) числом. Чтобы уловить смысл всего текста, он затем перемножает каждое из этих чисел с каждым другим числом того же текста. Например, для текста длиной 10 000 слов потребуется почти 50 миллионов отдельных умножений. Это чудовищное количество вычислений — и основная причина, почему LLM известны своей прожорливостью. «Если хотите пересказать „Великого Гэтсби“, вам придётся сопоставить первое слово с последним, а затем — каждую другую пару», — объясняет Дэнджел.

По мере увеличения длины текста количество вычислений взлетает до небес. Ведь каждый новый токен нужно умножить на все предыдущие. Удвойте количество слов — и число вычислений примерно учетверится. Это называется квадратичным ростом. (Представьте: нарисуйте круг и поставьте точки по его краю — каждая точка это токен. Затем нарисуйте линии между парами точек — это умножение. На круге с пятью точками будет 10 линий, с десятью — 45, с двадцатью — 190, и так далее.)

Сокращение расходов

Решение Subquadratic — отказаться от плотного внимания, ключевой операции трансформера, в пользу так называемого разреженного внимания (sparse attention), которое радикально сокращает нужное количество вычислений. Вместо того чтобы умножать число каждого токена на каждое другое число, разреженное внимание выбирает лишь некоторые пары. Идея: не все взаимосвязи между словами в тексте важны. «Разреженное внимание исходит из того, что не все эти отношения существенны, потому что они и не важны, — говорит Уидон. — Когда читаете книгу, вы ж не сверяете первое слово со вторым, а потом с третьим — это безумие».

Подход простой, и Subquadratic не первая, кто пытается его реализовать. «Пытались всем, чем только можно, — говорит Уилл Депу, независимый AI-исследователь, ранее работавший в OpenAI. — Это не невозможно, но примерно как пробежать милю за четыре минуты». Предыдущие методы отбора пар для умножения не давали механизма, способного улавливать смысл документа так же хорошо, как плотное внимание.

Subquadratic заявляет, что наконец решила проблему. Они позиционируют SubQ как первую разреженную LLM, которая по производительности не уступает массовым моделям с плотным вниманием. «Исторически большинство механизмов использовали фиксированные шаблоны — например, всегда сравнивать первое слово с пятым, — объясняет Уидон. — Это крайне ограничивает. Язык слишком сложен для такого. Одна из особенностей нашего механизма — мы динамически выбираем, какие связи важны». Компания не раскрывает, как именно SubQ выбирает, на каких словах фокусироваться — вычисления производятся на лету и отличаются для каждого текста. «Вот где спрятан секретный соус», — улыбается Уидон.

Тесты, тесты

Итог: для некоторых задач SubQ может оказаться быстрее и дешевле большинства моделей. Appen прогнала модель SubQ через стандартные тесты. В прямом тесте скорости (замеряет не реальную производительность, а теоретическую базовую скорость) SubQ оказалась в 56 раз быстрее моделей, работающих на FlashAttention — предыдущей разреженной технике. В тесте LiveCodeBench, который оценивает способность модели решать конкурентные задачи по программированию с реальных соревнований, SubQ набрала 89,7% — примерно на уровне других топовых моделей. «Эта модель продолжает демонстрировать производительность фронтирного уровня в кодинге», — говорит Синанан-Сингх из Appen.

Утверждения Subquadratic относительно стоимости проверить сложнее — SubQ пока недоступна широкой публике. По словам Дэнджела, прогнать Anthropic Opus 4.6 через тест Nvidia RULER 128 (оценивает способность модели извлекать информацию из больших наборов данных) стоит $2600. А SubQ? «Нам это обошлось в восемь долларов», — утверждает он.

SubQ действительно способна обрабатывать огромные массивы данных. Её контекстное окно (рабочая память) достигает 12 миллионов токенов. У большинства топовых моделей сегодня — один миллион. В демо, которое Уидон показал мне, он попросил SubQ выполнить задачу, требующую анализа информации из 400 документов. Модель ответила за секунды. Когда он дал то же задание Perplexity (популярный поисковик на основе LLM), тот не смог загрузить все 400 документов.

Appen также провела тест «иголка в стоге сена» — определяет, насколько хорошо модель находит конкретные данные, зарытые в огромном объёме информации. В своём отчёте Appen утверждает, что SubQ набрала 98% при контекстных окнах в 6 и 12 миллионов токенов, «демонстрируя почти идеальное извлечение длинного контекста на масштабах, которые редко тестируются у других моделей».

Слишком хорошо, чтобы быть правдой?

Несмотря на высокие баллы, бенчмарки дают неполную картину возможностей модели. Тестирование в очень специфических условиях не заменяет использования модели на широком круге реальных задач. Subquadratic предлагает SubQ как модель, заточенную под программирование и поиск по огромным наборам данных. Компания говорит, что десятки тысяч потенциальных пользователей уже записались на ранний доступ, включая более 500 корпоративных клиентов. Но лист ожидания длинный, и доступ пока дали единицам. Объяснение: Subquadratic — маленькая молодая компания с ограниченными ресурсами, не может обслужить всех сразу.

Пока больше людей не получат модель в руки и не проверят её сами, доля скепсиса оправдана. Есть заноза: Subquadratic использовала веса (значения, задаваемые во время обучения, определяющие поведение модели) китайской открытой модели Qwen для ускорения SubQ, вместо того чтобы обучать её с нуля. Это обычная практика, но она противоречит заявлению Subquadratic о полном переосмыслении того, как работают LLM. «Возможно, они построили нечто реальное и полезное, — говорит Депу. — Но публичные доказательства пока не подтверждают более сильное утверждение, что они решили проблему квадратичного внимания».

Тем временем сооснователь Subquadratic Уидон настаивает: у него не было другого выбора, кроме как сделать что-то другое. Если хочешь построить конкурентоспособную модель — нужны новые идеи. «Мы в более тяжёлой ситуации, чем OpenAI», — пожимает он плечами.