VibeThinker-3B от Sina Weibo: крошечная модель с 3 млрд параметров ломает шаблоны и заставляет пересмотреть ai benchmark — TechLoot

В минувшее воскресенье девять исследователей из Sina Weibo — китайской соцсети, которая известна микроблогами, а не передовым ИИ, — тихо выложили на arXiv 14-страничный техотчёт, взорвавший AI-сообщество. Их заявление: языковая модель с всего 3 миллиардами параметров может на равных соперничать по логическим рассуждениям с флагманскими системами Google DeepMind, OpenAI, Anthropic и DeepSeek, которые в сотни раз больше.

Модель, названная VibeThinker-3B, набрала 94.3 на AIME 2026 — Американской пригласительной математической олимпиаде, одном из самых сложных стандартизированных конкурсов по математике в мире. Этот результат ставит её рядом с DeepSeek V3.2 (671 млрд параметров) и выше Gemini 3 Pro (91.7) от Google. При использовании техники масштабирования на этапе тестирования, которую команда называет Claim-Level Reliability Assessment, показатель взлетает до 97.1, обходя практически все известные системы.

В течение нескольких часов после публикации статья набрала 62 апвоута на Hugging Face, репозиторий модели — 130 лайков, а GitHub-репозиторий — 685 звёзд. Но реакция в соцсетях была далеко не единодушно восторженной. В большинстве своём — крайне скептической.

«КАКОГО ЧЁРТА происходит в AI?» — написал пользователь @orcus108 на X в посте, набравшем более 161 000 просмотров. «Модель с 3B параметров выдаёт результаты кодинга на уровне Claude Opus 4.5… Я правда не знаю, это прорыв или бенчмарки сломаны».

Это напряжение — между подлинным научным прогрессом и растущим подозрением, что бенчмарки ИИ стали настолько игровыми, что потеряли смысл — находится в центре истории VibeThinker-3B. И ответ имеет колоссальное значение не только для академических лавров, но и для многомиллиардного вопроса: является ли безостановочная гонка индустрии за всё большими моделями единственным путём к интеллекту.

Результаты бенчмарков, которые бросают вызов законам масштабирования современного ИИ

Отчёт сообщает о показателях, которые по любым обычным меркам выглядят экстраординарно. Этот ai benchmark от команды Sina Weibo — VibeThinker-3B — заставляет пересмотреть устоявшиеся взгляды.

По математике VibeThinker-3B показал 91.4 на AIME 2025, 94.3 на AIME 2026, 89.3 на HMMT 2025 (Математический турнир Гарвард-МИТ), 93.8 на BruMO 2025 (Математическая олимпиада Брауновского университета) и 76.4 на IMO-AnswerBench — бенчмарке из 400 задач уровня Международной математической олимпиады. По кодингу — 80.2 Pass@1 на LiveCodeBench v6 (бенчмарк для генерации исполняемого кода) и 96.1% приемки на свежих контестах LeetCode с апреля по май 2026 года. На способности следовать инструкциям — 93.4 на IFEval.

Чтобы осознать разницу в параметрах: DeepSeek V3.2 имеет 671 миллиард — примерно в 224 раза больше VibeThinker-3B. GLM-5 от Zhipu AI — 744 миллиарда. Kimi K2.5 от Moonshot AI превышает 1 триллион. VibeThinker-3B с 3 миллиардами параметров мог бы работать на обычном ноутбуке.

Исследователи подают этот результат не как аномалию, а как доказательство более широкой теоретической гипотезы. Они вводят так называемую «Гипотезу параметрического сжатия-покрытия» (Parametric Compression-Coverage Hypothesis), которая утверждает: разные типы возможностей ИИ имеют принципиально разные отношения к размеру модели. Верифицируемые рассуждения — те, что проверяют математические олимпиады и задачи по коду, где ответ можно однозначно проверить — это «параметроёмкая» способность, которую можно сжать в компактное ядро. Знания об открытом мире, наоборот, «параметрорасширительны» — они требуют широкого охвата фактов, концепций и граничных случаев, что неизбежно требует больше параметров.

В отчёте это признают прямо. На GPQA-Diamond — бенчмарке научных знаний уровня выпускника — VibeThinker-3B набрал лишь 70.2, далеко позади Gemini 3 Pro (91.9) и Claude Opus 4.5 (87.0). Авторы пишут: «Этот разрыв согласуется с нашим утверждением, а не противоречит ему: главное открытие не в том, что 3B-модель полностью заменила ведущие универсальные модели, а в том, что маленькая модель может достичь первоклассных результатов на многих задачах верифицируемого мышления».

Внутри четырёхэтапного пайплайна обучения, питающего крошечный механизм рассуждений

VibeThinker-3B не строился с нуля. Он дообучен поверх Qwen2.5-Coder-3B — компактной базовой модели от команды Qwen из Alibaba — через то, что исследователи Weibo называют «Принципом спектр-к-сигналу». Это многоэтапный конвейер, впервые применённый в их более ранней работе VibeThinker-1.5B в ноябре 2025 года.

Обучение проходит в четыре крупных фазы. Первая — двухэтапная дообучка с учителем (SFT) с использованием curriculum learning: модель сначала тренируется на широкой смеси математики, кода, STEM-рассуждений, общего диалога и следования инструкциям, затем переключается на отобранный набор более сложных и длинных задач на рассуждения. На втором этапе отбрасываются примеры с цепочками рассуждений короче 5000 токенов, а задачи, которые VibeThinker-1.5B решает более чем в 75% случаев, отфильтровываются — так модель вынуждена фокусироваться на по-настоящему сложных вызовах.

Вторая фаза применяет обучение с подкреплением на нескольких доменах — математика, код, STEM — используя алгоритм MaxEnt-Guided Policy Optimization (MGPO), который приоритизирует тренировку на задачах на текущей границе возможностей модели, а не на тех, что она уже легко решает или считает невозможными. Примечательно, что стратегия, хорошо работавшая на масштабе 1.5B — постепенное расширение контекстного окна во время RL-обучения — на 3B навредила производительности. Гипотеза: более сильный стартовый чекпоинт означал, что обрезание цепочек рассуждений во время разогрева уже не удаляло шум, а разрушало валидные паттерны рассуждений. Решение — тренировать с единым окном в 64 000 токенов на протяжении всего процесса.

Внутри фазы RL по математике команда также вводит «Long2Short Math RL» — вторичный этап оптимизации, перераспределяющий награды в пользу более коротких правильных решений, уменьшая многословие без потери точности. Техника использует перераспределение наград с нулевой суммой, которое не смещает общий сигнал награды, но подталкивает модель к более эффективным рассуждениям.

Третья фаза извлекает качественные траектории рассуждений из RL-обученных чекпоинтов и дистиллирует их обратно в унифицированную модель через дообучку с учителем. Команда использует «оценку потенциала обучения» — по сути, перплексию модели-ученика на каждой траектории учителя — чтобы приоритизировать корректные траектории, которые ученик ещё не усвоил. Финальная фаза, названная Instruct RL, применяет обучение с подкреплением на задачах по инструкциям, используя комбинацию правиловых валидаторов для ограничений формата и оценочных моделей на основе рубрик для оценки качества открытых ответов.

Франческо Бертолотти, AI-исследователь, первым обративший внимание на статью в X, описал подход ёмко: «Эти результаты достигнуты в первую очередь доработками пост-тренировки на Qwen2.5-Coder. В статье не так много деталей, но похоже, они дистиллируют из RL-чекпоинтов, а затем проводят финальный RL-этап Instruct RL». Его пост набрал более 161 000 просмотров.

Реальное тестирование вскрывает разрыв между бенчмарками и практической производительностью ИИ

На каждую восторженную реакцию приходилось столь же сильное возражение. К середине 2026 года AI-сообщество стало глубоко подозрительно относиться к заявлениям на основе бенчмарков, и VibeThinker-3B появился в среде, заряженной на скепсис.

«Бенчмарки — это буквальное паттерн-матчинг одиночных файлов кода, — написал @BigMoonKR на X. — Это не имеет никакого отношения к реальной работе программиста. Не понимаю, как люди всё ещё этого не видят».

«Бенчмаксинг», — объявил @oflu_bedirhan, используя термин, ставший в AI-сообществе сокращением для моделей, которые оптимизированы специально под бенчмарки в ущерб реальной полезности.

Самый острый критик исходил от пользователей, которые реально скачали и протестировали модель. «Только что попробовал полную точность, — написал @politilols. — Она даже не знает, что такое uv script (самый популярный инструмент для Python-разработки). Не видел такого ни у одной LLM как минимум год. Бенчмаксированная». Когда Бертолотти ответил, что модель больше нацелена на математические рассуждения, чем на практическое программирование, пользователь возразил: «Они включают LiveCodeBench. Нулевой шанс, что этот бенчмарк отражает реальную модель».

@Itsdotdev высказал структурную критику: «Посмотрите на сами бенчмарки — и это уже не будет таким шокирующим. Почему нет DeepSWE? Почему нет стандартных бенчмарков, которые используют SOTA-поставщики?» Пользователь @AvenirReym задал более диагностический вопрос: «Если модель держится на бенчмарке, созданном после её даты отсечки обучения — это реально. Если она выигрывает только на наборах AIME, которые циркулируют годами — это утечка данных».

Авторы статьи, кажется, предвидели эти возражения. В техотчёте указано, что тренировочные наборы «прошли строгую дезактивацию от бенчмарков», включая фильтрацию n-грамм для удаления «пересечений n-грамм с оценочными наборами».

Оценка на контестах LeetCode — охватывающая контесты с 25 апреля по 31 мая 2026 года, даты явно после любой разумной даты отсечки обучения — представляет самую надёжную защиту от опасений по поводу загрязнения данных. На этих контестах VibeThinker-3B прошёл 123 из 128 попыток с первой попытки — 96.1%, превысив показатели GPT-5.2, Doubao Seed 2.0 Pro, Kimi K2.5 и Claude Opus 4.6 в идентичных условиях оценки.

Тем не менее, отчёты реальных пользователей указывают на значительный разрыв между производительностью на бенчмарках и практической пользой — явление, ставшее привычным для всей индустрии. «В LM Studio она хорошо отвечает только на первый вопрос, на следующие — отвечает на первый вопрос», — сообщил @luismolinaab.

Почему соцсеть могла найти трещину в гипотезе масштабирования

Даже самые резкие критики признавали: достижение таких цифр на 3 миллиардах параметров — независимо от переносимости на реальные сценарии — является значительным инженерным достижением. «Даже если это бенчмаксинг, сделать это с 3B параметров — захватывающе, показывает, как быстро развивается эта область», — написал @rohityin.

Это наблюдение упирается в вопрос, который поглощает AI-индустрию с момента появления гипотезы масштабирования: всегда ли больше — значит лучше? Общепринятая мудрость, наиболее известная в виде законов масштабирования Chinchilla и укреплённая коммерческим доминированием всё более крупных базовых моделей, утверждает: больше параметров и больше обучающих данных надёжно ведут к лучшей производительности. Экономическое следствие сурово: обучение и развёртывание передовых моделей стоит десятки или сотни миллионов долларов, создавая огромные барьеры для входа.

VibeThinker-3B бросает вызов этому консенсусу — но лишь частично. Статья тщательно очерчивает границы своих утверждений, различая задачи с «чётким сигналом верификации» и те, что требуют широких фактических знаний. Гипотеза параметрического сжатия-покрытия прямо заявляет: маленькие модели не могут заменить большие во всём.

«Истинное значение VibeThinker-3B не в том, чтобы доказать, что 3B-модель может заменить крупномасштабных генералистов, — говорится в статье. — Оно заключается в конкретном эмпирическом сигнале: разработка компактных моделей больше не является пассивным компромиссом ради эффективности развёртывания или контроля затрат; она превращается в многообещающую исследовательскую траекторию, принципиально дополняющую традиционную парадигму масштабирования параметров».

Пожалуй, самый удивительный элемент работы — её происхождение. Sina Weibo — торгуется на Nasdaq и в Гонконге, с рыночной капитализацией, колеблющейся в пределах однозначных миллиардов — не та компания, которую обычно ассоциируют с передовыми AI-исследованиями. Однако серия VibeThinker — это второй крупный вклад Weibo в открытый AI за семь месяцев. VibeThinker-1.5B, выпущенный в ноябре 2025 года, продемонстрировал, что модель с всего 1.5 миллиарда параметров может превзойти оригинальный DeepSeek R1 на нескольких математических бенчмарках — результат, которого команда добилась, по её заявлениям, при затратах на пост-тренировку всего $7,800, по сравнению с расчётными $294,000 для DeepSeek R1.

Исследовательская группа компактна — девять авторов, все указаны как сотрудники Sina Weibo Inc. Модель выпущена под лицензией MIT — одной из самых разрешительных открытых лицензий — и веса свободно скачиваются как с Hugging Face, так и с ModelScope. В первый же день после релиза члены сообщества уже создали GGUF-квантования и производные модели.

Маленькие модели, большие последствия и вопрос, которого индустрия AI больше не может избегать

Самая честная оценка VibeThinker-3B, возможно, такова: она одновременно и меньше, и больше, чем показывают бенчмарки. Меньше — потому что модель, которая не знает базовых инструментов разработчика, вряд ли скоро заменит любого боевого ассистента кодинга. Больше — потому что лежащая в основе идея — что способность к рассуждениям и фактические знания частично разделены, и что первое можно сжимать гораздо агрессивнее, чем предполагалось — имеет глубокие последствия для того, как индустрия думает о дизайне моделей, экономике развёртывания и доступности передовых AI-возможностей.

Если гипотеза параметрического сжатия-покрытия верна, это предполагает будущее, в котором маленькие специализированные движки рассуждений работают бок о бок с большими моделями знаний в гибридных архитектурах — видение, где 3-миллиардная модель берёт на себя логическую тяжесть, а более крупная система поставляет фактическую подоплёку. Такая архитектура может радикально снизить стоимость развёртывания AI-возможностей рассуждения, потенциально принося производительность уровня олимпиад по математике и кодингу на устройства со скромным железом.

«Интересная часть — мы начинаем отделять знания от рассуждений, — написал @RealLambdaFlux на X. — Маленькая модель с сильной пост-тренировкой может бить далеко выше своего веса на задачах с чётким фидбеком».

@cmitsakis предположил практический финал: «Я думаю, маленькие модели — будущее для агентов, потому что они могут использовать инструменты для получения знаний и работать быстро и дёшево».

Придёт ли это будущее через конкретно VibeThinker-3B или через дюжины команд, теперь гонящихся за воспроизведением и расширением этих результатов — статья уже сделала то, что ни один бенчмарк не может полностью охватить. Она заставила AI-сообщество столкнуться с неудобной возможностью: что годами индустрия тратила миллиарды долларов на масштабирование параметров, чтобы улучшить вид интеллекта, который всё это время мог поместиться на ноутбуке. Веса открыты. Код открыт. И самый важный тест — не на каком-то лидерборде: сможет ли кто-нибудь сделать модель такого размера по-настоящему полезной в реальном мире.

Справка по теме (FAQ)

Что такое VibeThinker-3B?

Это языковая модель с 3 миллиардами параметров, разработанная исследователями из китайской соцсети Sina Weibo. Она дообучена поверх Qwen2.5-Coder-3B и, по заявлениям авторов, достигает результатов на уровне флагманских моделей (DeepSeek V3.2, Gemini 3 Pro) в задачах на верифицируемые рассуждения — математика и программирование.

Почему вокруг VibeThinker-3B разгорелись споры?

Результаты модели на ai benchmark (AIME 2026, LeetCode) оказались аномально высокими для такого малого числа параметров. Это вызвало подозрения в «бенчмаксинге» — подгонке под метрики. Пользователи, скачавшие модель, обнаружили пробелы в реальных знаниях (например, незнание популярного инструмента uv script).

Какие результаты показала модель на бенчмарках?

94.3 балла на AIME 2026 (на уровне DeepSeek V3.2 с 671 млрд параметров), 96.1% решённых задач с первой попытки на LeetCode (контесты апреля–мая 2026), 80.2% на LiveCodeBench v6. При использовании техники Claim‑Level Reliability Assessment показатель AIME вырастает до 97.1.

Что такое «гипотеза параметрического сжатия-покрытия», предложенная авторами?

Это идея, что способность к рассуждениям (верифицируемые задачи) можно сжать в компактное ядро, а фактические знания требуют много параметров. Маленькая модель может быть сильна в логике, но слаба в общих знаниях (GPQA-Diamond — лишь 70.2).

Где можно скачать VibeThinker-3B?

Модель выпущена под лицензией MIT. Веса свободно доступны на Hugging Face и ModelScope. Уже появились GGUF‑квантования от сообщества.

Как проходило обучение модели?

Использован четырёхфазный пайплайн «спектр-к-сигналу»: 1) дообучение с учителем на сложных задачах, 2) обучение с подкреплением (алгоритм MGPO) с единым окном в 64k токенов, 3) дистилляция качественных траекторий, 4) финальный этап Instruct RL. Затраты на пост-тренировку составили около $7 800.

Стоит ли верить этим результатам?

Скептики отмечают разрыв между бенчмарками и реальной полезностью. Однако даты LeetCode‑контестов (после даты отсечки обучения) и фильтрация данных от загрязнения говорят в пользу модели. Пока сообщество разделилось: одни считают это прорывом, другие — очередным overfitting на конкретные тесты.