Назад в ленту

Krea 2 Turbo разгоняет нейросети до 2 секунд: опенсорсные веса, 12 млрд параметров и никаких «помоев»

Корпорации уже вовсю пихают нейросетевые картинки в свои рекламные кампании и рабочие процессы. Но давайте честно: этот контент чаще всего выглядит как безликая каша — однообразная, вторичная, забываемая. Короче, «AI-помои». Стартап Krea решил сломать этот тренд, выложив в открытый доступ веса своей новой фронтирной модели Krea 2 в двух версиях: «Krea 2 Raw» и «Krea 2 Turbo». Лицензия нестандартная: компаниям с числом сотрудников больше 50 придётся платить за Enterprise, а все без исключения обязаны внедрить технические средства, блокирующие генерацию нелегального контента — детской порнографии, дипфейков с интимными сценами и клеветы. Обе модели уже можно скачать с Hugging Face. Разработчики утверждают: их модели выдают куда больше визуального разнообразия, чем типичные генераторы, не жертвуя точностью следования промпту, детализацией и качеством. И что важнее — компании и пользователи могут кастомизировать выход так, как не позволяют ни проприетарные монстры, ни другие опенсорсные аналоги. А для тех, кому нужно генерить картинки пачками, Krea 2 Turbo выдает кадр за 2 секунды — одна из самых быстрых открытых моделей на рынке.



Бенчмарки скорости и лицензирования AI-генераторов (середина 2026)



Модель / Генератор Разработчик / Платформа Среднее время генерации Лицензия и коммерческое использование Ключевые особенности
FLUX.1 [schnell] (fast) Prodia 0.5 сек Открытые веса (Apache 2.0). Полностью свободное коммерческое использование. Высокооптимизированная конечная точка с дистилляцией шагов — выдает результат меньше чем за секунду. Абсолютный минимум задержки среди нынешних API.
Z-Image Turbo Replicate / fal.ai 1.8 сек Проприетарная. Коммерческие права требуют контракта на использование API. Создана для мгновенных всплесков инференса. Replicate и fal.ai показывают одинаковые 1.8 секунды медианы на этой модели.
Krea 2 Turbo Krea 2.0 сек Открытые веса / Гибридная проприетарная. Доступна через пробную версию платформы или API. Сохраняет совместимость с референсами стиля и LoRA, используя Trajectory Distribution Matching (TDM) для ускорения творческого поиска.
Midjourney v8.1 (Turbo Mode) Midjourney 3–6 сек Проприетарная. Коммерческое использование требует активной подписки Standard, Pro или Mega. Обещает скорость «в три раза выше v8» при сохранении фирменной «живописной реалистичности с продуманным светом». Правда, «сжирает больше кредитов».
FLUX.2 [klein] 4B Black Forest Labs 3.9 сек Открытые веса. Свободное коммерческое использование. Облегченный вариант архитектуры FLUX.2 с 4 миллиардами параметров — баланс между точностью промпта и скоростью.
FLUX.2 [klein] 9B Black Forest Labs 4.6 сек Открытые веса. Свободное коммерческое использование. Средняя версия на 9 миллиардов параметров. Композиционная сложность выше, но генерация всё ещё укладывается в 5 секунд.
MAI Image 2 Efficient Microsoft 4–7 сек Проприетарная. Коммерческое использование — оплата по факту через Azure AI Foundry. Вариант, оптимизированный на пропускную способность: создатели заявляют, что он «обходит Imagen Flash от Google». Детализация слегка снижена в обмен на «существенно меньшую задержку» — идеально для автоматизированных пайплайнов.
Midjourney v8.1 (Fast Mode) Midjourney 5–9 сек Проприетарная. Коммерческое использование требует активной подписки. Стандартный режим v8.1. Время ожидания «стабильно ниже 10 секунд для большинства промптов», при этом модель отлично справляется со сложными многоэлементными сценами.
FLUX.2 [dev] fal.ai / DeepInfra 6.1–6.4 сек Открытые веса (некоммерческая). Только для исследований и некоммерческой разработки. Исследовательская модель для разработчиков. Оптимизации на стороне API дают небольшую разницу: fal.ai — 6.1 сек, DeepInfra — 6.4 сек.
Midjourney v8.1 (Relax Mode) Midjourney 8–14 сек Проприетарная. Коммерческое использование требует активной подписки. Обрабатывает стандартные 1024x1024 без расхода быстрых GPU-часов. Сохраняет «сильное композиционное чутьё» и «единую цветовую гамму и настроение».
FLUX.2 [pro] Black Forest Labs 11.1 сек Проприетарная. Коммерческие права — через платное API. Закрытый профессиональный уровень. Жертвует агрессивной дистилляцией шагов ради высококачественного коммерческого рендера и строгих пространственных выравниваний.
Seedream 4.0 BytePlus 11.6 сек Проприетарная. Коммерческое использование — по контрактам BytePlus для предприятий. Базовая коммерческая модель архитектуры Seedream — стабильная, стандартного разрешения.
MAI Image 2 Standard Microsoft 12–20 сек Проприетарная. Коммерческое использование — оплата по факту через Azure AI Foundry. Работает как «полноценный вывод, оптимизированный под фотореализм». По сути — рендерер, выдающий «высокодетализированные оттенки кожи и текстуры материалов» и «строгое буквальное следование промпту».
Nano Banana Pro (Gemini 3 Pro Image) Google DeepMind 17.7 сек Проприетарная. Коммерческие права — по условиям Gemini API. Ставит во главу угла точную семантическую точность и следование промпту за счёт расширенной фазы рассуждений — скорость приносится в жертву сложному контекстуальному выполнению.
Seedream 4.5 BytePlus 18.2 сек Проприетарная. Коммерческое использование — по контрактам BytePlus. Улучшенная версия с высокой точностью: требует дополнительных 6.6 секунд вычислений по сравнению с 4.0 для проработки сложных текстур и отрисовки текста.
Krea 2 Large Krea 23.7 сек Проприетарная / Открытые веса. Коммерческие права зависят от способа развёртывания. Фундаментальная модель без дистилляции. Игнорирует скоростной Trajectory Distribution Matching Turbo-версии, чтобы выжать максимум эстетики и структурной стабильности.
FLUX.2 [max] Black Forest Labs 25.6 сек Проприетарная. Закрытое enterprise API. Самая тяжелая модель в линейке FLUX. Работает исключительно как глубокий рассуждающий рендерер для сложных коммерческих ассетов.
GPT-Image-2 OpenAI 200.8 сек Проприетарная. Полное коммерческое использование на стандартных условиях OpenAI. Гигантский выброс в таблице задержек. Тратит более трёх минут на сложное многошаговое семантическое рассуждение — вероятно, использует развёрнутую цепочку логических шагов до финализации пикселей.

Источники: Artificial Analysis, Krea, MindStudio.AI



Архитектурная развилка: 12-миллиардный трансформер



В основе релиза лежит архитектура, написанная с нуля: Diffusion Transformer на 12 миллиардов параметров. Krea не стала выпускать одну единственную дообученную модель под все задачи. Вместо этого в опенсорс уходят два совершенно разных чекпоинта, снятых на разных этапах тренировочного цикла. Отказавшись от мультипоточных конфигураций ради структурной ясности, ядро использует однонаправленные блоки трансформера, где слои внимания и MLP разделяются между текстовыми и графическими токенами. Для максимальной вычислительной эффективности инженеры прикрутили SwiGLU MLP с 4-кратным расширением, групповое query-внимание (GQA) с гейтированными сигмоидными слоями для стабилизации обучения и оптимизировали conditioning по временным шагам: вместо отдельных MLP-модулей на каждый блок — легковесный настраиваемый bias-терм, что сократило общие параметры модуляции на 20-30% и перебросило бюджет в основные слои. Позиционное кодирование — 3D-осевая Rotary Position Embedding (RoPE), работающая по координатам кадра, высоты и ширины.



Krea 2 Raw и Krea 2 Turbo: два характера



Krea 2 Raw — это недистиллированный базовый чекпоинт, взятый прямо из середины тренировки большой модели Krea 2 Medium. В нём нет ни посттренировочной настройки, ни RLHF, ни финальной эстетической дистилляции. Raw — чистый холст. Его латентное пространство огромно и неотшлифовано: для немедленной генерации по промпту он подходит плохо, зато для структурного обучения — идеально. Запускать эту модель через библиотеку `diffusers` от Hugging Face — задача не для слабонервных: `Krea2Pipeline` в `torch.bfloat16`, 52 шага инференса, guidance scale 3.5. Чтобы ускорить сходимость архитектуры на ранних этапах (базовое обучение на 256px), Krea использовала технику внутреннего выравнивания представлений (iREPA), а затем отключила её, позволив модели развивать независимые структурные представления.

Второй чекпоинт, Krea 2 Turbo, — полная противоположность. Это дистиллированный, посттренированный вариант, сжатый с помощью knowledge distillation. Сложный многошаговый процесс генерации превращается в невероятно компактный конвейер: всего 8 шагов инференса при guidance scale 0.0. Это позволяет рендерить нативное 2K-разрешение на обычном потребительском «железе» примерно за 2 секунды. Латентные представления обеих моделей оптимизированы через интеграцию Qwen Image VAE и FLUX 2 VAE — быстрая сходимость без потери качества реконструкции.



Данные и обучение: никакой синтетики



Стратегия датасета для семейства Krea 2 — гибрид: публично собранные данные, сторонние лицензированные репозитории изображений и тщательно отобранные синтетические наборы, сгенерированные собственными проприетарными методами. Перед финальным обучением Krea прогнала коллекции через жёсткие алгоритмические фильтры, вырезающие дублирующиеся кадры, низкое разрешение и опасный контент. Важный момент: Krea деклари