Корпорации уже вовсю пихают нейросетевые картинки в свои рекламные кампании и рабочие процессы. Но давайте честно: этот контент чаще всего выглядит как безликая каша — однообразная, вторичная, забываемая. Короче, «AI-помои». Стартап Krea решил сломать этот тренд, выложив в открытый доступ веса своей новой фронтирной модели Krea 2 в двух версиях: «Krea 2 Raw» и «Krea 2 Turbo». Лицензия нестандартная: компаниям с числом сотрудников больше 50 придётся платить за Enterprise, а все без исключения обязаны внедрить технические средства, блокирующие генерацию нелегального контента — детской порнографии, дипфейков с интимными сценами и клеветы. Обе модели уже можно скачать с Hugging Face. Разработчики утверждают: их модели выдают куда больше визуального разнообразия, чем типичные генераторы, не жертвуя точностью следования промпту, детализацией и качеством. И что важнее — компании и пользователи могут кастомизировать выход так, как не позволяют ни проприетарные монстры, ни другие опенсорсные аналоги. А для тех, кому нужно генерить картинки пачками, Krea 2 Turbo выдает кадр за 2 секунды — одна из самых быстрых открытых моделей на рынке.
Бенчмарки скорости и лицензирования AI-генераторов (середина 2026)
| Модель / Генератор | Разработчик / Платформа | Среднее время генерации | Лицензия и коммерческое использование | Ключевые особенности |
|---|---|---|---|---|
| FLUX.1 [schnell] (fast) | Prodia | 0.5 сек | Открытые веса (Apache 2.0). Полностью свободное коммерческое использование. | Высокооптимизированная конечная точка с дистилляцией шагов — выдает результат меньше чем за секунду. Абсолютный минимум задержки среди нынешних API. |
| Z-Image Turbo | Replicate / fal.ai | 1.8 сек | Проприетарная. Коммерческие права требуют контракта на использование API. | Создана для мгновенных всплесков инференса. Replicate и fal.ai показывают одинаковые 1.8 секунды медианы на этой модели. |
| Krea 2 Turbo | Krea | 2.0 сек | Открытые веса / Гибридная проприетарная. Доступна через пробную версию платформы или API. | Сохраняет совместимость с референсами стиля и LoRA, используя Trajectory Distribution Matching (TDM) для ускорения творческого поиска. |
| Midjourney v8.1 (Turbo Mode) | Midjourney | 3–6 сек | Проприетарная. Коммерческое использование требует активной подписки Standard, Pro или Mega. | Обещает скорость «в три раза выше v8» при сохранении фирменной «живописной реалистичности с продуманным светом». Правда, «сжирает больше кредитов». |
| FLUX.2 [klein] 4B | Black Forest Labs | 3.9 сек | Открытые веса. Свободное коммерческое использование. | Облегченный вариант архитектуры FLUX.2 с 4 миллиардами параметров — баланс между точностью промпта и скоростью. |
| FLUX.2 [klein] 9B | Black Forest Labs | 4.6 сек | Открытые веса. Свободное коммерческое использование. | Средняя версия на 9 миллиардов параметров. Композиционная сложность выше, но генерация всё ещё укладывается в 5 секунд. |
| MAI Image 2 Efficient | Microsoft | 4–7 сек | Проприетарная. Коммерческое использование — оплата по факту через Azure AI Foundry. | Вариант, оптимизированный на пропускную способность: создатели заявляют, что он «обходит Imagen Flash от Google». Детализация слегка снижена в обмен на «существенно меньшую задержку» — идеально для автоматизированных пайплайнов. |
| Midjourney v8.1 (Fast Mode) | Midjourney | 5–9 сек | Проприетарная. Коммерческое использование требует активной подписки. | Стандартный режим v8.1. Время ожидания «стабильно ниже 10 секунд для большинства промптов», при этом модель отлично справляется со сложными многоэлементными сценами. |
| FLUX.2 [dev] | fal.ai / DeepInfra | 6.1–6.4 сек | Открытые веса (некоммерческая). Только для исследований и некоммерческой разработки. | Исследовательская модель для разработчиков. Оптимизации на стороне API дают небольшую разницу: fal.ai — 6.1 сек, DeepInfra — 6.4 сек. |
| Midjourney v8.1 (Relax Mode) | Midjourney | 8–14 сек | Проприетарная. Коммерческое использование требует активной подписки. | Обрабатывает стандартные 1024x1024 без расхода быстрых GPU-часов. Сохраняет «сильное композиционное чутьё» и «единую цветовую гамму и настроение». |
| FLUX.2 [pro] | Black Forest Labs | 11.1 сек | Проприетарная. Коммерческие права — через платное API. | Закрытый профессиональный уровень. Жертвует агрессивной дистилляцией шагов ради высококачественного коммерческого рендера и строгих пространственных выравниваний. |
| Seedream 4.0 | BytePlus | 11.6 сек | Проприетарная. Коммерческое использование — по контрактам BytePlus для предприятий. | Базовая коммерческая модель архитектуры Seedream — стабильная, стандартного разрешения. |
| MAI Image 2 Standard | Microsoft | 12–20 сек | Проприетарная. Коммерческое использование — оплата по факту через Azure AI Foundry. | Работает как «полноценный вывод, оптимизированный под фотореализм». По сути — рендерер, выдающий «высокодетализированные оттенки кожи и текстуры материалов» и «строгое буквальное следование промпту». |
| Nano Banana Pro (Gemini 3 Pro Image) | Google DeepMind | 17.7 сек | Проприетарная. Коммерческие права — по условиям Gemini API. | Ставит во главу угла точную семантическую точность и следование промпту за счёт расширенной фазы рассуждений — скорость приносится в жертву сложному контекстуальному выполнению. |
| Seedream 4.5 | BytePlus | 18.2 сек | Проприетарная. Коммерческое использование — по контрактам BytePlus. | Улучшенная версия с высокой точностью: требует дополнительных 6.6 секунд вычислений по сравнению с 4.0 для проработки сложных текстур и отрисовки текста. |
| Krea 2 Large | Krea | 23.7 сек | Проприетарная / Открытые веса. Коммерческие права зависят от способа развёртывания. | Фундаментальная модель без дистилляции. Игнорирует скоростной Trajectory Distribution Matching Turbo-версии, чтобы выжать максимум эстетики и структурной стабильности. |
| FLUX.2 [max] | Black Forest Labs | 25.6 сек | Проприетарная. Закрытое enterprise API. | Самая тяжелая модель в линейке FLUX. Работает исключительно как глубокий рассуждающий рендерер для сложных коммерческих ассетов. |
| GPT-Image-2 | OpenAI | 200.8 сек | Проприетарная. Полное коммерческое использование на стандартных условиях OpenAI. | Гигантский выброс в таблице задержек. Тратит более трёх минут на сложное многошаговое семантическое рассуждение — вероятно, использует развёрнутую цепочку логических шагов до финализации пикселей. |
Источники: Artificial Analysis, Krea, MindStudio.AI
Архитектурная развилка: 12-миллиардный трансформер
В основе релиза лежит архитектура, написанная с нуля: Diffusion Transformer на 12 миллиардов параметров. Krea не стала выпускать одну единственную дообученную модель под все задачи. Вместо этого в опенсорс уходят два совершенно разных чекпоинта, снятых на разных этапах тренировочного цикла. Отказавшись от мультипоточных конфигураций ради структурной ясности, ядро использует однонаправленные блоки трансформера, где слои внимания и MLP разделяются между текстовыми и графическими токенами. Для максимальной вычислительной эффективности инженеры прикрутили SwiGLU MLP с 4-кратным расширением, групповое query-внимание (GQA) с гейтированными сигмоидными слоями для стабилизации обучения и оптимизировали conditioning по временным шагам: вместо отдельных MLP-модулей на каждый блок — легковесный настраиваемый bias-терм, что сократило общие параметры модуляции на 20-30% и перебросило бюджет в основные слои. Позиционное кодирование — 3D-осевая Rotary Position Embedding (RoPE), работающая по координатам кадра, высоты и ширины.
Krea 2 Raw и Krea 2 Turbo: два характера
Krea 2 Raw — это недистиллированный базовый чекпоинт, взятый прямо из середины тренировки большой модели Krea 2 Medium. В нём нет ни посттренировочной настройки, ни RLHF, ни финальной эстетической дистилляции. Raw — чистый холст. Его латентное пространство огромно и неотшлифовано: для немедленной генерации по промпту он подходит плохо, зато для структурного обучения — идеально. Запускать эту модель через библиотеку `diffusers` от Hugging Face — задача не для слабонервных: `Krea2Pipeline` в `torch.bfloat16`, 52 шага инференса, guidance scale 3.5. Чтобы ускорить сходимость архитектуры на ранних этапах (базовое обучение на 256px), Krea использовала технику внутреннего выравнивания представлений (iREPA), а затем отключила её, позволив модели развивать независимые структурные представления.
Второй чекпоинт, Krea 2 Turbo, — полная противоположность. Это дистиллированный, посттренированный вариант, сжатый с помощью knowledge distillation. Сложный многошаговый процесс генерации превращается в невероятно компактный конвейер: всего 8 шагов инференса при guidance scale 0.0. Это позволяет рендерить нативное 2K-разрешение на обычном потребительском «железе» примерно за 2 секунды. Латентные представления обеих моделей оптимизированы через интеграцию Qwen Image VAE и FLUX 2 VAE — быстрая сходимость без потери качества реконструкции.
Данные и обучение: никакой синтетики
Стратегия датасета для семейства Krea 2 — гибрид: публично собранные данные, сторонние лицензированные репозитории изображений и тщательно отобранные синтетические наборы, сгенерированные собственными проприетарными методами. Перед финальным обучением Krea прогнала коллекции через жёсткие алгоритмические фильтры, вырезающие дублирующиеся кадры, низкое разрешение и опасный контент. Важный момент: Krea деклари