Google Gemini Omni Flash добрался до API: теперь корпоративное видео делается одним диалогом

Корпоративное видео — это всегда боль. Чтобы снять 90-секундный обучающий ролик или объяснялку для продукта, нужен бриф, съемочная группа (или внешний подрядчик), сам съемочный день, монтаж и бесконечный раунд правок. Юристы попросили сменить одну строчку на экране — и весь конвейер запускается заново. Именно из-за этого безумного ценообразования и сроков большая часть внутреннего видео так и остается в головах продюсеров.

Google решил, что с него хватит, и выкатил Gemini Omni Flash — первую модель из нового семейства «Omni». После дебюта на I/O 2026 для потребителей, API наконец-то добрался до разработчиков и корпоративных клиентов. Философия семейства амбициозна: создавать что угодно «из любого ввода», начиная с видео. Но главная фишка — не просто более качественный text-to-video промпт. Это возможность редактировать готовый клип через обычный разговор.

Когда модель запускали в мае, аналитики VentureBeat справедливо заметили подвох: без программного интерфейса Omni был игрушкой для энтузиастов, а не продакшен-инструментом. Релиз API всё меняет. Теперь «разговорный» монтаж попадает в руки маркетологов и L&D-команд, которые делают львиную долю корпоративного видео.

Одна модель вместо пяти тулзов

До сих пор многие команды собирали AI-видео на коленке: прикручивали LLM для сценария, text-to-image модель, image-to-video, отдельный инструмент для липсинка и генератор голоса. У каждого — свой контракт, биллинг и дата-пайп. Аргумент Google прост: унификация. Одна модель, которая принимает текст, изображения и видео, а на выходе выдает готовый клип с синхронизированным звуком.

Именно эту простоту должны оценить люди, принимающие решения. Вместо того чтобы стыковать пять точек-решений, вы получаете один vendor и одну точку контроля за выходом и обработкой данных. Для организации, которая не лезла в генеративное видео именно из-за геморроя со склейкой тулзов, уравнение кардинально меняется.

Каждая инструкция при разговорном редактировании строится на предыдущей. Маркетолог может сменить освещение продукта, перекадрировать сцену или изменить гардероб персонажа — и при этом не перегенерировать всё с нуля, теряя то, что уже получилось удачно. Разница между «давайте переснимем» и «я отправил правки в мессенджере».

Физика для бренда: мультимодальные референсы

Omni принимает куда больше, чем просто текстовый промпт. Вы кидаете в модель несколько референсных изображений, готовые видеоклипы — и она тащит из них конкретику в финальный результат. Дайте ей фото конкретного объекта и попросите поместить его в сцену — модель воспроизведет реальную расцветку и грубую форму, а не нарисует абстрактную болванку. Совпадение не будет пиксель-в-пиксель, но до узнаваемости — вполне. Именно этот референс-контроль делает фичу коммерчески интересной: фото продукта, логотип или конкретную локацию можно просто «закинуть» как ингредиент, а не описывать словами и надеяться, что нейросеть угадает.

Две из четырех ключевых возможностей, которые Google подсвечивает, бьют прямо в enterprise-потребности. Первая — world model, то есть понимание того, как ведут себя физические сцены. Добавьте в готовый кадр легкий дождь и лужи — и модель отрендерит отражения людей и объектов в мокром асфальте. Именно физическая согласованность отличает реальное видео от откровенной AI-поделки.

Вторая — вставка текста и логотипов. Ткните в сцену с вывесками — и модель перепишет их на другом языке или под ваш бренд, а также вбросит логотип компании. Результаты, правда, не идеальны: в тестах трекинг вывесок в сложных сценах иногда сбоил, а кое-где текст на кадрах сползал обратно в исходный язык. Для обучающих видео, где нужны подписи на экране, или рекламы с логотипом в сцене — это способность, которую стоит приглядеть. И напоминание: выхлоп всё ещё требует человеческой проверки перед публикацией.

Interactions API: как это работает и где границы

Под капотом — новый interactions API от Google, stateful-интерфейс, заточенный под многошаговые задачи, а не под открытый чат. Каждый шаг тащит вперед предыдущее видео и его референсы, что позволяет накапливать правки согласованно. Разработчики могут цеплять генерации друг за другом: создать клип, превратить кота в котенка пумы, перестилизовать видео в 8-битную ретро-эстетику, потом в акварель — и сохранить каждую версию, чтобы ветвиться от любой из них позже.

Ограничения реальны, и их стоит закладывать в бюджет. Клипы сейчас рубятся на максимум в 10 секунд — так написано в model card модели. Чтобы сделать что-то длиннее, придется генерировать чанки и склеивать их в редакторе. Загруженное видео тоже можно редактировать, если оно не длиннее 10 секунд и у вас есть права на контент. В model card от Google честно сказано: удержание согласованности между правками и рендеринг точного текста остаются открытыми проблемами.

Водяные знаки, гвардрейлы и красные линии

Для любого CISO демки значат меньше, чем система проверки происхождения контента. Каждый клип Omni несет SynthID-водяной знак, Google расширяет поддержку C2PA Content Credentials на все свои генеративные инструменты и запустил AI Content Detection API — он помечает AI-сгенерированное медиа, как от Google, так и от других вендоров.

Google провел и четкую этическую границу. Модель откажется брать стоп-кадр человека и аудиодорожку и синхронизировать их в речь — прямой шаг против дипфейков. Но она возьмет запись говорящего человека и переведет ее на другой язык — полезно для локализации глобального обучающего контента. Для регулируемых предприятий эти ограничения и встроенная проверка происхождения — не головная боль, а фича.

Цены: дешево, но только 720p

Прайсинг вышел вместе с API, и он агрессивен. Omni Flash стоит $0.10 за секунду сгенерированного 720p-видео. Десятисекундный клип — примерно доллар. Это совпадает с Veo 3.1 Fast на том же разрешении, вдвое дороже Veo 3.1 Lite и в четыре раза дешевле стандартного Veo 3.1.

Таблица цен наглядно показывает подвох: Omni Flash генерирует только 720p. Нет ни 1080p, ни 4K — в то время как Veo масштабируется до 4K. Для внутренних обучений и большинства соцсетей 720p — ок. Для премиальной брендовой работы, которая будет висеть на большом экране — это реальный потолок. Именно поэтому Veo 3.1 пока не уходит на пенсию.

Клипы — от 3 до 10 секунд в нативном 720p, ландшафт (16:9) или портрет (9:16). На вход модель принимает до семи изображений и до трех видеоклипов длительностью не более трех секунд. Аудио на вход пока не принимается, хотя модель генерирует звук вместе с видео. Выход — стандартный MP4 с SynthID и C2PA.

По качеству — ранний сигнал сильный. В LMArena Text-to-Video Arena, где люди голосуют за попарные результаты разных моделей, Omni Flash занял первое место с рейтингом 1527.

Что это значит для бюджетов

С реальными ценами на руках история с итерациями становится конкретной. Каждая разговорная правка — это свежая генерация, за которую платят. Приблизительно доллар за каждый десятисекундный проход в 720p. Что меняет stateful-модель — не стоимость одной правки, а количество пустых генераций. Контекст переносится между шагами, и эти генерации уходят на доработку того, что уже почти получилось, а не на перезапуск с пустого промпта в надежде, что следующий рандом сработает