Google снова в деле, и на этот раз они обещают нам золотые горы! На своей ежегодной конференции I/O, по данным VentureBeat, они представили Gemini 3.5 Flash – новую модель искусственного интеллекта, которая, по их словам, ломает все стереотипы об AI. Якобы, самые умные модели теперь не обязательно должны быть самыми медленными и дорогими.
Эта модель – центральный элемент целой кучи анонсов, от видео-генерирующей "мировой модели" Gemini Omni до круглосуточного личного AI-агента Gemini Spark. Но именно 3.5 Flash имеет, пожалуй, самые непосредственные последствия для предприятий, вливающих миллиарды долларов в AI-инфраструктуру.
Глава Google, Сундар Пичаи, заявил журналистам, что компании, обрабатывающие примерно триллион токенов в день в Google Cloud, смогут сэкономить более миллиарда долларов в год, если переведут 80% своих рабочих нагрузок на смесь Flash и других передовых моделей. Типа, это не просто техническое достижение, а финансовый спасательный круг для организаций, которые борются с безумными затратами на развертывание AI в масштабе.
Если это правда, то это будет один из самых значительных сдвигов в экономике корпоративного AI с тех пор, как большие языковые модели вошли в корпоративные вычисления. Последние три года организации, внедряющие генеративный AI, сталкивались с болезненным компромиссом: самые мощные модели – те, которые могут рассуждать о сложных многоступенчатых проблемах, писать надежный код и анализировать плотные финансовые документы – как правило, большие, медленные и дорогие в запросах. Более быстрые и дешевые модели жертвуют точностью.
В итоге, директора по информационным технологиям были вынуждены заниматься своего рода управлением AI-портфелем: направлять простые запросы в легкие модели и резервировать мощные движки рассуждений для важных задач. Это сложная, хрупкая система, которая добавляет инженерные накладные расходы и часто обеспечивает непоследовательный пользовательский опыт.
Gemini 3.5 Flash наносит прямой удар по этому компромиссу. Согласно внутренним тестам Google и стороннему анализу от Artificial Analysis, модель превосходит собственный Gemini 3.1 Pro – модель, которую компания позиционировала как свою топовую флагманскую всего четыре-пять месяцев назад – почти по всем основным показателям. Она набирает 76,2% на Terminal-Bench 2.1, достигает 1656 Elo на GDPval-AA, достигает 83,6% на MCP Atlas и лидирует в мультимодальном понимании с 84,2% на CharXiv Reasoning.
И все это при том, что она генерирует выходные токены в четыре раза быстрее, чем сопоставимые передовые модели от конкурентов. Корай Кавукчуоглу, технический директор Google DeepMind и главный AI-архитектор Google, заявил журналистам, что команда пошла еще дальше: "Мы разработали еще более оптимизированную версию Flash, не просто в четыре раза, а на самом деле в 12 раз быстрее с тем же качеством". Эта турбо-версия... Ну, ждем, когда ее покажут.
Конечно, ко всему этому нужно относиться с долей скептицизма. Мы уже видели много "революционных" технологий, которые в итоге оказывались пшиком. Но если Google действительно удалось создать AI-модель, которая одновременно быстрая, дешевая и умная, то это может серьезно изменить правила игры на рынке. Посмотрим, как оно будет на самом деле.