На выставке Computex 2026 компания Perplexity AI, стремительно набирающая обороты в мире поиска с ИИ и уже оцениваемая в внушительные $20 миллиардов, представила свою новую разработку — систему гибридного локально-облачного инференса. По данным СМИ, это первый в своем роде оркестратор, способный в режиме реального времени и в процессе выполнения задачи автономно определять, какие ИИ-нагрузки будут обрабатываться на устройстве пользователя, а какие — направляться к передовым моделям в облаке.
Генеральный директор Perplexity, Аравинд Шринивас, продемонстрировал возможности системы на сцене во время выступления Intel, используя агента Perplexity "Personal Computer". В ходе демонстрации локальные модели, работающие на процессорах Intel Core Ultra Series 3, определяли, какая информация должна остаться на устройстве, а какая может быть отправлена в облачные модели. Шринивас подчеркнул, что такой подход обеспечивает баланс между уровнем интеллекта, точностью, конфиденциальностью и затратами.
Ключевое отличие новой системы заключается не в возможности локального запуска моделей, что уже освоено многими инструментами. Главная инновация Perplexity — это способность системы самостоятельно принимать решение о маршрутизации, задача за задачей, без необходимости предварительного выбора со стороны пользователя. Это означает, что конфиденциальные данные, такие как финансовые записи или медицинская информация, будут оставаться на локальной машине, в то время как более сложные задачи, требующие мощностей моделей масштаба "frontier", будут направляться в облако. Один запрос, множество мест выполнения, автоматическая оркестровка.
"Ни один продукт до этого не делал ничего подобного", — заявил представитель Perplexity в комментарии VentureBeat. Продукт еще не доступен для широкой публики, но, по заверениям компании, функция гибридного инференса будет запущена в ближайшие недели.
Путь Perplexity: от облачных агентов к локальной оркестровке ИИ
Чтобы понять значимость демонстрации на Computex, стоит взглянуть на развитие продукта Perplexity с начала этого года.
25 февраля Perplexity представила Computer — мультимодельный ИИ-агент, который оркестрирует 19 различных ИИ-моделей для выполнения сложных, долгосрочных задач от имени пользователей. Система работала полностью в облаке, разбивая цели на подзадачи и направляя каждую к наиболее подходящей модели — будь то Claude, Gemini, GPT, Grok или другая. Perplexity Computer объединила все существующие возможности ИИ в единую систему, функционируя как универсальный цифровой помощник, использующий те же интерфейсы, что и пользователь.
В марте Perplexity анонсировала Personal Computer на своей первой конференции для разработчиков Ask 2026. Этот продукт был запущен как новое приложение для Mac с поддержкой гибридного локально-облачного ИИ-агента, который Perplexity описала как "персональный оркестратор", гибридизирующий локальную и серверную среды для повышения безопасности и продуктивности. Personal Computer мог получать доступ к файловой системе Mac и нативным приложениям для создания и выполнения полных рабочих процессов, с файлами, создаваемыми в безопасной песочнице, и всеми действиями, которые можно отслеживать и отменять.
Демонстрация Шриниваса на Computex представляет собой фундаментальное расширение этой архитектуры. Ранее, даже в продукте Personal Computer, разделение труда было относительно четким: доступ к локальным файлам на устройстве, а тяжелые вычисления — на серверах Perplexity.
Новая система гибридного инференса дает самой системе возможность самостоятельно принимать решения о том, где будет выполняться каждый фрагмент задачи — не просто какая модель будет использоваться, но и какое физическое место будет его обрабатывать. Система якобы запрашивает разрешение пользователя перед отправкой конфиденциальных задач в облако, что является дизайнерским решением, направленным на решение одной из ключевых проблем, беспокоящих корпорации при использовании агентурного ИИ: управление данными.
Почему Nvidia RTX Spark и новые чипы Intel делают этот момент стратегическим
Время демонстрации не случайно. Computex 2026 был полностью посвящен теме ИИ на устройствах. Всего за несколько часов до выступления Intel генеральный директор Nvidia, Дженсен Хуанг, представил RTX Spark — новый суперчип на базе Arm, который компания позиционирует как основу для нового поколения ИИ-ориентированных ПК под управлением Windows.
В полной конфигурации RTX Spark Superchip предлагает до 20 ядер CPU на архитектуре Arm, GPU Blackwell с 6144 ядрами CUDA, 128 ГБ оперативной памяти LPDDR5X и пропускную способность памяти до 300 ГБ/с — достаточную мощность и объем памяти для ИИ-агентов и моделей с 120 миллиардами параметров и длиной контекста до миллиона токенов. Системы с RTX Spark начнут появляться осенью.
Intel, не желая отставать, использовала свое выступление для демонстрации процессоров Xeon 6+ с 288 энергоэффективными ядрами, построенных по технологии 18A для центров обработки данных, и представила свои процессоры Core Ultra Series 3 как клиентские чипы, делающие гибридный инференс возможным на ПК.Гибридный оркестратор Perplexity находится на пересечении этих двух стратегий. Если система будет работать так, как заявлено, она создаст прямые экономические стимулы для пользователей — а в перспективе и для предприятий — инвестировать в более мощные локальные чипы. Чем более способен чип на устройстве, тем больше инференса может выполняться локально, снижая облачные расходы и уменьшая задержку для чувствительных рабочих нагрузок. Такая динамика выгодна Nvidia, Intel и всем другим производителям чипов, конкурирующим за места в ИИ-ПК.
Последствия выходят далеко за рамки экономики чипов. "По мере того как чипы становятся мощнее, больше интеллекта перемещается на машину пользователя, наряду с серверным инференсом для сложных задач, которые по-прежнему требуют моделей масштаба "frontier"", — сообщил представитель Perplexity VentureBeat. "Конфиденциальная и суверенная работа может оставаться локальной, что меняет потребность в масштабной инфраструктуре национального уровня".
Последнее утверждение — о суверенной инфраструктуре — является наиболее провокационным. Страны от ОАЭ до Франции и Индии инвестируют миллиарды в национальные вычислительные мощности для ИИ, частично исходя из предположения, что конфиденциальные данные должны оставаться в пределах их границ, что означает создание или покупку доступа к местным центрам обработки данных. Если значительная часть инференса может выполняться на устройстве конечного пользователя без утечки данных, расчеты меняются. Это не устраняет потребность в центрах обработки данных, но может снизить срочность их развертывания.
Модельно-независимая архитектура, делающая гибридный инференс возможным
Стратегия гибридного инференса Perplexity основана на той же архитектурной ставке, которую компания делает весь год: слой оркестровки важнее любой отдельной модели. Для инженеров ИИ это сигнализирует о фундаментальном сдвиге — слой оркестровки может стать важнее самих моделей.
Ключевая идея — разделение ответственности: слой оркестровки отвечает за декомпозицию задач, управление состоянием и координацию инструментов, в то время как слой моделей отвечает за специфические вычисления. Такое разделение позволяет командам заменять модели по мере появления более совершенных альтернатив без необходимости перепроектирования всей системы.
Perplexity последовательно придерживается этой философии.