Пока стартапы панически мечутся между провайдерами, пытаясь угадать, какой LLM-старожил не рухнет завтра, Shopify спокойно построила себе ширму. Буквально: единый прокси-слой, который делает вид, что моделей вообще не существует. Есть токены, есть эндпоинт — а под капотом может быть Claude, GPT, Gemini или даже кастомная кастрюля. Если одна модель умерла — не вопрос, вторая подхватит. Без простоев, без переписывания кода, без паники.
Дьявол в деталях LLM-прокси
Штука работает так: Shopify закупает токены у нескольких провайдеров оптом. Все инженеры подключаются к одному прокси — он сам решает, куда отправить запрос. Когда недавно Fable 5 от Anthropic приказал долго жить, никакого «алярма» не было. Прокси просто переключил трафик на Claude Opus или GPT 5.5. Пользователи заметили разве что легкое изменение стиля ответа — и то вряд ли.
«Когда модель приходит и уходит, или просто обновляется, прокси позволяет нам размазывать нагрузку по разным провайдерам», — объясняет Фархан Тавар, глава инженерного отдела Shopify. По его словам, это не просто удобство — это вопрос выживания. Если вы привязаны к одному API, то его смерть или резкое изменение цен может похоронить весь ваш AI-функционал.
Дистилляция: как получить Qwen из Opus и сэкономить 30x
Но прокси — это цветочки. Главный сок — внутренняя система дистилляции. Shopify поняла, что тащить гигантскую модель ради простого ответа на вопрос о статусе заказа — это как стрелять из пушки по воробьям. Поэтому они построили пайплайн, который берет большую модель-учителя (например, Opus 4.8), тренировочные данные и целевую модель (скажем, Qwen 3.5), а через сутки выдает результат: насколько быстрый, дешевый и точный получился узкоспециализированный малыш.
И вот тут самое забавное. Инженер не просит ни у кого разрешения запустить дистилляцию. Просто берет и делает. Если метрики устраивают — катит в прод. Результаты впечатляют: в некоторых случаях модель оказалась в 30 раз дешевле и быстрее оригинальной. При этом точность — не хуже, а для конкретной подзадачи даже лучше.
Тавар признается: «Это не только про стоимость и задержки. Это про точность». Их фирменный AI-ассистент Sidekick, который помогает продавцам автоматизировать рутину, полностью построен на таких дистиллированных моделях. Каждая подзадача — свой крошечный, но злой специалист.
River, Tangle и мечта об автономном выборе модели
Агент River — это «субстрат информации», который пронизывает всю компанию. Он собирает данные о том, кто какие модели использует, сколько тратит, какие промты отправляет. А платформа Tangle позволяет визуализировать весь пайплайн дистилляции в реальном времени. Запустил процесс — и видишь, как из большой модели вылупляется маленькая, прямо на дашборде.
Но самая безумная идея Тавара: сделать так, чтобы дистилляция сама выбирала целевую модель. «Я хочу дать пайплайну учителя, данные и эвалы — и сказать: "На основе того, что ты выучил за время, посмотри на разные классы моделей, размеры, типы и скажи мне, что будет лучшей целью для дистилляции". Может, это окажется настолько маленькая модель, что запустится на телефоне. А может, пайплайн ответит: "Нельзя это сжать до чего-то лучше, чем существующий frontier". И это тоже результат», — мечтает Тавар.
От рефлексии к рычагу: дашборды и «отключатели»
Shopify не просто построила инфраструктуру — они внедрили культуру осознанного использования AI. Каждый разработчик может использовать любой инструмент: Claude Code, Codex, Cursor, GitHub Copilot — все через общий харнас. Но система также отслеживает, кто тратит самые дорогие токены, кто залипает на длинных reasoning-сессиях, какие модели использует руководство.
Если какой-то пользователь запустил модель и забыл про неё на 10 часов — приходит пинг: «Ты уверен, что хотел потратить столько?» Ответы бывают разные. Иногда «да, я знаю, что делаю». Иногда «блин, она до сих пор молотит в фоне? Спасите, остановите». Именно так они переходят от «AI-рефлексии» (автоматических реакций на всё подряд) к «AI-рычагу» — осмысленному применению там, где это реально даёт буст.
Урок для всех: не стройте интеграцию с одной моделью — стройте прослойку. Не бойтесь дистиллировать. И не забывайте спрашивать у сотрудников: «А вы точно хотели это сделать?» Иначе бюджет на токены улетит в трубу быстрее, чем вы скажете «GPT-5 on prem».
Полный подкаст с Фарханом Таваром можно послушать на Spotify, Apple и других площадках — там ещё куча деталей про то, как агент River из календаря узнал о поездке своего создателя, и что это говорит о будущем AI-агентов. Но мы и так нахватали самое мясо.