Назад в ленту

Pinterest урезал расходы на AI на 90%, выпотрошив "фронтирную" модель: что случилось с AI images 4k?

Pinterest, платформа, известная своими бесконечными досками вдохновения и визуальных открытий, совершила неожиданный, но гениальный ход в области искусственного интеллекта. По данным VentureBeat, компания умудрилась сократить расходы на AI на целых 90%, при этом еще и повысив точность работы алгоритмов на 30%. Как им это удалось? Они просто выпотрошили "фронтирную" модель Qwen3-VL и пересобрали ее заново.

Проблема "фронтирных" моделей

Для тех, кто не в теме, "фронтирные" модели – это самые передовые и мощные AI-решения, которые, как правило, требуют огромных вычислительных ресурсов и, соответственно, стоят целое состояние. Для Pinterest с их 620 миллионами активных пользователей в месяц, использование такой модели для каждой рекомендации изображения превратилось бы просто в неподъемный счет.

Решение от Мэтта Мадригала

CTO Pinterest Мэтт Мадригал нашел элегантное решение: он просто "вырезал" слой визуализации у Qwen3-VL и перестроил его с использованием собственных проприетарных эмбеддингов. Эмбеддинги, если объяснять простым языком, это способ представления данных в виде чисел, которые позволяют компьютеру понимать связи между разными объектами.

Ставка на собственные данные

"Если у вас есть действительно уникальные данные, с помощью которых вы можете донастроить open-source модель, то качество данных, честно говоря, перевесит или превзойдет размер модели", – объяснил Мадригал в недавнем подкасте VB Beyond the Pilot.

Как Pinterest кастомизировал Qwen для визуального поиска

Pinterest уже давно использует open-source модели для визуального поиска и рекомендаций, начиная с BERT от Google и CLIP от OpenAI. Компания доработала свою собственную версию Pin CLIP на основе последнего, добавив туда собственные визуальные эмбеддинги и метаданные изображений.

Navigator 1: разговорный шопинг-ассистент

"Разговорный" помощник для покупок Pinterest, Navigator 1, был построен на Qwen3-VL и кастомизирован "довольно существенно". Команда Мадригала, по сути, "вырезала" слой визуального кодировщика Qwen и доработала модель на собственных мультимодальных эмбеддингах. Это позволило им захватывать метаданные вокруг пинов и изображений, которые затем можно предварительно вычислять в автономном режиме и регулярно переобучать на новой информации для предоставления персонализированного опыта.

"Open-source модели, особенно с открытыми лицензиями Apache, где вы действительно можете настраивать множество открытых весов и кастомизировать их для уникальных случаев использования – вот где мы обнаружили, что open source настолько мощным для нас", – сказал Мадригал.

Преимущества собственных эмбеддингов

Использование собственных эмбеддингов позволяет команде Pinterest получать контекст вокруг метаданных, пинов и изображений. Кроме того, модель работает лучше во время выполнения и логического вывода. Без этих эмбеддингов разработчикам пришлось бы вызывать и кодировать каждое возвращаемое изображение во время выполнения, по одному за раз. Это приводит к задержке, которая "в 20 раз хуже" с точки зрения логического вывода, сказал Мадригал.

"Если это что-то, что будет критически важным для наших конечных пользователей, что будет стимулировать вовлеченность, что должно масштабироваться до более чем 600 миллионов активных пользователей в месяц, мы, вероятно, либо построим это, либо будем использовать open source и настроим его до чертиков", – сказал он.

Граф вкусов: динамическое представление интересов пользователей

Чтобы направлять пользователей от вдохновения к покупке, команда Мадригала построила "граф вкусов": динамическое представление того, что на самом деле нравится отдельным пользователям, а не просто то, на что они нажимают.

"Это представление эволюционирующих вкусов миллиардов людей", – сказал он.

Люди идут в Google или другие поисковые системы, когда у них есть четкое представление о том, что они хотят; Pinterest предназначен для тех случаев, когда они все еще находятся на этапе открытия, сказал Мадригал. Цель Pinterest – поощрять "латеральное исследование" и трансформировать открытие в намерение (то есть, переход по рекламным объявлениям или совершение покупок).

Под капотом архитектура сочетает в себе структуру графа с репрезентативным обучением. Пользовательские эмбеддинги фиксируют развивающиеся вкусы пользователя. Они постоянно обновляются на основе активности и нового контента и сигналов. "Это не социальный граф", – сказал Мадригал. "Это больше граф предпочтений: что вас вдохновит? Что вы пытаетесь сделать дальше?"

Например, одному пользователю может нравиться дизайн середины века; другой может предпочитать эстетику Нантакет. Эти предпочтения будут зафиксированы в пользовательских эмбеддингах, и граф вкусов предоставит конкретные, релевантные продукты в результате.

"Вы переходите от верхней части воронки, вдохновения, открытия, ко всей нижней части воронки намерения", – сказал Мадригал.