Flint Games выпускает ИИ Flint: Как австралийский стартап заставил ChatGPT и Claude краснеть от скуки

Давай сыграем в игру. Открой своего любимого чат-бота — ChatGPT, Claude, Gemini — и напечатай: «Назови случайное число от 1 до 10». С вероятностью 99% получишь 7. Теперь попроси ещё одно — будет 3 или 4. Ещё раз — 8 или 9. Магия? Ясновидение? Нет, просто нейросети застряли в колее. Они куда предсказуемее и менее креативны, чем ты думаешь.

Для кодинга или исследований это окей. Но когда ты брейнштормишь или планируешь отпуск, коллективное единомыслие — проблема. Австралийский стартап Springboards придумал решение. Они построили LLM под названием Flint, которую натренировали выдавать гораздо более разнообразные ответы на открытые вопросы вроде «Куда мне поехать в Европе?».

«Большинство языковых моделей борются с галлюцинациями, — говорит сооснователь и CEO Springboards Пит Бинджеманн. — А мы их приветствуем».

Бинджеманн показал мне игру со случайными числами, когда впервые представил новую модель компании. Это было похоже на фокусника с колодой карт. «Наш рекламный трюк срабатывает каждый раз», — усмехается он. После того, как ChatGPT и Claude оба выдали свои семёрки, Бинджеманн переключился на Flint. Тот тоже начал с 7: «Ага, конечно, это ожидаемо, но 7 — легитимный ответ». Он перезапустил сессию и снова попросил число: ChatGPT выдал 7, Claude — 7, Flint — 3,7916.

Беги своим путём

Это касается не только чисел. Когда Бинджеманн попросил ChatGPT и Claude назвать марку машины, он предсказал, что будет Toyota или Honda — и оказался прав. Flint выдал Ford F-150. «В моделях теряется куча информации, — говорит он. — Они вполне способны сказать Buick или Tesla. Просто не говорят — у них есть предвзятость».

Бинджеманн отправил ещё один запрос всем трём моделям: «Придумай слоган для кампании кроссовок New Balance. Только слоган». Claude: «Run your way». ChatGPT: «Run your way». Flint: «Built to last, run to win». До наград этому далеко, но хотя бы отличается.

Эта странная ограниченность LLM начинает привлекать внимание. В ноябре команда исследователей опубликовала статью «Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)», где вскрыла поразительную повторяемость не только в ответах отдельных моделей, но и между ними. Разные LLM сходились на очень похожих ответах при открытых вопросах.

Почему так происходит — до конца неясно, но исследователи предполагают, что большинство современных LLM обучаются схожими методами на схожих данных для схожих задач. Статья получила награду за лучшую работу на NeurIPS.

Когда учёные попросили 25 разных LLM (от топовых американских фирм и открытых китайских моделей) по 50 раз написать метафору про время, большинство из 1250 ответов были вариациями «Время — река» или «Время — ткачиха». (Я спросил тех же коллег — шесть человек дали шесть разных ответов. Мой фаворит: «Время — любимая толстовка, принявшая форму всей носки».)

«Если присмотреться, повторяемость видна везде, — говорит Киран Браун, сооснователь и CTO Springboards. — Большинство интерфейсов чатов устроены так, будто ты ведёшь личный разговор. Но вряд ли люди осознают, насколько они получают то же самое, что и все остальные».

Ещё пример: «Как назвать мою группу?» Большинство моделей предложат что-то со словами «glass», «neon», «velvet» или «static», утверждает Браун. Когда я попробовал, ChatGPT выплюнул список из 56 названий. Наверху было «Glass Harbor». Пролистав, я нашел «Static Empire», «Neon Hearts» и «Velvet Echo». Gemini дал 15 вариантов, включая «Static Horizon». Некоторые выглядели круто — «Sofa Astronauts» привлекло моё внимание, я загуглил и обнаружил, что группа с таким названием уже существует.

(OpenAI поясняет, что обучение моделей выдавать надёжные и связные ответы может приводить к схождению на знакомых высоковероятных вариантах, а попытки форсировать новизну — к слабым и ненадёжным ответам. Также они отмечают, что статья «Artificial Hivemind» изучала модели 2024 года, которые с тех пор обновились.)

Творческая катапульта

Springboards разработала инструмент на базе набора LLM, включая ChatGPT и Claude, который креативщики из рекламы или маркетинга могут использовать для брейншторминга. Инструмент позволяет перетаскивать текст от разных моделей, собирая понравившиеся куски в нечто новое — в теории. Flint позиционируется как альтернативная модель, которую пользователи могут выбрать, когда нужно больше разнообразия.

Зои Скаман, основатель бизнес-стратегического стартапа Bodacious и главный стратег 77X (платформа прямого маркетинга для фанатов, созданная Лукой Дончичем из LA Lakers), уже тестирует Flint. «Он реально полезен, когда нужно отправить меня в совершенно другом направлении, — говорит она. — Я использую его, если хочу катапультироваться во все стороны».

В одном тесте Скаман столкнула Flint с Claude, Gemini и ChatGPT, дав каждой модели классический MBA-кейс: «Как переизобрести финансовую компанию для современной молодёжи?». Три мейнстримные модели пошли одним путём: «Знаете, нужно учить финансовой грамотности весело и необычно — ну, это не ново». А Flint предложил перебрендировать саму концепцию накопления богатства. «Это было очень интересно», — отмечает Скаман. Правда, она добавляет, что Flint пока прототип и работает не всегда — «иногда он падает, если слишком сильно его толкать. Но задумка очень мощная».

Регулировка температуры

Springboards построила Flint на базе Qwen 3 — открытой модели от китайского гиганта Alibaba. «Мы небольшая команда, — говорит Браун. — Обучать фундаментальную модель не в наших силах — слишком дорого».

У большинства LLM есть настройки, позволяющие менять уровень случайности в ответах. Самая популярная — температура. «Мы, конечно, первым делом это исследовали — ведь все твердят: хочешь креативности — подними температуру», — рассказывает Браун. Но изменение этих параметров может сделать модели бессвязными. На максимальной температуре одна из моделей OpenAI переключалась с английского на программный код прямо в середине предложения.

В Springboards поняли, что параметры — слишком грубый инструмент. Нет смысла поднимать случайность везде — нужно усиливать её только в определённых точках вывода. Например, когда спрашиваешь «Куда поехать в Европе?», модели достаточно подкрутить случайность прямо перед тем, как назвать направление, а не на каждом слове ответа.

Для этого Springboards дообучил свой Qwen 3 находить в выводе места, где возможно больше разнообразия, и заполнять эти точки словами или фразами с чуть большей случайностью. «Flint запрограммирован выбрасывать странные варианты. Это скорее приглашение мыслить шире, — говорит Максимилиан Вайгль, сооснователь и главный стратег маркетинговой фирмы Uncommon. — Это суперинтересно».

Команда Вайгля использует Flint наравне с ChatGPT, Claude и Gemini. «Нельзя создать что-то прорывное с инструментами, которые тянут тебя к среднему, — говорит он. — Но девять из десяти раз средний результат нормальный. Не всегда нужно лезть за крайности с Flint — большинству хватает „достаточно хорошо“. Они хотят массово-рыночные, знакомые вещи».

Вайгль также предостерегает от чрезмерного использования любых LLM. «Меня серьёзно беспокоит, когда люди полагаются на вывод любого ИИ, включая Flint. Если я увижу, что кто-то из команды копипастит результат ИИ — это не твоя работа! Думай, общайся с другими людьми, используй свой голос».

Пока Flint нацелен на рекламщиков и маркетологов — это клиенты Springboards. Но Бинджеманн и Браун настаивают: нехватка разнообразия — проблема для всех пользователей чат-ботов. Идея в том, чтобы дать людям выбор и оставить за ними решение — хорош результат или нет. «Разнообразие здорово, когда пытаешься породить идеи, — говорит Бинджеманн. — Давайте пойдём этим путём, вместо того чтобы позволить машинам всё решить и получить серый, скучный мир».