Как ИИ-агент Harness-1 обошел GPT-5.4: Секрет в "внешнем блокноте"!

Привет, технари и повелители байтов! С вами на связи ваш любимый гик-аналитик с портала TechLoot, и сегодня мы погрузимся в такую бездну инноваций, что даже самые прожженные айтишники почувствуют легкое головокружение. Представьте: вы на вечеринке, и тут внезапно кто-то начинает рассказывать о том, как ИИ забывает, что он искал пять минут назад. Звучит знакомо, правда? Мы все прошли через это, наблюдая, как мощные ИИ-модели спотыкаются на ровном месте, когда дело доходит до действительно сложных поисковых задач. Эти «поисковые амнезии» и «петли забвения» стали притчей во языцех, заставляя инженеров изобретать костыли, которые больше напоминали бинты для мумии, чем элегантное решение.

Но что, если я скажу вам, что есть команда настоящих волшебников из Университета Иллинойса в Урбана-Шампейн (UIUC), Калифорнийского университета в Беркли и открытой векторной базы данных Chroma, которые не просто нашли панацею, а фактически переписали правила игры? Приготовьтесь, друзья, потому что они представили Harness-1 – поискового агента с 20 миллиардами параметров, построенного на базе модели OpenAI gpt-oss-20B, который кардинально меняет подход ИИ к выполнению сложных задач по извлечению информации.

Harness-1 совершает гигантский скачок в производительности, показывая 73% точность в правильном извлечении релевантной информации из специально подобранного набора данных. Он умудрился обойти даже GPT-5.4 (70,9%) и ближайшего открытого конкурента, Tongyi DeepResearch 30B, на целых 11,4 процентных пункта! (Да, GPT-5.5 уже больше месяца как на рынке, но исследователи не тестировали его, так как он не был доступен во время создания Harness-1). И самое главное для разработчиков: модель и её окружение доступны немедленно под очень либеральной лицензией Apache 2.0, а код и веса модели — на Hugging Face.

Harness-1 также служит доказательством эффективности еще одной разработки — Tinker, распределенного веб-ориентированного API для обучения и тонкой настройки моделей ИИ, разработанного Thinking Machines. Tinker использовался специально для обучения и выполнения инференса Harness-1, наглядно демонстрируя, как интерактивная инфраструктура активно способствует развитию следующего поколения автономных моделей. Так как же исследователи это сделали?

Разбираем бенчмарки (и почему Harness-1 может принести огромную пользу предприятиям)

Чтобы по-настоящему проверить эти модели, исследователи оценили Harness-1 и его конкурентов на восьми очень сложных поисковых бенчмарках. Вместо простых викторин эти тесты требовали от ИИ действовать как настоящий исследователь, просеивающий разнообразные, плотные источники данных. Бенчмарки охватывали несколько различных областей, включая открытый веб-поиск, сложные финансовые отчеты SEC, технические патентные базы данных USPTO и задачи по ответам на "многошаговые" вопросы, где ИИ должен был логически собирать разрозненные подсказки из нескольких разных документов, чтобы прийти к правильному ответу.

Когда результаты были получены, Harness-1 доминировал над конкурентами с открытым исходным кодом в своей способности успешно находить и отбирать нужные факты. Что еще более впечатляюще, эта относительно небольшая модель с 20 миллиардами параметров сразилась на равных с массивными, дорогими проприетарными системами ИИ. Она фактически превзошла таких тяжеловесов, как GPT-5.4, Sonnet-4.6 и Kimi-K2.5 — которые, как считается, имеют сотни миллиардов или даже триллионы параметров. Только одна гигантская пограничная модель — Opus-4.6 — смогла незначительно превзойти её по общей средней производительности.

Harness-1 достигает своих преимуществ в производительности, выгружая исчерпывающее "ведение учета" поисковой сессии из рабочей памяти модели в структурированную программную среду. По мере того как корпоративные сценарии использования становятся все более сложными, требуя от моделей автономного просеивания тысяч корпоративных документов или финансовых отчетов, эти системы часто поддаются "поисковой амнезии" — забывая свои первоначальные запросы, зацикливаясь на отклоненных документах или теряя из виду конкретные утверждения, которые они пытаются проверить.

До сих пор преобладающим решением этой амнезии была грубая сила. Инженеры обычно заставляли модели постоянно перечитывать постоянно расширяющуюся, только добавляющуюся стенограмму своих собственных действий, складывая каждый поиск, чтение и мысль обратно в массивное окно контекста. Harness-1 вводит парадигматический сдвиг от этого метода, доказывая, что узким местом для истинной искусственной автономии является не обязательно размер модели, а то, насколько эффективно её рабочая среда управляет состоянием. Это еще раз подчеркивает, как это также сделал Claude Code от Anthropic, что сама "сырая" модель, возможно, менее важна, чем "упряжь" — или набор условий, в которых она работает.

Технология: "Бумажная работа" в окружающей среде

Чтобы понять технический прорыв Harness-1, рассмотрим реальную аналогию. Представьте, что вы нанимаете гениального научного сотрудника и помещаете его в пустую комнату без стола, блокнотов или картотечных шкафов. Вы просите его написать исчерпывающий отчет по очень сложной теме, для чего ему нужно прочитать десятки книг, при этом идеально запомнив каждую цитату, ссылку и тупиковый поиск в своей голове. В конце концов, каким бы умным ни был ассистент, его когнитивная нагрузка достигнет максимума, и он начнет терять факты или нить задания.

Именно так работают традиционные поисковые агенты сегодня. Они обучены как политики над растущими стенограммами, что означает, что модель ищет, читает, снова ищет и добавляет всё в свое собственное окно контекста. Как отметил ведущий исследователь Патрик (Пэнчэн) Цзян из Университета Иллинойса в X: "В какой-то момент модель уже не просто «ищет». Её также просят быть системой памяти, заметчиком, верификатором и библиотекарем".

Harness-1 решает эту проблему, давая ИИ стол и картотечный шкаф — то, что исследовательская группа называет "упряжью с внешней фиксацией состояния".

Эта "упряжь" представляет собой активную, окружающую среду, которая берет на себя рутинное ведение учета, поддерживая восстанавливаемую рабочую память, которая включает в себя пул кандидатов документов, набор отобранных доказательств с тегами важности, компактные ссылки на доказательства и записи проверки. Разделяя семантический выбор от управления структурным состоянием, ИИ освобождается для того, чтобы делать то, что у него получается лучше всего. Политика по-прежнему решает, что искать, определяет, какие документы сохранить, и знает, когда остановиться, в то время как среда просто удерживает состояние.

Вот подраздел, описывающий методологию обучения и её отличия от предыдущих моделей агентивного поиска:

Обучение Harness-1: Мастер-класс по эффективности данных

Конвейер обучения Harness-1 представляет собой фундаментальный сдвиг в том, как индустрия ИИ подходит к агентивному обучению. Исторически разработчики рассматривали поисковых агентов как политики, работающие с массивными, постоянно растущими стенограммами, заставляя алгоритмы обучения с подкреплением (RL) одновременно оптимизировать как семантическое рассуждение, так и непосредственное запоминание состояния поиска. Создатели Harness-1 применили радикально иной подход: поскольку их специальная "упряжь" обрабатывает всю рутинную "бумажную работу" — такую как поддержание связей с доказательствами, пулов кандидатов и записей проверки — процесс обучения должен был только научить модель работать с этим структурированным интерфейсом. Такое разделение труда значительно упростило то, чему на самом деле нужно было научиться базовой модели с 20 миллиардами параметров.

Процесс начался с удивительно узкого этапа Supervised Fine-Tuning (SFT). Вместо того чтобы собирать петабайты новых поведенческих данных, команда сгенерировала всего 899 отфильтрованных траекторий, используя обучающего агента GPT-5.4, который был подключен к той же самой среде "упряжи", которую в конечном итоге будет использовать модель-ученик. Целью этого этапа SFT было не внедрение огромного количества предметных знаний в модель, а просто обучение её механическим ритмам хорошего исследователя: как форматировать вызовы инструментов, как помечать документы по важности и дисциплине проверки утверждения, прежде чем продвигать его в окончательный отобранный набор.

После SFT модель прошла обучение с подкреплением (RL) с использованием алгоритма CISPO, примененного к полным эпизодам поиска, ограниченным 40 ходами. Команда разработала очень специфическую функцию терминальной награды, которая явно разделяла обнаружение и выбор. Модель вознаграждалась не только за нахождение релевантного документа, но и за успешное продвижение его в окончательный набор ответов, при этом наказывалась, если она находила ответ, но не смогла его отобрать. Исследователи также ввели бонус за "разнообразие инструментов"; без этого конкретного стимула они обнаружили, что политика быстро скатится к ленивой, ориентированной на поиск стратегии, при которой она спамила запросы, но обходила более сложную работу по чтению и проверке текста.

Что делает Harness-1 по-настоящему инновационным по сравнению с предыдущими работами, так это его беспрецедентная эффективность данных. Вся модель была обучена на примерно 4 400 уникальных элементах — 899 траекториях SFT и 3 453 запросах RL. В отличие от этого, конкурирующие модели с открытым исходным кодом требовали значительно больших наборов данных для достижения худших результатов: Context-1 использовал более 17 200 обучающих элементов, в то время как Search-R1 полагался на ошеломляющие 221 300 элементов для изучения поискового поведения. Доказав, что более умная внешняя когнитивная архитектура может заменить масштабирование данных грубой силой, Harness-1 предполагает, что будущее агентивного ИИ заключается в создании лучших сред для работы моделей, а не просто в обучении более крупных моделей на большем количестве данных.

Продукт: Применимость и обобщение для предприятий

С точки зрения продукта, Harness-1 поставляется как высокопроизводительный агент с 20 миллиардами параметров, интегрированный в базовую архитектуру openai/gpt-oss-20b. Для корпоративных технологических стеков применимость огромна, поскольку предприятиям нужен ИИ для выполнения многоступенчатых исследований в проприетарных базах данных без галлюцинаций или непомерных затрат на вычисления. Harness-1 обеспечивает свою производительность на уровне передовых моделей при том, что создатели описывают как "стоимость и задержку на уровне Context-1". Поскольку окно контекста строго управляется "упряжью", учитывающей бюджет, а не постоянно расширяется, предприятия могут развертывать этого агента автономно, не неся экспоненциальных затрат на токены, обычно связанных с долгосрочными задачами ИИ.

Что еще более впечатляюще, Harness-1 доказывает, что он может хорошо обобщать данные, выходящие за рамки его обучающих данных. По словам исследовательской группы, его обучение было невероятно дешевым, используя всего 899 отфильтрованных траекторий контролируемой тонкой настройки (SFT) и всего 3453 запроса обучения с подкреплением (RL). "Вместо того чтобы обучать модель выживать в гигантской стенограмме, которая только добавляется, мы обучаем её использовать структурированный поисковый интерфейс: искать, отбирать, пересматривать, проверять и отправлять", — объяснил Цзян. Эта бережливость доказывает критически важный момент для индустрии ИИ: разработчикам не обязательно нужны петабайты новых поведенческих данных, если они создают лучшую когнитивную основу для работы модели.

Лицензирование: Сила Apache 2.0

Одним из самых значительных аспектов выпуска Harness-1 является его лицензирование. Проще говоря, Apache 2.0 — это очень разрешительная, дружественная к предприятиям лицензия на программное обеспечение, которая принципиально обеспечивает коммерциализацию.

В отличие от лицензий "копилефт" (таких как GPL), которые могут заставить компании открывать исходный код своего собственного проприетарного программного обеспечения, если они интегрируют код, или лицензий "только для исследований", которые полностью запрещают коммерческое использование, Apache 2.0 дает предприятиям зеленый свет на свободное создание, модификацию и монетизацию технологии. Для разработчиков и стартапов это означает, что Harness-1 может быть легко интегрирован в коммерческие продукты для корпоративного поиска, внутренние инструменты для извлечения данных или ИИ-приложения, ориентированные на клиентов, без страха судебного преследования. Единственное существенное требование состоит в том, что пользователи должны включить оригинальное уведомление об авторских правах и явно указать любые значительные изменения, которые они вносят в исходный код, что позиционирует Harness-1 как очень жизнеспособный фундаментальный строительный блок для предприятий.

Реакция сообщества: Оглушительное подтверждение

Анонс явно затронул нерв в сообществе разработчиков, подтверждая очень реальные проблемы, с которыми сталкиваются инженеры при создании агентивных систем. Многочастная ветка анонсов Цзяна в X быстро набрала огромную популярность, собрав более 256,1 тыс. просмотров, 3,7 тыс. лайков, 2,9 тыс. закладок и почти 300 репостов всего за несколько дней.

Такая высокая вовлеченность подчеркивает растущий консенсус в области ИИ о том, что использование грубой силы для окон контекста — проигрышная битва. Когда Цзян опубликовал в X: "Я задавался вопросом: возможно, поисковые агенты плохо справляются с поиском отчасти потому, что мы заставляем их делать всю бумажную работу в уме", реакция была немедленной. Для разработчиков, которые последний год боролись с ИИ-агентами, уверенно забывающими свои основные инструкции на полпути к поиску в базе данных, подход Harness-1 кажется крайне необходимым изменением курса.

В конечном итоге, настроения сообщества подчеркивают изменение приоритетов в отрасли. Разработчики перестают задаваться вопросом, насколько большим может быть окно контекста ИИ-модели, и вместо этого спрашивают, насколько эффективно среда ИИ-модели может управлять этим контекстом для неё. Выгружая "бумажную работу", Harness-1 доказывает, что меньшие, более умные системы могут превзойти гигантов — при условии, что у них есть подходящий "стол" для работы.

Справка по теме (FAQ)

Что такое Harness-1?

Harness-1 — это открытый ИИ-агент с 20 миллиардами параметров, разработанный исследователями из Университета Иллинойса в Урбана-Шампейн (UIUC), Калифорнийского университета в Беркли и компании Chroma. Он предназначен для более эффективного выполнения сложных задач по поиску и извлечению информации.

Чем Harness-1 лучше GPT-5.4?

Harness-1 демонстрирует более высокую точность вRecall relevant information (восстановлении релевантной информации) — 73% против 70.9% у GPT-5.4 на специально подобранном наборе данных. Это достигается за счет новой архитектуры, которая выносит управление состоянием поиска во внешнюю среду.

Какая лицензия у Harness-1?

Модель и ее окружение доступны под лицензией Apache 2.0. Это очень разрешительная лицензия, которая позволяет использовать, модифицировать и распространять ПО, в том числе в коммерческих целях, с минимальными ограничениями.

Как Harness-1 достигает такой производительности?

Основная инновация Harness-1 заключается в том, что он переносит "бухгалтерскую" работу по отслеживанию поисковой сессии из внутренней памяти модели во внешнюю, структурированную программную среду. Это предотвращает "амнезию поиска", когда ИИ забывает исходный запрос или теряет нить расследования.

Насколько дорого обучать Harness-1?

Обучение Harness-1 отличается высокой эффективностью по данным. Модель была обучена на относительно небольшом количестве данных: 899 траекторий для контролируемого дообучения (SFT) и 3453 запроса для обучения с подкреплением (RL). Это значительно меньше, чем у конкурирующих открытых моделей.

Где можно скачать Harness-1?

Модель и ее код доступны на Hugging Face.

В чем основное преимущество Harness-1 для бизнеса?

Для компаний Harness-1 представляет огромный интерес, так как он может выполнять многоэтапные исследования в корпоративных базах данных без галлюцинаций и при этом с сопоставимыми с традиционными моделями затратами на вычисления и низкой задержкой. Возможность использования под лицензией Apache 2.0 также делает его привлекательным для интеграции в коммерческие продукты.