Anthropic выпустила Claude Sonnet 5 — дешёвую зверюгу для кода и денег

Вышла Claude Sonnet 5 — модель, которая ломает рынок ИИ и готовит Anthropic к IPO

Если в мире ИИ и есть поговорка «хочешь качественно — плати», то Anthropic только что её сломал. Сегодня вышла модель Claude Sonnet 5, которая обещает флагманские способности по цене середнячка. И это не просто апдейт — это выстрел в сторону IPO, которое покажет, стоят ли частные оценки ИИ-гигантов хоть чего-то под прицелом биржи.

Anthropic сегодня выпустила Claude Sonnet 5 — новую ИИ-модель, которая, по заявлению компании, выдает производительность почти флагманского уровня по цене среднего сегмента. Это прямой ход, чтобы дать экономным корпоративным разработчикам доступ к мощным агентным возможностям как раз в тот момент, когда сан-францисская лаборатория ИИ несется к первичному размещению акций, которое проверит, выдержат ли ошеломляющие оценки частного рынка ИИ проверку публичностью.

Релиз, который Anthropic называет «самой агентной моделью Sonnet на сегодняшний день», делает Sonnet 5 моделью по умолчанию для пользователей бесплатных тарифов и Pro, а также доступной клиентам Max, Team и Enterprise. Вводные цены API — $2 за миллион входных токенов и $10 за миллион выходных до 31 августа, после чего они вырастут до $3 и $15 соответственно — все равно значительно ниже $5 за вход и $25 за выход у топовой Opus 4.8.

Логика стратегии очевидна: Anthropic пытается демократизировать доступ к возможностям, которые еще недавно были только у самых дорогих моделей, заодно формируя широкую базу разработчиков. Это будет красиво смотреться в документах для SEC.

Бенчмарки Sonnet 5: среднеценовая модель дышит в спину флагманскому Opus

Sonnet 5 показывает серьезный скачок по сравнению с предшественником Sonnet 4.6 во всех опубликованных Anthropic тестах. На SWE-bench Pro — бенчмарке агентного кодинга — Sonnet 5 набирает 63,2% против 58,1% у Sonnet 4.6. Это уже почти вплотную к Opus 4.8 с его 69,2%. На Terminal-Bench 2.1 — еще одном тесте кода — разрыв сокращается еще сильнее: 80,4% у Sonnet 5 против 67,0% у Sonnet 4.6 и 82,7% у Opus 4.8.

В многодисциплинарном рассуждении (Humanity's Last Exam) Sonnet 5 получает 43,2% без инструментов и 57,4% с инструментами — последний показатель практически сравнялся с Opus 4.8 (57,9%). В задачах по управлению компьютером (OSWorld-Verified) Sonnet 5 достигает 81,2%, поднявшись с 78,5%. А на GDPval-AA v2 — бенчмарке интеллектуального труда — модель набирает 1 618 баллов, обгоняя Opus 4.8 (1 615) и оставляя далеко позади Sonnet 4.6 (1 395).

Картина ясна: Sonnet 5 не просто делает шажок вперед. Она врывается в производительность, которая вплотную пересекается с флагманом Anthropic, при этом стоит примерно на 60% дешевле за токен по стандартным ценам — и еще дешевле в период вводных тарифов.

Корпоративные партнеры: агентные возможности Sonnet 5 доводят задачи до конца, а не бросают на полпути

Акцент на агентные способности — умение планировать, использовать браузеры и терминалы, выполнять многошаговые задачи автономно — отражает то, куда сместился центр тяжести ИИ-индустрии в 2026 году. Компании больше не задают чат-ботам вопросы. Они развертывают ИИ-системы, которые могут навигировать по сложным софтверным средам, выполнять многоэтапные задачи по кодингу и работать с минимальным контролем человека.

Партнеры, получившие ранний доступ, рисуют картину модели, которая не просто начинает задачи, а доводит их до конца. Суалех Асиф, сооснователь Cursor — ИИ-редактора кода, ставшего барометром внедрения инструментов для разработчиков, — сказал: «С Claude Sonnet 5 агенты придерживаются плана, следуют нашим соглашениям и выдают чистые многоэтапные изменения — и все это по эффективной цене». Дэниел Шепард, старший инженер в Zapier, описал, как передал модели двухэтапную задачу по автоматизации — обновление уровней аккаунтов в Salesforce и отправку анонса запуска, — которая «раньше застревала на полпути» у предыдущих моделей, а теперь выполняется от начала до конца.

Эти отзывы важны, потому что описывают именно тот разрыв в надежности, который мешает многим предприятиям перевести агентный ИИ из пилотов в продакшн. Модель, которая пробивает 80% сложной задачи, а потом встает колом, создает больше проблем, чем решает. Та, что стабильно завершает полный рабочий процесс, меняет экономику автоматизации.

Anthropic также представила кривые «стоимость-производительность»: разработчики теперь могут настраивать уровень усилий между Sonnet 5 и Opus 4.8, чтобы найти оптимальный баланс цены и точности под конкретную задачу. Такая детализация говорит о растущей зрелости корпоративного потребления ИИ.

Обновленный токенизатор: бонус к производительности, но возможен скрытый рост счетов для некоторых нагрузок

Одна техническая деталь, зарытая в сносках анонса, заслуживает внимания: Sonnet 5 использует обновленный токенизатор, который меняет способ обработки текста моделью — аналогично тому, что Anthropic внедрила с Opus 4.7.

Оборотная сторона: один и тот же входной текст может отображаться на примерно 1,0–1,35 раза больше токенов в зависимости от типа контента. Anthropic утверждает, что вводные цены откалиброваны так, чтобы переход был «примерно нейтральным по стоимости», но корпоративные клиенты с высоконагруженными задачами должны сами тщательно протестировать свои сценарии, прежде чем предполагать, что счета не изменятся.

Безопасность: Sonnet 5 безопаснее предшественника, но топ-модели все еще лидируют по выравниванию

Раскрытия Anthropic по безопасности рисуют сложную картину. Компания сообщает, что Sonnet 5 показывает более низкие показатели галлюцинаций и подхалимажа, чем Sonnet 4.6, лучше отказывает в выполнении вредоносных запросов и более устойчива к инъекциям промптов в агентных контекстах. На автоматизированном аудите поведения Anthropic — который проверяет широкий спектр невыровненных действий, включая сотрудничество с неправильным использованием и обман, — Sonnet 5 набрала меньше баллов (то есть безопаснее) в целом, чем Sonnet 4.6.

Однако Sonnet 5 показала «несколько более высокие показатели невыровненного поведения» по сравнению с более мощной Opus 4.8 и Claude Mythos Preview — мощной, но жестко ограниченной моделью, ориентированной на кибербезопасность. На тесте разработки эксплойта для Firefox 147, созданном совместно с Mozilla, ни одна из моделей Sonnet не смогла разработать рабочий эксплойт — обе получили 0,0%, хотя Sonnet 5 показала немного более высокий процент частичных успехов (13,2%) по сравнению с Sonnet 4.6 (8,8%). Обе остаются далеко позади Opus 4.8 (68,8% рабочих эксплойтов) и Mythos 5 (88,4%).

Из-за этих постепенных улучшений в смежных с кибербезопасностью способностях Anthropic запустила Sonnet 5 с защитными механизмами, включенными по умолчанию — системами реального времени, которые обнаруживают и блокируют опасное использование. Эти защиты зеркалируют те, что стоят на Opus 4.7 и 4.8, но менее строги, чем на Fable 5 — последней модели класса Mythos, которая, как Bloomberg сообщил 10 июня, «заблокирована для ответов на запросы, связанные с кибербезопасностью и биологией». Организации, участвующие в программе киберверификации Anthropic, автоматически получают такой же доступ на Sonnet 5 без необходимости подавать заявку повторно.

От $14 млрд до $47 млрд выручки: Sonnet 5 выходит, когда нарратив IPO Anthropic обретает форму

Запуск Sonnet 5 приходится на, возможно, самый судьбоносный момент в короткой истории Anthropic. Компания конфиденциально подала проспект IPO в SEC в начале июня, готовя то, что CNBC назвало «самым пристальным публичным размещением в истории технологий».

Финансовая траектория впечатляет. В феврале Anthropic привлекла $30 млрд при оценке в $380 млрд, а компания отчитывалась о $14 млрд годовой выручки, которая «выросла более чем в десять раз за последние три года», как сообщал The Guardian. К концу мая Anthropic закрыла раунд H на $65 млрд при пост-денежной оценке $965 млрд — со-руководили Altimeter Capital и Sequoia Capital — с годовым темпом выручки, превысившим $47 млрд. Харрисон Ролфс, аналитик PitchBook, сказал CNBC, что цифра, которая «подтвердит или разрушит весь нарратив, который частные рынки устанавливали три года», — это не оценка и не выручка, а валовая маржа, которую никто из внешних наблюдателей пока не видел.

В этом контексте Sonnet 5 служит двойной цели. Для разработчиков — это реальное улучшение возможностей по конкурентным ценам. Для нарратива IPO Anthropic — демонстрация того, что компания может выпустить привлекательный продукт в ценовом сегменте, способном обеспечить широкое внедрение, которое Уолл-стрит вознаграждает: высокообъемный, повторяющийся API-доход от тысяч корпоративных клиентов.

Правительственные контракты и растущая конкуренция определяют рынок, на который выходит Sonnet 5

Время также совпадает с агрессивным выходом Anthropic на институциональные контракты. Только вчера губернатор Калифорнии Гэвин Ньюсом объявил о первом в своем роде партнерстве, предоставляющем Claude всем государственным агентствам со скидкой 50% и бесплатным обучением персонала. Кейт Дженсен, глава Anthropic по Америке, назвала это попыткой «заставить Claude работать на людей, которые поддерживают этот штат». Сделка — распространяющаяся на города и округа Калифорнии — представляет собой именно ту устойчивую, повторяющуюся выручку, которая может стать опорой доходов далеко за пределами сообщества разработчиков.

Но релиз Anthropic выходит на все более переполненное поле. OpenAI, привлекшая $122 млрд в марте при оценке $852 млрд, тоже готовит IPO. SpaceX Илона Маска, слившаяся с xAI, оценила свое IPO в $135 за акцию при оценке $1,77 трлн. Google, Meta и растущая волна хорошо финансируемых конкурентов — включая азиатские ИИ-стартапы, которые, как сообщал Wall Street Journal, разрабатывают возможности кибербезопасности уровня Mythos — все борются за тот же корпоративный рынок.

Гил Лурия, глава технологических исследований в D.A. Davidson, сказал CNBC, что, хотя Anthropic «похоже, лидирует» во фронтирных ИИ-моделях, «значительная часть их нынешнего использования приходится на эксперименты, и это может быть недолговечным». Это замечание бьет в самое сердце проблемы, стоящей перед каждой лабораторией фронтирного ИИ: конвертировать экспериментальное использование разработчиками в устойчивую, продакшн-готовую выручку.

Настоящий тест для Sonnet 5 — не бенчмарки. Он в том, сможет ли более дешевый ИИ поддерживать триллионную историю

Позиционирование Sonnet 5