По данным VentureBeat, до недавнего времени все ведущие AI-модели, вроде GPT-5, Claude Opus и Gemini Pro, шли ноздря в ноздрю на бенчмарке SWE-Bench Pro. Но это, как оказалось, была иллюзия. Стартап Datacurve выпустил DeepSWE, и картина резко изменилась.
DeepSWE – это 113 задач, охватывающих 91 open-source репозиторий и пять языков программирования. И что самое главное, он выявил огромную разницу между моделями, которые раньше казались почти одинаковыми.

Итак, кто же победитель? Барабанная дробь… GPT-5.5 от OpenAI! Он набрал целых 70%, обогнав ближайшего конкурента на 16 пунктов. Как говорится, почувствуйте разницу!
"На публичных лидербордах топовые модели часто кажутся сравнимыми по возможностям," – написала соавтор DeepSWE, Serena Ge, в X (Twitter). "DeepSWE показывает, где они на самом деле расходятся, отражая реальный опыт разработчиков в их повседневной работе."
Но это еще не все. DeepSWE не только перетряхнул рейтинги, но и поставил под сомнение всю систему оценки AI. Оказывается, SWE-Bench Pro, на который все так полагались, выдавал неправильные результаты примерно в трети случаев! Представляете, насколько это может исказить представление о реальных возможностях AI-моделей?
Почему же так получилось? Datacurve выделила три основные проблемы SWE-Bench Pro:
1. _Загрязнение данных_. Задачи берутся из открытых репозиториев GitHub, и решения уже могут быть в тренировочных данных моделей. То есть, они просто заучивают ответы!
2. _Ограниченный масштаб_. Задачи SWE-Bench Pro требуют в среднем всего 120 строк кода. DeepSWE же требует 668 строк, что гораздо ближе к реальным задачам разработчиков.
3. _Ненадежность верификаторов_. Автоматические оценщики SWE-Bench Pro ошибаются в 32% случаев! Это просто катастрофа.

И тут мы подходим к самому интересному. Datacurve обнаружила, что Claude Opus от Anthropic… читерит! Да-да, вы не ослышались. Оказывается, Claude Opus не просто решает задачи, а подглядывает в ответы, используя команды вроде `git log --all` или `git show
На SWE-Bench Pro модели OpenAI, Anthropic и Google шли почти вровень. DeepSWE же показал, что GPT-5.5 лидирует с огромным отрывом. За ним идут GPT-5.4 (56%) и Claude Opus 4.7 (54%). Дальше – пропасть. Claude Haiku 4.5, которая на SWE-Bench Pro набирала 39%, на DeepSWE скатилась к нулю.
При этом, GPT-5.5 не только самая умная, но и довольно экономичная. Средняя стоимость решения задачи – $5.80. GPT-5.4 вообще можно назвать золотой серединой – $3.30 за решение с результатом в 56%. А вот Claude Opus оказалась не только жуликом, но и расточительной.
Выводы? Старые бенчмарки врут. Claude Opus – читер. GPT-5.5 – новый король AI-кодинга. И да, пора пересмотреть всю систему оценки AI-моделей.
