Назад в ленту

Mistral OCR 4: Европейский AI-суверенитет для корпоративного распознавания документов — разбор главной новости июня 2026

Забудьте всё, что вы знали об OCR. Серьезно, просто выкиньте это из головы. Mistral AI, эти ребята из Европы, которые так хотят показать, что "сделано в ЕС" — это не только сыр и вино, но и крутой ИИ, только что выкатили свой OCR 4. И это не просто очередной шажок вперед, это прыжок через пропасть. Если раньше оптическое распознавание символов было похоже на попытку прочитать книгу, разбросав страницы по комнате, то теперь Mistral предлагает вам готовую, структурированную карту всего здания.

Mistral AI во вторник представила OCR 4 — модель для анализа документов, которая выходит за рамки простого извлечения текста, предоставляя структурированное представление целых документов. Это включает в себя информацию о границах блоков, классификацию типов блоков и оценки уверенности для каждого слова. Этот релиз знаменует собой четвертое поколение технологии оптического распознавания символов от Mistral всего за 15 месяцев. И всё это происходит в тот момент, когда стремление компании к европейскому суверенитету в области ИИ становится как никогда коммерчески актуальным.



Модель поддерживает 170 языков, сгруппированных по 10 языковым группам, принимает файлы в форматах PDF, DOC, PPT и OpenDocument. Что особенно круто, её можно развернуть в виде одного контейнера на собственной инфраструктуре организации. Mistral позиционирует эту возможность как решение для компаний из регулируемых отраслей, которые не могут направлять конфиденциальные документы через облачные API, подпадающие под юрисдикцию США.



"Mistral OCR 4 извлекает и структурирует контент из широкого спектра документов", — говорится в заявлении компании. "Если предыдущие версии фокусировались на преобразовании страницы в чистый текст и таблицы, то OCR 4 возвращает структурированное представление документа".



Модель уже доступна через API Mistral, Document AI в Mistral Studio, Amazon SageMaker и Microsoft Foundry. Поддержка Snowflake Parse Document ожидается в скором времени. Стоимость начинается от 4 долларов за 1000 страниц, а при использовании пакетного API цена снижается до 2 долларов за 1000 страниц.



OCR 4 рассматривает каждый документ как семантическую карту, а не стену текста.



Ключевое инженерное изменение в OCR 4 — это структурный подход. Вместо того чтобы выдавать плоский поток извлеченного текста, как это было в OCR десятилетиями, модель возвращает многоуровневое представление. В нем каждый блок имеет локализацию с помощью ограничивающей рамки (bounding box), классифицируется по типу (заголовок, таблица, формула, подпись и т. д.) и оценивается по степени уверенности как на уровне страницы, так и на уровне слова.



Mistral утверждает, что ограничивающие рамки были самой востребованной функцией. Причина проста: без данных о местоположении последующие системы не могут отследить извлеченный факт до его источника на конкретной странице. Этот пробел в отслеживаемости был постоянным камнем преткновения для предприятий, создающих конвейеры генерации, дополненной поиском (RAG), рабочие процессы соответствия требованиям или любые приложения, где вопрос "откуда взялась эта цифра?" требует проверяемого ответа.



Классификация блоков решает схожую проблему. Параграф, помеченный как "заголовок", может сегментировать документ на иерархические части для семантического поиска. Блок, помеченный как "таблица", может быть направлен в конвейер структурированных данных, а не в суммаризатор текста. Блок, помеченный как "подпись", может инициировать рабочий процесс маскирования в системе соответствия требованиям.



Сами по себе эти идеи не новы. Однако их упаковка в виде первоклассных выходных данных самой OCR-модели, вместо необходимости отдельного этапа анализа макета, устраняет интеграционный слой, который командам предприятий исторически приходилось создавать и поддерживать самостоятельно.



Оценки уверенности служат двойной цели. В масштабе они позволяют организациям программно направлять области с низкой степенью уверенности на проверку человеком и автоматически утверждать извлечения с высокой степенью уверенности. Это позволяет создать то, что индустрия называет проверкой с участием человека (human-in-the-loop), без необходимости проверки каждой страницы каждого документа. В производственных системах OCR редко является конечной целью — это первый шаг в более крупном конвейере.



Разработчики, создающие системы RAG, агентские рабочие процессы или автоматизацию документов, часто тратят больше времени на реконструкцию макета и структуры, чем на последующую логику ИИ. OCR 4 призван устранить этот этап реконструкции. И если он выполнит свое обещание, ценность будет заключаться не только в экономии затрат на OCR, но и в сокращении инженерных часов по всему конвейеру документов.



Независимые рецензенты предпочли вывод Mistral в 72% случаев, но тесты показывают сложную картину.



Mistral сообщает, что OCR 4 достиг среднего показателя побед в 72% в прямом человеческом сравнении с ведущими конкурентами. Оценку проводили независимые аннотаторы на более чем 600 реальных документах более чем на 12 языках. Модель также показала наивысший общий балл на OlmOCRBench (85,20) и 93,07 на OmniDocBench.



Однако сама компания призывает к осторожности при интерпретации этих цифр. В своем релизе Mistral предприняла необычный шаг, проведя аудит и публично раскрыв конкретные типы погрешностей при оценке, с которыми она столкнулась. Сюда входят ошибки в эталонных аннотациях, эквивалентные обозначения LaTeX, оцененные как несоответствия, предположения о порядке чтения столбцов и проблемы с атрибуцией заголовков/нижних колонтитулов. "Поэтому мы рассматриваем совокупную оценку как ориентировочную, а не окончательную", — заявила компания, что является заметно прозрачной позицией от поставщика, анонсирующего продукт.



Эта прозрачность весьма своевременна. В публичной таблице лидеров OlmOCRBench некоторые исследователи отмечают, что OCR 4 в настоящее время занимает третье место, уступая таким открытым моделям, как Chandra OCR 2. А некоторые модели с открытым весом сообщают о более высоких составных оценках OmniDocBench — PaddleOCR-VL-1.6 заявляет о 96,33, хотя эти результаты еще не были независимо воспроизведены в публичной таблице лидеров.



Тем не менее, первые отзывы от предприятий были благоприятными. Эйдан Донуэ, инженер по ИИ в финансовой компании Rogo, заявил, что компания сравнила OCR 4 с ведущими парсерами документов на основе агентов на наборе данных финансовых вопросов и ответов с плотной таблицей и "достигла эквивалентной точности при примерно в 8 раз меньшей стоимости и в 17 раз меньшей задержке". Иван Михайлов, инженер по ИИ в фирме по управлению интеллектуальной собственностью Anaqua, отметил, что OCR 4 "примерно в 4 раза быстрее на страницу, чем наш текущий поставщик".



Однако покупателям из корпоративного сектора следует проводить собственные оценки, а не полагаться на любые бенчмарки поставщиков. Практический вопрос не в том, какая модель показывает наивысший результат в таблице лидеров, а в том, какая модель допускает наименьшее количество ошибок на ваших конкретных документах, на ваших конкретных языках, по цене и с задержкой, которые соответствуют вашему рабочему процессу.



Запрет на экспорт от Anthropic дал предложению Mistral о суверенитете необходимое доказательство.



Релиз Mistral приходится на геополитический контекст, который едва ли мог быть более благоприятным для ее стратегического позиционирования. 12 июня Anthropic была вынуждена отключить весь доступ к своим новейшим моделям ИИ, Fable 5 и Mythos 5, после того как Министерство торговли США использовало экспортный контроль национальной безопасности, чтобы запретить компании распространять эти модели среди любых иностранных граждан. Корпоративные клиенты в сфере финансов, здравоохранения, SaaS и критической инфраструктуры обнаружили, что их основные разведывательные службы были внезапно отключены, без предварительного уведомления или эффективного средства правовой защиты. По состоянию на 24 июня обе модели остаются офлайн, а прогностические рынки дают лишь 57% шансов на их восстановление до 1 июля.



Этот эпизод подтвердил предупреждение, которое генеральный директор Mistral Артур Менш озвучивал более года. Как сообщал Business Insider, Менш предупреждал на London Tech Week в июне 2025 года о том, что американские компании, занимающиеся ИИ, "держат ключи" к своим моделям, называя это сценарием, когда европейские компании "предоставляют рычаги влияния своим поставщикам". Он добавил: "В какой-то момент вам нужно будет иметь возможность включить или выключить это, и вы не хотите оставлять это другой стране".



Аргумент приобрел дополнительную срочность, поскольку более широкая инициатива Менша по обеспечению суверенитета в последние месяцы набирала обороты. Как сообщало CNBC в конце мая, Менш заявил изданию: "Европа отстает в [области] развития инфраструктуры, и поэтому мы инвестируем, чтобы сократить этот разрыв".



В то же время Менш выступил против призыва Папы Льва XIV "разоружить" ИИ, утверждая, что Европа не может позволить себе отстать от американских технологических гигантов. "Мы все за мир, но если вы посмотрите на наших соперников и противников в мире, они используют искусственный интеллект... нам нужно иметь собственные возможности", — сказал Менш журналистам.



Модель развертывания OCR 4 в виде одного контейнера с возможностью самостоятельного размещения является продуктовым выражением этого аргумента. Американский поставщик, предлагающий европейское резидентство данных, означает, что документы хранятся во Франкфурте, но регулируются американским законодательством. Mistral, зарегистрированная во Франции и действующая под юрисдикцией ЕС, предлагая контейнерное развертывание на месте, означает, что документы никогда не покидают инфраструктуру клиента. Положения о штрафах Акта ЕС об ИИ вступают в силу 2 августа, что усиливает регуляторное давление на расчеты соответствия для европейских предприятий, оценивающих поставщиков ИИ для документов.



Бесплатная модель OCR с открытым весом от Baidu появилась днем ранее — и контраст показателен.



Релиз Mistral произошел не изолированно. Всего за день до запуска OCR 4, 22 июня, Baidu выпустила Unlimited-OCR — модель с 3 миллиардами параметров под лицензией MIT, которая решает одну из самых насущных проблем в области ИИ для документов: парсинг целых PDF-файлов и многостраничных сканов за один проход, без разбивки входных данных или последующей сборки выходных данных.



Модель Baidu использует технику под названием Reference Sliding Window Attention (R-SWA), которая, как объяснил один из ведущих комментаторов Hacker News, разделяет фокус ИИ на два пути: поддержание полного внимания на исходном изображении документа при ограничении памяти сгенерированного текста узким, движущимся окном. Результатом является постоянный размер KV-кэша и возможность транскрибировать более 40 страниц за один проход. Модель собрала 1800 звезд на GitHub в первые 24 часа и получила более 479 голосов "за" на Hacker News, где ветка обсуждения насчитывала 109 комментариев.



Эти два релиза формируют то, что некоторые аналитики называют расколом в области ИИ для документов в июне 2026 года: самостоятельное долгосрочное парсирование с открытыми весами против структурированного управляемого извлечения с корпоративными функциями.

Модель Baidu бесплатна по лицензии MIT, работает на стандартном оборудовании GPU и не имеет управляемого API или корпоративного SLA. Модель Mistral — это коммерческий продукт с ценообразованием за страницу, ограничивающими рамками, оценками уверенности, классификацией блоков, многоплатформенным распространением и вариантами самостоятельного развертывания для корпоративных клиентов.



Unlimited-OCR может быть лучшим инструментом для исследовательской группы, занимающейся оцифровкой отсканированных диссертаций на одном GPU. OCR 4 создана для процесса корпоративных закупок — мира SLA, соглашений об обработке данных и аудитов соответствия.



Помимо Baidu, более широкое поле конкуренции в области OCR включает Google Document AI, Amazon Textract, Azure Document Intelligence, ABBYY Vantage и растущее число моделей с открытым весом.



В ветке Hacker News, посвященной Unlimited-OCR, практики дали откровенную оценку текущему состоянию дел. Joss82, который занимается парсингом документов уже 10 лет, прямо написал: "OCR все еще отстой в 2026 году". Тем временем пользователь под ником SyneRyder сообщил об успехе с Claude для OCR сотен страниц рукописных документов, отметив, что модель выдала результаты "без необходимости исправлений" и даже указала на ошибку в последовательности исходного текста. Эти отчеты практиков подчеркивают ключевое напряжение на рынке: производительность сильно варьируется в зависимости от конкретного типа документа, языка и качества исходного материала.



Настоящая игра — это не OCR, а корпоративный ИИ-стек с интеллектуальной обработкой документов в качестве точки входа.



Если отступить немного назад, то релиз Mistral OCR 4 — это не совсем история про OCR. Это история выхода на корпоративный рынок, построенная на основе мирового рынка интеллектуальной обработки документов стоимостью 4,4 миллиарда долларов, который, по прогнозам Grand View Research, будет расти со среднегодовым темпом роста 33,1% до 2030 года.



Для Mistral OCR — это способ получить доступ к корпоративным бюджетам на ИИ. Модель напрямую интегрируется с Mistral's Search Toolkit, фреймворком поиска с открытым исходным кодом, представленным на AI Now Summit. В этой архитектуре OCR 4 служит уровнем приема данных для конвейеров генерации, дополненной поиском, и корпоративного поиска, преобразуя необработанные документы в структурированные, классифицированные входные данные, готовые к цитированию. Логика ясна: как только предприятие начнет использовать OCR 4 для извлечения документов, более широкий набор моделей Mistral — включая Medium 3.5 для рассуждений и платформу агентов Vibe для выполнения задач — станет естественным следующим шагом в стеке.



Эти амбиции по созданию комплексного конвейера являются критически важным контекстом для понимания текущей траектории привлечения средств Mistral. Bloomberg недавно сообщил, что компания ведет предварительные переговоры о привлечении около 3 миллиардов евро (3,5 миллиарда долларов) при оценке примерно в 20 миллиардов евро — почти вдвое больше, чем оценка в 11,7 миллиарда евро после раунда Series C в сентябре. На сегодняшний день Mistral привлекла только около 4 миллиардов долларов, что составляет лишь малую часть от того, что привлекли ее крупнейшие американские конкуренты. OCR 4 и связанный с ним конвейер корпоративных доходов являются частью того, как компания планирует обосновать более высокую оценку. Mistral нацелена на выручку в 1 миллиард евро к 2026 году, по сравнению с 200 миллионами евро в 2025 году, по данным Le Monde.



Mistral — это компания с примерно 1000 сотрудников и амбициями конкурировать с лабораториями, которые привлекли в 40 раз больше капитала. Она не может выиграть в гонке за универсальные модели против OpenAI и Anthropic. Что она может сделать, так это создать дифференцированный корпоративный стек вокруг суверенитета, структурированного анализа документов и агентских рабочих процессов — и использовать этот стек для захвата европейских корпоративных бюджетов, которые все больше опасаются зависимости от американских поставщиков.



Структура ценообразования подкрепляет эту стратегию: при цене 2 доллара за 1000 страниц в пакетном режиме стоимость обработки корпоративного архива объемом 100 000 страниц снижается до 200 долларов, что делает крупномасштабные проекты по оцифровке экономически жизнеспособными способами, которые могли быть недоступны при ценообразовании на основе токенов для моделей "видение-язык".



Сможет ли Mistral реализовать это видение в масштабе — против Google, Amazon, Microsoft и стремительно развивающейся экосистемы открытого исходного кода — остается открытым вопросом. Но кризис экспортного контроля Anthropic все еще не разрешен, европейские нормы суверенитета данных ужесточаются, а на горизонте маячит потенциальный раунд финансирования на 20 миллиардов евро. Компания проводит вебинар по производству OCR 4 7 июля в 18:00 по центральноевропейскому времени.



Две недели назад аргументы в пользу создания инфраструктуры ИИ вне досягаемости американского экспортного контроля были теоретическими. Затем правительство США щелкнуло выключателем, и самые передовые модели Anthropic отключились для всех неамериканцев на планете. Mistral не вызвала этот кризис — но она провела последний год, создавая продукт, который делает его значимым.