Раньше технический долг – это устаревшая архитектура, грязный код и заброшенная документация. Но в эпоху AI все стало гораздо сложнее и опаснее. Теперь у нас есть новые слои долгов, которые прячутся в промптах, моделях и зависимостях от данных. И самое паршивое – их сложнее увидеть, измерить и контролировать.

Если кто не в курсе, то AI-системы – штука сложная и капризная. В 2025 году MIT выяснил, что 95% проектов на ИИ не доходят до продакшена или не приносят никакой пользы. А S&P Global Market Intelligence сообщает, что 42% компаний в 2025 году забросили несколько AI-инициатив. И это резкий скачок по сравнению с 17% годом ранее. Причины разные, но все сводится к одному: плохо спроектированные и реализованные системы, которыми сложно управлять и которые имеют кучу точек отказа.
В отличие от традиционного технического долга, который локализован в коде, AI-долг распределен по промптам, моделям, конвейерам данных и всей связанной инфраструктуре. И он проявляется не постоянно. Из-за вероятностной природы AI системы не всегда реагируют одинаково, что приводит к периодическим сбоям. Это затрудняет выявление рисков во время тестирования и требует непрерывного мониторинга даже после развертывания.
Так в чем же проявляется этот AI-долг?
* Долг промптов. Это самый видимый тип долга. По сути, это современная версия спагетти-кода. Недокументированные правки промптов, накопившиеся "быстрые фиксы", отсутствие контроля версий и "набивка промптов" (когда в промпт пихают кучу лишних данных) – все это делает промпты нетипизированным, непроверенным кодом без контроля версий. Итог – хрупкость и уязвимость.
* Модельный долг. Многие компании зависят от внешних моделей, разработанных лидерами рынка. Приложения строятся на основе API-вызовов к этим моделям. И получается, что логика приложения зависит от моделей, которые находятся вне вашей системы и которые вы не можете контролировать. Модели обновляются, производительность меняется, воспроизводимость теряется. Промпты, настроенные под одну модель, могут не работать на другой.
* Долг извлечения. Большинство AI-систем используют RAG (retrieval-augmented generation), который подтягивает контекст из корпоративных хранилищ данных. И если в этих хранилищах бардак – грязные данные, дубликаты, устаревшая информация – AI будет выдавать технически правильные ответы, которые уже не актуальны. И это сложнее обнаружить, чем галлюцинации, потому что ответы выглядят правдоподобно.

* Долг оценки. Отсутствие стандартизации в тестировании и мониторинге AI-моделей и приложений. Бенчмарки для AI есть, но они узкие и отражают результаты на определенный момент времени. У большинства компаний нет единых стандартов тестирования, проверенных наборов данных и мониторинга в реальном времени. Нет аналога CI/CD для промптов. И CIO и CTO не видят реальную производительность моделей и не могут отслеживать улучшения или ухудшения.
Все это усугубляется традиционным техническим долгом, который проявляется в инструментах и системах, с которыми взаимодействуют AI-приложения. И не забывайте про AI-сгенерированный код, который часто развертывается без должного тестирования.
В итоге все эти долги накапливаются и создают масштабные риски, которые могут привести к катастрофическим сбоям. И усложняет ситуацию распределенная ответственность – за системы отвечают инженеры, продакты, аналитики и бизнес-команды. И когда возникает ошибка, непонятно, кто виноват.
К чему это приводит? Рост затрат на вычисления, неточности в выдаче AI, увеличение количества исключений, которые приходится обрабатывать вручную. И проекты часто останавливаются из-за неясной окупаемости и отсутствия доверия со стороны пользователей.
Но что делать? "Лучшие" модели не решат проблему. Нужны изменения в дизайне системы, интеграции, контроле и организационной культуре.
* Во-первых, относитесь к промптам как к коду. Контроль версий, документация и тестирование – наше все. Используйте небольшие блоки промптов вместо огромных стен текста, уменьшите использование жестко закодированных параметров.
* Во-вторых, встройте оценку во всю AI-инфраструктуру. Создайте конвейеры непрерывной оценки, которые измеряют как технические, так и бизнес-метрики. Интегрируйте системы AI-наблюдаемости для мониторинга качества вывода, частоты сбоев, дрейфа моделей и данных.
* В-третьих, включите объяснимость по умолчанию во все результаты AI. Отслеживайте происхождение данных, используемые модели и шаги, чтобы можно было проверить результаты и исправить ошибки.
В общем, нужны программы по снижению AI-долга и соответствующие бюджеты. Иначе расплата будет болезненной.