3 марта

Выявление поддельных документов и изображений с помощью ИИ: набор признаков и обучение на собственных кейсах

Изображение: recraft

Проверка подлинности документов и изображений давно перестала быть узкоспециализированной задачей судебных экспертов. Для банков, государственных порталов, кадровых служб, подразделений комплаенса и антифрод это ежедневная операционная рутина. Через дистанционные каналы поступают тысячи сканов паспортов, удостоверений личности, договоров, доверенностей, справок, платёжных документов и биометрических фотографий. Любой из них может стать точкой входа для мошенничества, подмены личности или легализации незаконных операций.

Одновременно с ростом объёмов проверяемых данных усложнились инструменты злоумышленников. Если раньше основным средством фальсификации были графические редакторы и примитивный монтаж, то сегодня чаще применяются генеративные нейросети и GAN-архитектуры, способные синтезировать фотореалистичные документы, подписи и лица. Визуальное различие между подделкой и оригиналом становится всё менее надёжным даже для опытного эксперта. Это и делает методы машинного обучения ключевым элементом современных систем верификации.

Цифровые следы подделки

С практической точки зрения любая фальсификация оставляет следы. Они обусловлены как самим процессом генерации изображения, так и этапами его редактирования, сохранения и передачи. Эти следы формируют совокупность признаков, на которых обучаются алгоритмы детекции.

Для текстовых документов характерны микроскопические несогласованности в гарнитурах и кернинге, нарушения регулярности межстрочных интервалов, отклонения базовой линии, различия в алгоритмах сглаживания символов. Часто выявляются локальные искажения, возникающие при копировании и вставке отдельных фрагментов, а также артефакты повторного JPEG- или PDF-сжатия, которые проявляются в виде характерных блоковых структур и спектральных «швов».

Печати и штампы анализируются по геометрии контуров и текстуре. Для подделок типичны неестественная гладкость или, наоборот, повторяющиеся шумовые паттерны, следы интерполяции при масштабировании, а также несогласованность спектральных характеристик красочного слоя с фоном бумаги. Подписи рассматриваются не только как статическое изображение, но и как результат моторного акта: анализируется непрерывность линий, вариативность толщины штриха, статистика кривизны и распределение давления. Это позволяет отличать реальную рукописную подпись от синтетически сгенерированной или аккуратно смонтированной.

Фотографии и биометрия

В случае фотографий и сканов важнейшую роль играет анализ шумовой модели и сенсорных паттернов. Каждая камера имеет уникальные характеристики матрицы, формирующие квазистационарный шумовой «отпечаток». Если внутри одного изображения обнаруживаются области с различными шумовыми свойствами, это может указывать на компоновку из нескольких источников или на генеративное происхождение отдельных фрагментов.

Спектральные методы — преобразование Фурье и вейвлет-декомпозиция — позволяют выявлять аномалии в высокочастотных компонентах, характерные для вставленных или синтезированных областей. Для дипфейк-изображений и синтетических лиц анализируются микротекстуры кожи, стабильность бликов, геометрия отражений в глазах, согласованность освещения и теней.

При работе с видеопотоками дополнительно учитывается временная когерентность: естественные микродвижения, моргание, изменение мимики и шумовые корреляции между кадрами.

Значение обучения на собственных данных

Особую роль в прикладных системах играет обучение моделей на собственных кейсах. Универсальные датасеты дают базовую устойчивость, но не отражают специфику реальных бизнес-процессов: локальные форматы документов, типовые бланки, особенности печатей, языковые шаблоны, региональные стандарты оформления. Злоумышленники, в свою очередь, адаптируются именно к этим особенностям, подделывая те формы, которые чаще всего проходят автоматическую проверку.

Поэтому наибольшую практическую ценность имеют модели, дообученные на инцидентах, выявленных внутри конкретной организации: изменённые паспорта и удостоверения, поддельные справки о доходах, договоры с подменой реквизитов, сфальсифицированные платёжные поручения, изображения лиц, используемые для обхода биометрической аутентификации. Такой подход позволяет учитывать реальные векторы атак, снижать долю ложных срабатываний и повышать устойчивость системы к целенаправленным попыткам обхода.

Архитектура системы детекции

С инженерной точки зрения процесс построения решения включает несколько уровней. На этапе предобработки выполняется нормализация разрешения и цветовых пространств, выравнивание ориентации, подавление фоновых искажений. Документ сегментируется на семантические зоны: текстовые блоки, поля форм, печати, подписи, фотографии, фон.

Далее извлекаются низкоуровневые признаки, описывающие статистику яркости, текстуры, шума и геометрии. На следующем уровне используются сверточные архитектуры, обучающиеся выявлять сложные пространственные и частотные паттерны фальсификаций. Существенную роль играют кросс-модальные модели, сопоставляющие визуальное содержимое с результатами OCR и структурой шаблона. Это позволяет обнаруживать семантические несоответствия: невозможные комбинации серий и номеров, ошибки контрольных сумм, нарушения форматов дат, логически несовместимые персональные данные и реквизиты.

Ансамбли и объяснимость

Для повышения устойчивости широко применяются ансамбли, объединяющие несколько независимых детекторов: анализ артефактов сжатия, шумовых паттернов, геометрических искажений, признаков генеративного синтеза и семантических аномалий. Их выводы агрегируются в едином вероятностном пространстве, формируя интегральную оценку подлинности.

В прикладной ИБ и юридически значимых процессах принципиально важна объяснимость. Недостаточно получить числовую вероятность подделки — необходимо понимать, какие области изображения и какие характеристики стали основанием для вывода. Для этого используются карты внимания, визуализация градиентов и локальные интерпретаторы, позволяющие эксперту увидеть, какие зоны документа выглядят аномальными и по каким причинам.

Противодействие генеративным моделям

Отдельным направлением является детекция синтетических изображений, создаваемых современными генеративными сетями. Здесь применяются специализированные классификаторы, обученные распознавать статистические следы конкретных семейств генераторов, анализ латентных корреляций и проверка согласованности глобальных и локальных распределений признаков. Однако эволюция генеративных технологий происходит крайне быстро, поэтому критически важны непрерывное дообучение на новых примерах и регулярное обновление признакового пространства.

Интеграция в контур антифрод

С процессной точки зрения системы ИИ-детекции не должны работать изолированно. Их результаты необходимо коррелировать с поведенческими характеристиками пользователя, параметрами устройства, сетевыми и геолокационными признаками, историей операций и общим профилем риска. Такой подход позволяет переходить от оценки отдельного изображения или документа к анализу целостного сценария злоупотребления и выстраивать адаптивные меры противодействия.

Выявление поддельных документов и изображений с помощью искусственного интеллекта представляет собой непрерывный цикл: сбор и разметка собственных кейсов, обучение и валидация моделей, анализ ошибок, обновление архитектур и признаков, сопоставление с эволюцией методов противника.

Опора на реальные инциденты конкретной организации, дополненная современными методами машинного обучения и обеспеченная механизмами объяснимости, позволяет создать практически значимую и устойчивую систему. Такая система способна эффективно противостоять как традиционным графическим подделкам, так и высокореалистичным дипфейк-технологиям, обеспечивая доверие к цифровой идентификации в условиях быстро меняющегося ландшафта угроз.

Автор: Долгов Николай, эксперт по кибербезопасности Angara Security.

Автор: Angara Security

Angara Security — ведущий российский ИБ-интегратор и сервис-провайдер в области информационной безопасности. Компания специализируется на защите данных и непрерывности функционирования бизнес-систем, предотвращает и расследует кибератаки. Angara Security — это не просто поставщик услуг, а стратегический партнер с проверенной экспертизой, реальными результатами и собственными технологиями в области информационной безопасности.

Комментарии: