В России соцсетям дадут право блокировать дипфейки ещё до проверки их достоверности

изображение: grok
Главный радиочастотный центр Роскомнадзора предложил соцсетям самостоятельно выявлять и приостанавливать распространение резонансных дипфейков ещё до окончательной проверки достоверности. Идея выглядит понятной с точки зрения скорости реакции, но создаёт сложную проблему для рынка. Технологий с безошибочным отделением ИИ-контента от реального видео, фото или аудио сейчас нет, а ошибочные блокировки приведут к спорам с пользователями, компаниями и брендами.
Дипфейки распространяются быстрее многих обычных инфоповодов. Ролик с поддельным заявлением известного человека, фейковым обращением руководителя компании или имитацией голоса чиновника за минуты собирает большой охват. Пока идёт проверка, материал успевает попасть в мессенджеры, соцсети, СМИ и закрытые чаты.
Интересно, что дипфейк может разойтись по сети за минуты, а проверка его подлинности у экспертов занимает часы или дни, и регулятор хочет переломить эту арифметику.
О предложении рассказал «Коммерсанту» заместитель начальника отдела специальных проектов и академических программ Научно-технического центра ФГУП ГРЧЦ Станислав Махортов на IV Форуме «Технологии доверенного искусственного интеллекта». Эксперт предложил законодательную инициативу для контроля и блокировки соцсетями быстро набирающих популярность материалов.
Среди других предложений Станислава Махортова прозвучали несколько направлений работы:
- создание базы технологических угроз для просвещения;
- развитие решений для обмена данными между ведомствами и бизнесом;
- маркировка сгенерированного контента до распространения;
- обучение пользователей распознаванию дипфейков;
- координация платформ через единые стандарты.
В Роскомнадзоре пояснили «Коммерсанту» построение регулирования дипфейков на понятных, открытых и реализуемых возможностях быстрого выявления и прекращения распространения. По позиции ведомства, соцсети должны иметь право временно приостанавливать распространение контента до проверки достоверности у доверенного источника.
Дипфейк представляет собой технологию синтеза медиа на базе машинного обучения и искусственного интеллекта. Она позволяет подменять лицо, голос, мимику, отдельные фрагменты изображения или аудиодорожки.
Для соцсетей проблема не только в качестве дипфейков, но и в масштабе. Каждую минуту пользователи публикуют огромное количество контента разных форматов:
- изображения и фотографии;
- короткие видео и трансляции;
- мемы и нарезки роликов;
- сторис и временный контент;
- аудиофрагменты и голосовые сообщения.
В 2023 году Роскомнадзор запустил IT-систему поиска запрещённого контента «Окулус». Она распознаёт изображения, символы, противоправные сцены и действия. Также действует система «Вепрь» для выявления угроз в информационной сфере.
Перенос подобной логики на дипфейки выглядит сложнее. С запрещённым символом или текстовым паттерном можно работать по формальным признакам. С дипфейками нужно понимать подлинность человека на видео, аутентичность голоса в аудио, факт монтажа и следы генеративной модели.
Собеседник «Коммерсанта» в крупной IT-компании отметил отсутствие технической возможности точно определять созданный с помощью ИИ контент при текущих объёмах материалов. VK, Rutube и «Яндекс» отказались от комментариев.
Генеральный директор компании «Социальная лаборатория» Наталия Тылевич считает необходимой высокую детализацию и экспертную проработку для определения запрещённого или требующего маркировки сгенерированного контента. По мнению Наталии Тылевич, запрещать сами технологии непродуктивно.
Партнёр инвестиционно-технологической компании Zarya Ventures Александр Пономарев говорит о распознавании ИИ-контента через сочетание методов:
- анализ изображения, видео и аудио;
- поиск цифровых водяных знаков;
- проверка метаданных файлов;
- поведенческий анализ массового распространения;
- ручная верификация спорных случаев.
Александр Пономарев отмечает удалённость точности подходов от 100%. Современные генеративные модели быстро обходят детекторы, а реальные фото и видео могут ошибочно попадать под блокировку.
Отмечается, что детекторы дипфейков устаревают быстрее, чем выходят новые версии генеративных моделей, и любой автоматический фильтр почти всегда отстаёт от атакующих.
Наиболее реалистичной моделью Александр Пономарев считает гибридную систему с ИИ-фильтрами, маркировкой подозрительного контента и ручной верификацией.
Для бизнеса дипфейки становятся не только медийной угрозой, но и риском мошенничества. Поддельное видео руководителя, фальшивый голос финансового директора или ложное заявление бренда способны спровоцировать целый набор последствий:
- перевод денег через поддельные распоряжения;
- паника клиентов и массовый отток;
- падение доверия к компании;
- резкий репутационный удар;
- юридические претензии от пострадавших.
Возможная обязанность превентивно ограничивать дипфейки создаёт для соцсетей сразу несколько проблем. Нужно строить дорогую инфраструктуру анализа контента, нанимать команды модерации и доказывать обоснованность ограничения охвата.
Особенно сложными станут случаи с пародиями, сатирой и художественными роликами. При использовании в видео образа публичного человека в развлекательном контексте платформа должна определять границу между допустимой имитацией и вредоносной подделкой.
Маркировка сгенерированного контента до распространения выглядит логичной, но трудной в исполнении. При честной метке автора платформа получает сигнал. При попытке обмана аудитории злоумышленник метку не поставит или удалит технические признаки генерации.
Цифровые водяные знаки могут помочь при использовании крупными генераторами контента и сохранении меток платформами. При пересохранении, монтаже, сжатии или перезаписи экрана часть признаков исчезает.
Поведенческий анализ распространения выглядит перспективнее для резонансных случаев. При внезапном росте охвата ролика и появлении в похожих публикациях через сеть однотипных аккаунтов соцсеть может временно ограничить охват и отправить материал на проверку.
Ранее сообщалось о массовых проверках Роскомнадзором сайтов российских организаций на соответствие 152-ФЗ о персональных данных. После предписания на исправление нарушений даётся всего 10 дней, а штрафы доходят до 300 тыс. рублей.
Подобная практика показывает общий сдвиг к автоматизированному контролю цифровой среды. Контентная модерация сложнее проверки формы согласия, поскольку требует оценки смысла, достоверности, контекста и возможного вреда.
Для пользователей главный риск кроется в возможном исчезновении спорного контента из охвата ещё до полной проверки. Подобный шаг оправдан при очевидной попытке обмана, но спорен в пограничных случаях.
Эксперты редакции CISOCLUB отмечают, что предложение ГРЧЦ показывает превращение дипфейков из отдельной медийной проблемы в часть цифровой безопасности. По мнению редакции, фейковое видео или голосовая подделка могут ударить по репутации компании, обмануть клиентов, спровоцировать мошенничество и создать кризис за считанные минуты.
Борьба с подобными материалами не может строиться только на автоматическом детекторе. Нужны правила, проверка источников, временное ограничение охвата, ручная экспертиза и понятная ответственность платформ за ошибки. Без подобной конструкции жёсткие правила быстро превратятся в инструмент массовых ошибочных блокировок, а мягкие — в декорацию для громких отчётов.


