Вчера в 09:37

В России соцсетям дадут право блокировать дипфейки ещё до проверки их достоверности

изображение: grok

Главный радиочастотный центр Роскомнадзора предложил соцсетям самостоятельно выявлять и приостанавливать распространение резонансных дипфейков ещё до окончательной проверки достоверности. Идея выглядит понятной с точки зрения скорости реакции, но создаёт сложную проблему для рынка. Технологий с безошибочным отделением ИИ-контента от реального видео, фото или аудио сейчас нет, а ошибочные блокировки приведут к спорам с пользователями, компаниями и брендами.

Дипфейки распространяются быстрее многих обычных инфоповодов. Ролик с поддельным заявлением известного человека, фейковым обращением руководителя компании или имитацией голоса чиновника за минуты собирает большой охват. Пока идёт проверка, материал успевает попасть в мессенджеры, соцсети, СМИ и закрытые чаты.

Интересно, что дипфейк может разойтись по сети за минуты, а проверка его подлинности у экспертов занимает часы или дни, и регулятор хочет переломить эту арифметику.

О предложении рассказал «Коммерсанту» заместитель начальника отдела специальных проектов и академических программ Научно-технического центра ФГУП ГРЧЦ Станислав Махортов на IV Форуме «Технологии доверенного искусственного интеллекта». Эксперт предложил законодательную инициативу для контроля и блокировки соцсетями быстро набирающих популярность материалов.

Среди других предложений Станислава Махортова прозвучали несколько направлений работы:

создание базы технологических угроз для просвещения;
развитие решений для обмена данными между ведомствами и бизнесом;
маркировка сгенерированного контента до распространения;
обучение пользователей распознаванию дипфейков;
координация платформ через единые стандарты.

В Роскомнадзоре пояснили «Коммерсанту» построение регулирования дипфейков на понятных, открытых и реализуемых возможностях быстрого выявления и прекращения распространения. По позиции ведомства, соцсети должны иметь право временно приостанавливать распространение контента до проверки достоверности у доверенного источника.

Дипфейк представляет собой технологию синтеза медиа на базе машинного обучения и искусственного интеллекта. Она позволяет подменять лицо, голос, мимику, отдельные фрагменты изображения или аудиодорожки.

Для соцсетей проблема не только в качестве дипфейков, но и в масштабе. Каждую минуту пользователи публикуют огромное количество контента разных форматов:

изображения и фотографии;
короткие видео и трансляции;
мемы и нарезки роликов;
сторис и временный контент;
аудиофрагменты и голосовые сообщения.

В 2023 году Роскомнадзор запустил IT-систему поиска запрещённого контента «Окулус». Она распознаёт изображения, символы, противоправные сцены и действия. Также действует система «Вепрь» для выявления угроз в информационной сфере.

Перенос подобной логики на дипфейки выглядит сложнее. С запрещённым символом или текстовым паттерном можно работать по формальным признакам. С дипфейками нужно понимать подлинность человека на видео, аутентичность голоса в аудио, факт монтажа и следы генеративной модели.

Собеседник «Коммерсанта» в крупной IT-компании отметил отсутствие технической возможности точно определять созданный с помощью ИИ контент при текущих объёмах материалов. VK, Rutube и «Яндекс» отказались от комментариев.

Генеральный директор компании «Социальная лаборатория» Наталия Тылевич считает необходимой высокую детализацию и экспертную проработку для определения запрещённого или требующего маркировки сгенерированного контента. По мнению Наталии Тылевич, запрещать сами технологии непродуктивно.

Партнёр инвестиционно-технологической компании Zarya Ventures Александр Пономарев говорит о распознавании ИИ-контента через сочетание методов:

анализ изображения, видео и аудио;
поиск цифровых водяных знаков;
проверка метаданных файлов;
поведенческий анализ массового распространения;
ручная верификация спорных случаев.

Александр Пономарев отмечает удалённость точности подходов от 100%. Современные генеративные модели быстро обходят детекторы, а реальные фото и видео могут ошибочно попадать под блокировку.

Отмечается, что детекторы дипфейков устаревают быстрее, чем выходят новые версии генеративных моделей, и любой автоматический фильтр почти всегда отстаёт от атакующих.

Наиболее реалистичной моделью Александр Пономарев считает гибридную систему с ИИ-фильтрами, маркировкой подозрительного контента и ручной верификацией.

Для бизнеса дипфейки становятся не только медийной угрозой, но и риском мошенничества. Поддельное видео руководителя, фальшивый голос финансового директора или ложное заявление бренда способны спровоцировать целый набор последствий:

перевод денег через поддельные распоряжения;
паника клиентов и массовый отток;
падение доверия к компании;
резкий репутационный удар;
юридические претензии от пострадавших.

Возможная обязанность превентивно ограничивать дипфейки создаёт для соцсетей сразу несколько проблем. Нужно строить дорогую инфраструктуру анализа контента, нанимать команды модерации и доказывать обоснованность ограничения охвата.

Особенно сложными станут случаи с пародиями, сатирой и художественными роликами. При использовании в видео образа публичного человека в развлекательном контексте платформа должна определять границу между допустимой имитацией и вредоносной подделкой.

Маркировка сгенерированного контента до распространения выглядит логичной, но трудной в исполнении. При честной метке автора платформа получает сигнал. При попытке обмана аудитории злоумышленник метку не поставит или удалит технические признаки генерации.

Цифровые водяные знаки могут помочь при использовании крупными генераторами контента и сохранении меток платформами. При пересохранении, монтаже, сжатии или перезаписи экрана часть признаков исчезает.

Поведенческий анализ распространения выглядит перспективнее для резонансных случаев. При внезапном росте охвата ролика и появлении в похожих публикациях через сеть однотипных аккаунтов соцсеть может временно ограничить охват и отправить материал на проверку.

Ранее сообщалось о массовых проверках Роскомнадзором сайтов российских организаций на соответствие 152-ФЗ о персональных данных. После предписания на исправление нарушений даётся всего 10 дней, а штрафы доходят до 300 тыс. рублей.

Подобная практика показывает общий сдвиг к автоматизированному контролю цифровой среды. Контентная модерация сложнее проверки формы согласия, поскольку требует оценки смысла, достоверности, контекста и возможного вреда.

Для пользователей главный риск кроется в возможном исчезновении спорного контента из охвата ещё до полной проверки. Подобный шаг оправдан при очевидной попытке обмана, но спорен в пограничных случаях.

Эксперты редакции CISOCLUB отмечают, что предложение ГРЧЦ показывает превращение дипфейков из отдельной медийной проблемы в часть цифровой безопасности. По мнению редакции, фейковое видео или голосовая подделка могут ударить по репутации компании, обмануть клиентов, спровоцировать мошенничество и создать кризис за считанные минуты.

Борьба с подобными материалами не может строиться только на автоматическом детекторе. Нужны правила, проверка источников, временное ограничение охвата, ручная экспертиза и понятная ответственность платформ за ошибки. Без подобной конструкции жёсткие правила быстро превратятся в инструмент массовых ошибочных блокировок, а мягкие — в декорацию для громких отчётов.

Автор: Артем

Представитель редакции CISOCLUB. Пишу новости, дайджесты, добавляю мероприятия и отчеты.

Комментарии: