4 февраля

Когда TikTok знает о вас больше, чем вы сами. Зачем нас всех изучают и как это остановить

Изображение: Solen Feyissa (unsplash)

Современные платформы (TikTok, Instagram, X и др.) научились строить настраиваемые зеркала поведения, а именно профили пользователей, которые содержат не только очевидные данные (имя, электронная почта), но и десятки тысяч «поведенческих» идентификаторов: что вы смотрите, как долго, как быстро листаете, какие элементы интерфейса нажимаете, какие фразы вводите в поиск, какие видео лайкаете, с кем взаимодействуете.

Это сырье, на основе которого обучаются рекомендательные системы и генеративные модели, и одновременно это поле правовых и репутационных рисков для компаний, которые либо сами собирают такие данные, либо пользуются сервисами, которые это делают.

Для российского бизнеса вопрос особенно острый: есть своя правовая база, требования регуляторов и геополитические риски, которые влияют на способы хранения и передачи данных.

Если нужно понять, какие поведенческие метрики вы реально собираете и на каком основании, удобнее начать с экспресс-аудита трекинга и политики.

Что такое персональные данные (ПДн) простыми словами

Персональные данные — это любая информация, относящаяся к конкретному или определяемому физическому лицу. Это, очевидно, ФИО, телефон, e-mail; но также и менее очевидны IP-адрес, идентификаторы устройств, история просмотра, предпочтения и поведенческие паттерны, по которым человека можно идентифицировать прямо или косвенно.

В РФ понятие и требования к обработке персональных данных закреплены в Федеральном законе №152-ФЗ «О персональных данных».

TikTok и «экосистема данных»: почему он уникален

TikTok — один из сервисов, который собирает довольно большое количество данных для аналитики. Его бизнес-модель основана на трех аспектах:

Максимальное вовлечение пользователей через рекомендации. Для этого нужен массив данных о поведении, а также постоянное обучение алгоритмов.

Монетизация через таргетированную рекламу. Чем точнее профиль пользователя, тем дороже реклама и выше вероятность конверсии.

Глобальная инфраструктура. Данные пользователей из разных стран могут передаваться между дата-центрами, что создает правовые риски (например, для России это нарушение требований о локализации).

Как алгоритмы «узнают» пользователя: набор идентификаторов и логика рекомендаций

Рекомендательные алгоритмы коротких видео работают не на 1-2 метриках, они агрегируют сотни идентификаторов. Ключевые группы:

Прямые действия в приложении (лайки, комментарии, подписки, сохранения, репосты);

Поведение (время просмотра ролика, доля досмотренного видео, скорость пролистывания, повторные просмотры);

Сессии и последовательности (когда и как часто пользователь открывает приложение, сколько видео просматривает за сессию, какие типы контента запускают длительное вовлечение);

Вводимые данные (поисковые запросы в приложении, взаимодействия с хэштегами и трендами);

Технические метрики (геолокация, IP, модель устройства, уникальные идентификаторы, особенности сенсорных взаимодействий (в некоторых случаях отпечатки поведения));

Внешние идентификаторы (данные о взаимодействии с рекламой, метаданные публикуемого контента, а также данные, которые платформа может получить от партнеров (например, рекламных сетей));

Инференс-данные (модели делают выводы об интересах, политических и религиозных предпочтениях, склонностях к покупке, уровне образования и т.д., даже если пользователь эти вещи явно не указал).

Подобный объем позволяет строить модели не только о «поведении внутри приложения», но и о психологических особенностях пользователя. Условно, если человек чаще задерживается на видео с определенной эмоциональной окраской, алгоритм будет формировать «эмоциональный профиль».

TikTok, Instagram, X: сравнение подходов к данным

TikTok делает акцент на поведенческом анализе и использовании идентификаторов. Алгоритм максимально персонализирован, именно поэтому пользователи долго используют приложение.

Meta делает сильный упор на интеграцию с другими сервисами (Facebook, Messenger, WhatsApp). Здесь ценность в сквозном профиле пользователя, объединяющем его активность в разных продуктах. Недавно Meta обвинили в использовании данных пользователей с открытыми профилями в Instagram для обучения ИИ.

X в меньшей степени использует поведенческие данные, но активно применяет анализ текста и социальных графов.

Основание обработки данных в приложениях

Компании обычно ссылаются на свои условия использования и политику конфиденциальности как на правовое основание для обработки данных. Формально в пользовательском соглашении TikTok есть фраза «мы используем ваши данные для улучшения наших технологий, включая машинное обучение и алгоритмы рекомендаций». На практике это означает, что пользователь сам предоставляет согласие при принятии условий, но есть несколько важных нюансов:

Неравенство при согласии. Большинство пользователей принимают условия, не читая их подробно. Согласие часто формально, а не информированно.

Ограничения российского законодательства. Существуют требования по минимизации данных, в РФ требования о соблюдении локализации. Если данные пользователей из РФ собираются на сервере в США, без первоначальной базы в РФ, то это нарушение. Если для анализа поведения пользователя необходимо меньше данных, но оператор собирает больший объем ПДн, это также является нарушением.

Примеры нарушений и прецедентов

Использование пользовательских данных для тренировки ИИ без явного согласия

Масштабная дискуссия вокруг практик крупнейших платформ (Meta) показывает, что компании заявляют о намерении использовать публичный контент для обучения моделей, и это вызывает претензии со стороны регуляторов, правозащитников и авторов. В ряде юрисдикций пользователи и организации оспаривают такие практики, потому что уведомления и возможности отказа часто оказываются ограниченными или запутанными.

Штрафы и регуляторное давление в отношении TikTok

Платформа неоднократно привлекалась к ответственности: европейские регуляторы расследовали и штрафовали TikTok за трансграничные передачи данных и недостаточную прозрачность, а также ряд стран применял административные штрафы за несоблюдение локальных требований к контенту и защите данных. Эти кейсы демонстрируют: даже крупной платформе не прощают нарушения правил обработки данных и непрозрачности.

Риски для бизнеса: почему владельцу компании это должно быть важно

Юридические риски. Неправильная интеграция внешних платформ, неучтенные передачи данных, использование данных для обучения моделей без правовой базы, несоблюдение требований о локализации в РФ — все это может привести к штрафам, блокировкам и ограничениям работы сервисов.

Репутационные риски. Скандалы о нарушении приватности быстро распространяются.

Где именно TikTok «уязвим»

Локализация данных. Согласно российскому законодательству, первоначальная база персональных данных россиян должна находиться на территории РФ. Серверы TikTok находятся в США, Сингапуре, Варшаве. Сервер в РФ не модернизируется с 2022 г.

Прозрачность согласия. Пользователь принимает условия пользовательского соглашения, одновременно соглашаясь с тем, что его данные могут использоваться для обучения моделей ИИ. Это зона потенциальной ответственности.

Практическое руководство

1) Проведите аудит

Опишите, какие персональные данные вы собираете/обрабатываете (включая поведенческие и аналитические), где они хранятся, кто имеет к ним доступ и с кем делятся (контрагенты, провайдеры, платформы). Карта должна охватывать и косвенные потоки (через аналитические сервисы и т.д.).

2) Пересмотрите правовую основу обработки

Убедитесь, что для каждой категории данных есть законное основание (согласие, исполнение договора, законный интерес и т.д.). Для чувствительных данных (биометрия, здоровье) требования более серьезные. Обычно сервисы вроде TikTok не собирают подобные показатели, однако если приложение имеет, например, медицинскую специфику, это стоит учитывать.

Проверьте формулировки в пользовательских соглашениях и политике конфиденциальности: они должны быть прозрачными, понятными и конкретными (цели обработки, сроки хранения, способы передачи).

Если на данных пользователей приложения обучается ИИ, необходимо собирать дополнительное согласие на обработку персональных данных.

3) Минимизация и пропорциональность

Собирайте только те данные, которые действительно нужны для достижения заявленных целей. Пересмотрите трекинг: часто сторонние подрядчики собирают лишние метрики. Минимизация снижает риск штрафов.

4) Контроль над третьими сторонами и контракты

Подпишите поручения с подрядчиками и платформами. В них пропишите ограничения на цель, передачу данных, требования по безопасности и субподрядчикам.

Убедитесь, что провайдеры могут выполнить требования локального законодательства (например, при трансграничной передаче данных) и предоставить подтверждения (аудиты, сертификаты), а также предоставить подтверждения удаления данных пользователей после прекращения договорных отношений.

5) Технические меры защиты

Шифрование данных при передаче; сегментация доступа; журналы доступа и их хранение.

Контроль доступа по ролям, регулярные ревизии списков доступа.

6) Процедуры работы с утечками

Определите процесс обнаружения и уведомления о нарушениях. В РФ регулятор требует определенной скорости реакции и уведомления об инцидентах.

7) Обучение работников

Тренинги для продуктовых команд помогут избежать нарушений приватности.

Российская специфика

Роскомнадзор и регуляторная среда. В РФ действуют правила о необходимости соблюдения локализации, подачи уведомления об обработке ПДн и намерении осуществлять ТГП и т.д. Компании, которые используют TikTok для продвижения, должны учитывать, что ответственность за нарушения может коснуться и их.

Геополитика. TikTok и Meta периодически становятся объектами ограничений или блокировок. Если ваш бизнес сильно зависит от рекламных кампаний в этих сервисах, их использование — риск для маркетинговой стратегии.

С 1.09.2025 вступают в силу новые правила об обезличивании данных. Это открывает больше возможностей для легального использования больших данных в бизнесе, но требует изучения и обучения работников с обезличенными данными, а также применения методов обезличивания.

Как «остановить» массовое изучение. Технические и организационные практики, применимые для компаний

Важно понимать: полностью «остановить» анализ поведения пользователей невозможно, если вы используете цифровые сервисы. Но можно существенно снизить объем собираемых данных и контролировать способы их использования.

Пересмотрите цели аналитики: действительно ли вам нужны тонкие поведенческие паттерны пользователей? Часто достаточно агрегированных и обезличенных метрик.

Для аналитики больших данных можно использовать методы (в РФ с 1.09.2025 коммерческие операторы вправе использовать методы обезличивания РКН для собственных целей, а также обезличивание для статистических целей), которые дают гарантии приватности без раскрытия отдельных записей.

Перед вводом в эксплуатацию проводите аудит моделей: какие данные использовались при обучении, какие признаки модель использует, каковы риски утечек.

Заключение: баланс между инновациями и ответственностью

Алгоритмы и модели создают коммерческую ценность — персонализация улучшает вовлечение и конверсию. Но ценность эта достигается за счет данных людей.

Бизнесы, которые научатся управлять потоком данных: ограничивать, защищать и прозрачно объяснять их использование, получат конкурентное преимущество: меньше регуляторных рисков, выше доверие клиентов и более устойчивые продукты.

Игнорирование проблемы может привести не только к штрафам и искам, но и к потере репутации, остановке сервисов и серьезным операционным издержкам.

* Корпорация Meta, владеющая WhatsApp, Facebook и Instagram, признана экстремистской организацией и запрещена на территории Российской Федерации.

Автор: Б-152

Б-152 — консалтинговая компания. Более 14 лет помогаем бизнесу соответствовать требованиям в сфере персональных данных и информационной безопасности. Мы работаем в области privacy, входим в рабочую группу Роскомнадзора, разрабатываем собственные продукты и сопровождаем клиентов на всех этапах — от аудита до прохождения проверок. Б-152 — команда, которая говорит с ИБ на одном языке. Мы поможем не только формально соблюсти 152-ФЗ, но и выстроить настоящую защиту данных: модели угроз, ТЗ на СЗИ, аудит и тестирование.

Комментарии: