Когда TikTok знает о вас больше, чем вы сами. Зачем нас всех изучают и как это остановить

Изображение: Solen Feyissa (unsplash)
Современные платформы (TikTok, Instagram, X и др.) научились строить настраиваемые зеркала поведения, а именно профили пользователей, которые содержат не только очевидные данные (имя, электронная почта), но и десятки тысяч «поведенческих» идентификаторов: что вы смотрите, как долго, как быстро листаете, какие элементы интерфейса нажимаете, какие фразы вводите в поиск, какие видео лайкаете, с кем взаимодействуете.
Это сырье, на основе которого обучаются рекомендательные системы и генеративные модели, и одновременно это поле правовых и репутационных рисков для компаний, которые либо сами собирают такие данные, либо пользуются сервисами, которые это делают.
Для российского бизнеса вопрос особенно острый: есть своя правовая база, требования регуляторов и геополитические риски, которые влияют на способы хранения и передачи данных.
Если нужно понять, какие поведенческие метрики вы реально собираете и на каком основании, удобнее начать с экспресс-аудита трекинга и политики.
Что такое персональные данные (ПДн) простыми словами
Персональные данные — это любая информация, относящаяся к конкретному или определяемому физическому лицу. Это, очевидно, ФИО, телефон, e-mail; но также и менее очевидны IP-адрес, идентификаторы устройств, история просмотра, предпочтения и поведенческие паттерны, по которым человека можно идентифицировать прямо или косвенно.
В РФ понятие и требования к обработке персональных данных закреплены в Федеральном законе №152-ФЗ «О персональных данных».
TikTok и «экосистема данных»: почему он уникален
TikTok — один из сервисов, который собирает довольно большое количество данных для аналитики. Его бизнес-модель основана на трех аспектах:
- Максимальное вовлечение пользователей через рекомендации. Для этого нужен массив данных о поведении, а также постоянное обучение алгоритмов.
- Монетизация через таргетированную рекламу. Чем точнее профиль пользователя, тем дороже реклама и выше вероятность конверсии.
- Глобальная инфраструктура. Данные пользователей из разных стран могут передаваться между дата-центрами, что создает правовые риски (например, для России это нарушение требований о локализации).
Как алгоритмы «узнают» пользователя: набор идентификаторов и логика рекомендаций
Рекомендательные алгоритмы коротких видео работают не на 1-2 метриках, они агрегируют сотни идентификаторов. Ключевые группы:
- Прямые действия в приложении (лайки, комментарии, подписки, сохранения, репосты);
- Поведение (время просмотра ролика, доля досмотренного видео, скорость пролистывания, повторные просмотры);
- Сессии и последовательности (когда и как часто пользователь открывает приложение, сколько видео просматривает за сессию, какие типы контента запускают длительное вовлечение);
- Вводимые данные (поисковые запросы в приложении, взаимодействия с хэштегами и трендами);
- Технические метрики (геолокация, IP, модель устройства, уникальные идентификаторы, особенности сенсорных взаимодействий (в некоторых случаях отпечатки поведения));
- Внешние идентификаторы (данные о взаимодействии с рекламой, метаданные публикуемого контента, а также данные, которые платформа может получить от партнеров (например, рекламных сетей));
- Инференс-данные (модели делают выводы об интересах, политических и религиозных предпочтениях, склонностях к покупке, уровне образования и т.д., даже если пользователь эти вещи явно не указал).
Подобный объем позволяет строить модели не только о «поведении внутри приложения», но и о психологических особенностях пользователя. Условно, если человек чаще задерживается на видео с определенной эмоциональной окраской, алгоритм будет формировать «эмоциональный профиль».
TikTok, Instagram, X: сравнение подходов к данным
TikTok делает акцент на поведенческом анализе и использовании идентификаторов. Алгоритм максимально персонализирован, именно поэтому пользователи долго используют приложение.
Meta делает сильный упор на интеграцию с другими сервисами (Facebook, Messenger, WhatsApp). Здесь ценность в сквозном профиле пользователя, объединяющем его активность в разных продуктах. Недавно Meta обвинили в использовании данных пользователей с открытыми профилями в Instagram для обучения ИИ.
X в меньшей степени использует поведенческие данные, но активно применяет анализ текста и социальных графов.
Основание обработки данных в приложениях
Компании обычно ссылаются на свои условия использования и политику конфиденциальности как на правовое основание для обработки данных. Формально в пользовательском соглашении TikTok есть фраза «мы используем ваши данные для улучшения наших технологий, включая машинное обучение и алгоритмы рекомендаций». На практике это означает, что пользователь сам предоставляет согласие при принятии условий, но есть несколько важных нюансов:
- Неравенство при согласии. Большинство пользователей принимают условия, не читая их подробно. Согласие часто формально, а не информированно.
- Ограничения российского законодательства. Существуют требования по минимизации данных, в РФ требования о соблюдении локализации. Если данные пользователей из РФ собираются на сервере в США, без первоначальной базы в РФ, то это нарушение. Если для анализа поведения пользователя необходимо меньше данных, но оператор собирает больший объем ПДн, это также является нарушением.
Примеры нарушений и прецедентов
Использование пользовательских данных для тренировки ИИ без явного согласия
Масштабная дискуссия вокруг практик крупнейших платформ (Meta) показывает, что компании заявляют о намерении использовать публичный контент для обучения моделей, и это вызывает претензии со стороны регуляторов, правозащитников и авторов. В ряде юрисдикций пользователи и организации оспаривают такие практики, потому что уведомления и возможности отказа часто оказываются ограниченными или запутанными.
Штрафы и регуляторное давление в отношении TikTok
Платформа неоднократно привлекалась к ответственности: европейские регуляторы расследовали и штрафовали TikTok за трансграничные передачи данных и недостаточную прозрачность, а также ряд стран применял административные штрафы за несоблюдение локальных требований к контенту и защите данных. Эти кейсы демонстрируют: даже крупной платформе не прощают нарушения правил обработки данных и непрозрачности.
Риски для бизнеса: почему владельцу компании это должно быть важно
Юридические риски. Неправильная интеграция внешних платформ, неучтенные передачи данных, использование данных для обучения моделей без правовой базы, несоблюдение требований о локализации в РФ — все это может привести к штрафам, блокировкам и ограничениям работы сервисов.
Репутационные риски. Скандалы о нарушении приватности быстро распространяются.
Где именно TikTok «уязвим»
Локализация данных. Согласно российскому законодательству, первоначальная база персональных данных россиян должна находиться на территории РФ. Серверы TikTok находятся в США, Сингапуре, Варшаве. Сервер в РФ не модернизируется с 2022 г.
Прозрачность согласия. Пользователь принимает условия пользовательского соглашения, одновременно соглашаясь с тем, что его данные могут использоваться для обучения моделей ИИ. Это зона потенциальной ответственности.
Практическое руководство
1) Проведите аудит
Опишите, какие персональные данные вы собираете/обрабатываете (включая поведенческие и аналитические), где они хранятся, кто имеет к ним доступ и с кем делятся (контрагенты, провайдеры, платформы). Карта должна охватывать и косвенные потоки (через аналитические сервисы и т.д.).
2) Пересмотрите правовую основу обработки
Убедитесь, что для каждой категории данных есть законное основание (согласие, исполнение договора, законный интерес и т.д.). Для чувствительных данных (биометрия, здоровье) требования более серьезные. Обычно сервисы вроде TikTok не собирают подобные показатели, однако если приложение имеет, например, медицинскую специфику, это стоит учитывать.
Проверьте формулировки в пользовательских соглашениях и политике конфиденциальности: они должны быть прозрачными, понятными и конкретными (цели обработки, сроки хранения, способы передачи).
Если на данных пользователей приложения обучается ИИ, необходимо собирать дополнительное согласие на обработку персональных данных.
3) Минимизация и пропорциональность
Собирайте только те данные, которые действительно нужны для достижения заявленных целей. Пересмотрите трекинг: часто сторонние подрядчики собирают лишние метрики. Минимизация снижает риск штрафов.
4) Контроль над третьими сторонами и контракты
Подпишите поручения с подрядчиками и платформами. В них пропишите ограничения на цель, передачу данных, требования по безопасности и субподрядчикам.
Убедитесь, что провайдеры могут выполнить требования локального законодательства (например, при трансграничной передаче данных) и предоставить подтверждения (аудиты, сертификаты), а также предоставить подтверждения удаления данных пользователей после прекращения договорных отношений.
5) Технические меры защиты
Шифрование данных при передаче; сегментация доступа; журналы доступа и их хранение.
Контроль доступа по ролям, регулярные ревизии списков доступа.
6) Процедуры работы с утечками
Определите процесс обнаружения и уведомления о нарушениях. В РФ регулятор требует определенной скорости реакции и уведомления об инцидентах.
7) Обучение работников
Тренинги для продуктовых команд помогут избежать нарушений приватности.
Российская специфика
Роскомнадзор и регуляторная среда. В РФ действуют правила о необходимости соблюдения локализации, подачи уведомления об обработке ПДн и намерении осуществлять ТГП и т.д. Компании, которые используют TikTok для продвижения, должны учитывать, что ответственность за нарушения может коснуться и их.
Геополитика. TikTok и Meta периодически становятся объектами ограничений или блокировок. Если ваш бизнес сильно зависит от рекламных кампаний в этих сервисах, их использование — риск для маркетинговой стратегии.
С 1.09.2025 вступают в силу новые правила об обезличивании данных. Это открывает больше возможностей для легального использования больших данных в бизнесе, но требует изучения и обучения работников с обезличенными данными, а также применения методов обезличивания.
Как «остановить» массовое изучение. Технические и организационные практики, применимые для компаний
Важно понимать: полностью «остановить» анализ поведения пользователей невозможно, если вы используете цифровые сервисы. Но можно существенно снизить объем собираемых данных и контролировать способы их использования.
- Пересмотрите цели аналитики: действительно ли вам нужны тонкие поведенческие паттерны пользователей? Часто достаточно агрегированных и обезличенных метрик.
- Для аналитики больших данных можно использовать методы (в РФ с 1.09.2025 коммерческие операторы вправе использовать методы обезличивания РКН для собственных целей, а также обезличивание для статистических целей), которые дают гарантии приватности без раскрытия отдельных записей.
- Перед вводом в эксплуатацию проводите аудит моделей: какие данные использовались при обучении, какие признаки модель использует, каковы риски утечек.
Заключение: баланс между инновациями и ответственностью
Алгоритмы и модели создают коммерческую ценность — персонализация улучшает вовлечение и конверсию. Но ценность эта достигается за счет данных людей.
Бизнесы, которые научатся управлять потоком данных: ограничивать, защищать и прозрачно объяснять их использование, получат конкурентное преимущество: меньше регуляторных рисков, выше доверие клиентов и более устойчивые продукты.
Игнорирование проблемы может привести не только к штрафам и искам, но и к потере репутации, остановке сервисов и серьезным операционным издержкам.
* Корпорация Meta, владеющая WhatsApp, Facebook и Instagram, признана экстремистской организацией и запрещена на территории Российской Федерации.


