15.04.2021

FLoC от Google — ужасная идея

Новый сайт, Am I FLoCed, расскажет вам, был ли ваш браузер Chrome подопытным кроликом для FLoC, последнего эксперимента Google с целевой рекламой.

Сторонний cookie умирает, и Google пытается создать ему замену.

Никто не должен оплакивать смерть cookie в том виде, в каком мы его знаем. На протяжении более двух десятилетий сторонние cookie-файлы были стержнем призрачной, захудалой, многомиллиардной индустрии наблюдения за рекламой в сети; постепенный отказ от отслеживающих файлов cookie и других постоянных сторонних идентификаторов давно пора. Однако по мере того, как основы рекламной индустрии сдвигаются, ее крупнейшие игроки полны решимости встать на ноги.

Google лидирует в замене сторонних файлов cookie новым набором технологий для таргетинга рекламы в Интернете. И некоторые из его предложений показывают, что компания не извлекла правильных уроков из продолжающейся негативной реакции на бизнес-модель слежки. Этот пост будет посвящен одному из этих предложений, Federated Learning of Cohorts (FLoC) , которое, возможно, является самым амбициозным — и потенциально самым вредным.

FLoC призван стать новым способом заставить ваш браузер выполнять профилирование, которое сторонние трекеры использовали для самостоятельного выполнения: в этом случае сведение вашей недавней активности в браузере к поведенческой метке, а затем обмен ею с веб-сайтами и рекламодателями. Эта технология позволит избежать рисков конфиденциальности сторонних файлов cookie, но в процессе будет создавать новые. Это также может усугубить многие из наихудших проблем, не связанных с конфиденциальностью, с поведенческой рекламой, включая дискриминацию и хищнический таргетинг.

Google обращается к защитникам конфиденциальности так, что мир с FLoC (и другими элементами « песочницы конфиденциальности ») будет лучше, чем тот мир, который мы имеем сегодня, где брокеры данных и гиганты рекламных технологий безнаказанно отслеживают и профилируют. Но это построение основано на ложной предпосылке, что мы должны выбирать между «старым отслеживанием» и «новым отслеживанием». Это не либо-либо. Вместо того, чтобы заново изобретать колесо слежения, мы должны представить лучший мир без множества проблем, связанных с целевой рекламой.

Мы стоим на развилке дорог. Позади нас эпоха сторонних файлов cookie, возможно, самой большой ошибки Интернета. Впереди два возможных будущего.

В одном из них пользователи могут решать, какой информацией делиться с каждым сайтом, с которым они хотят взаимодействовать. Никому не нужно беспокоиться о том, что их прошлые просмотры будут против них — или использованы для манипулирования ими — когда они в следующий раз откроют вкладку.

С другой стороны, поведение каждого пользователя следует им от сайта к сайту как ярлык, непостижимый с первого взгляда, но богатый смыслом для тех, кто в курсе. Их недавняя история, разбитая на несколько частей, «демократизирована» и передана десяткам безымянных субъектов, которые участвуют в обслуживании каждой веб-страницы. Пользователи начинают каждое взаимодействие с признания: вот чем я занимался на этой неделе, пожалуйста, относитесь ко мне соответственно.

Пользователи и защитники должны отвергать FLoC и другие ошибочные попытки заново изобрести поведенческий таргетинг.

Что такое FLoC?

В 2019 году Google представил Privacy Sandbox , свое видение будущего конфиденциальности в Интернете. В основе проекта лежит набор протоколов без файлов cookie, предназначенных для удовлетворения множества вариантов использования, которые сторонние файлы cookie в настоящее время предоставляют рекламодателям. Google передал свои предложения в W3C, орган по разработке стандартов для Интернета, где они в основном обсуждались в бизнес-группе веб-рекламы , которая состоит в основном из поставщиков рекламных технологий.

FLoC разработан, чтобы помочь рекламодателям выполнять поведенческий таргетинг без сторонних файлов cookie. Браузер с включенным FLoC будет собирать информацию о привычках просмотра своего пользователя, а затем использовать эту информацию для отнесения своего пользователя к «когорте» или группе. Пользователи со схожими привычками просмотра — для некоторого определения «похожего» — должны быть сгруппированы в одну и ту же когорту. Браузер каждого пользователя будет передавать веб-сайтам и рекламодателям идентификатор когорты, указывающий, к какой группе они принадлежат. Согласно предложению, в каждую когорту должно входить не менее нескольких тысяч пользователей (хотя это не гарантия).

Если это звучит скучно, подумайте об этом так: ваш FLoC ID будет похож на краткое изложение ваших недавних действий в Интернете.

Доказательство концепции Google использовало домены сайтов, которые посещал каждый пользователь, в качестве основы для группировки людей. Затем он использовал алгоритм под названием SimHash для создания групп. SimHash может быть вычислен локально на машине каждого пользователя, поэтому нет необходимости в центральном сервере для сбора поведенческих данных. Однако центральный администратор может играть роль в обеспечении гарантий конфиденциальности. Чтобы никакая когорта не была слишком маленькой (т.е. слишком идентифицирующей), Google предлагает, чтобы центральный субъект мог подсчитывать количество пользователей, назначенных каждой когорте. Если какие-то из них слишком малы, их можно комбинировать с другими аналогичными когортами до тех пор, пока в каждой из них не будет представлено достаточное количество пользователей.

Чтобы FLoC был полезен рекламодателям, когорта пользователей обязательно раскроет информацию о своем поведении.

Согласно предложению, большая часть деталей пока не решена. В проекте спецификации указано, что идентификатор когорты пользователя будет доступен через Javascript, но неясно, будут ли какие-либо ограничения на то, кто может получить к нему доступ, или будет ли этот идентификатор использоваться другими способами. FLoC может выполнять кластеризацию на основе URL-адресов или содержимого страницы вместо доменов; он также может использовать федеративную систему на основе обучения (как следует из названия FLoC) для создания групп вместо SimHash. Также неясно, сколько именно будет возможных когорт. В эксперименте Google использовались 8-битные идентификаторы когорт, то есть было всего 256 возможных когорт. На практике это число могло быть намного больше; документация предлагает16-битный идентификатор когорты, состоящий из 4 шестнадцатеричных символов. Чем больше будет когорт, тем они будут более конкретными; более длинные идентификаторы когорты будут означать, что рекламодатели узнают больше об интересах каждого пользователя и им будет легче отследить их.

Одна вещь , которая будет указана в срок. Когорты FLoC будут пересчитываться еженедельно, каждый раз с использованием данных из просмотра на предыдущей неделе. Это делает когорты FLoC менее полезными в качестве долгосрочных идентификаторов, но также делает их более действенными показателями поведения пользователей с течением времени.

Новые проблемы с приватностью

FLoC является частью пакета, предназначенного для создания целевой рекламы в будущем с сохранением конфиденциальности. Но основной дизайн предполагает обмен новой информацией с рекламодателями. Неудивительно, что это также создает новые риски для конфиденциальности.

Снятие отпечатков пальцев

Первая проблема — это снятие отпечатков пальцев. Отпечатки браузера — это практика сбора множества отдельных фрагментов информации из браузера пользователя для создания уникального стабильного идентификатора для этого браузера. Проект EFF Cover Your Tracks демонстрирует, как работает этот процесс: в двух словах, чем больше ваш браузер выглядит или действует по-другому, чем другие, тем проще его отпечаток.

Google пообещал, что подавляющее большинство когорт FLoC будет состоять из тысяч пользователей каждая, поэтому один только идентификатор когорты не должен отличать вас от нескольких тысяч других людей, подобных вам. Тем не менее, это по-прежнему дает отличное преимущество. Если трекер начинается с вашей когорты FLoC, он должен только отличить ваш браузер от нескольких тысяч других (а не нескольких сотен миллионов). С точки зрения теории информации, когорты FLoC будут содержать несколько бит энтропии — до 8 битов, как показывает эксперимент Google для проверки концепции. Эта информация еще более важна, учитывая, что она вряд ли будет коррелировать с другой информацией, предоставляемой браузером. Это значительно упростит трекерам создание уникального отпечатка пальца для пользователей FLoC.

Google признал это проблемой, но пообещал решить ее в рамках более широкого плана «Бюджета конфиденциальности», который должен иметь дело со снятием отпечатков в долгосрочной перспективе. Решение проблемы снятия отпечатков — замечательная цель, и ее предложение — многообещающий путь для достижения. Но, согласно часто задаваемым вопросам, этот план является «предложением на ранней стадии и еще не реализован в браузере». Между тем, Google собирается начать тестирование FLoC уже в этом месяце .

Отпечатки, как известно, трудно остановить. Такие браузеры, как Safari и Tor, вели многолетние войны на истощение с трекерами, жертвуя большим количеством собственных наборов функций, чтобы уменьшить количество атак по отпечаткам.

Кросс-контекстное воздействие

Вторую проблему объяснить труднее: технология будет делиться новыми личными данными с трекерами, которые уже могут идентифицировать пользователей. Чтобы FLoC был полезен рекламодателям, когорта пользователей обязательно раскроет информацию о своем поведении.

Страница проекта на Github решает эту проблему заранее:

Этот API демократизирует доступ к некоторой информации об общей истории просмотра отдельных пользователей (и, следовательно, об общих интересах) для любого сайта, который использует его. … Сайты, которые знают PII человека (например, когда люди входят в систему, используя свой адрес электронной почты), могут записывать и раскрывать их когорту. Это означает, что информация об интересах человека со временем может стать достоянием общественности.

Как описано выше, когорты FLoC не должны работать как идентификаторы сами по себе. Однако любая компания, способная идентифицировать пользователя другими способами, например, предлагая услуги «войти с помощью Google» сайтам в Интернете, сможет связать информацию, которую она узнает от FLoC, с профилем пользователя.

Таким образом могут быть раскрыты две категории информации:

Конкретная информация об истории просмотров. Трекеры могут иметь возможность реконструировать алгоритм назначения когорт, чтобы определить, что любой пользователь, принадлежащий к определенной когорте, вероятно или определенно посетил определенные сайты.
Общая информация о демографии или интересах. Наблюдатели могут узнать, что в целом члены определенной когорты в значительной степени могут быть людьми определенного типа .

Это означает, что каждый сайт, который вы посещаете, будет иметь хорошее представление о том, с каким человеком вы впервые контактируете, без необходимости выполнять работу по отслеживанию вас в Интернете. Более того, поскольку ваша когорта FLoC будет обновляться с течением времени, сайты, которые могут идентифицировать вас другими способами, также смогут отслеживать, как изменяется ваш просмотр. Помните, когорта FLoC — это не что иное, как сводка вашей недавней активности в Интернете.

У вас должно быть право представлять разные аспекты своей личности в разных контекстах. Если вы посетите сайт для получения медицинской информации, вы можете доверить ему информацию о своем здоровье, но нет причин, по которым ему нужно знать, какова ваша политика. Точно так же, если вы посещаете веб-сайт розничной торговли, вам не нужно знать, читали ли вы недавно о лечении депрессии. FLoC разрушает это разделение контекстов и вместо этого представляет одно и то же поведенческое резюме всем, с кем вы взаимодействуете.

Помимо конфиденциальности

FLoC предназначен для предотвращения очень конкретной угрозы: такого рода индивидуализированного профилирования, который сегодня обеспечивается кросс-контекстными идентификаторами. Цель FLoC и других предложений — не позволить трекерам получить доступ к определенным частям информации, которые они могут связать с конкретными людьми. Как мы показали, FLoC может действительно помочь трекерам во многих контекстах. Но даже если Google сможет изменить свой дизайн и предотвратить эти риски, вред целевой рекламы не ограничивается нарушениями конфиденциальности. Основная цель FLoC противоречит другим гражданским свободам.

Сила нацеливания — это способность различать. По определению, таргетированная реклама позволяет рекламодателям охватить одни люди, исключая других. Систему таргетинга можно использовать для того, чтобы решить, кто увидит объявления о вакансиях или предложениях ссуды, так же легко, как и для рекламы обуви.

На протяжении многих лет механизм таргетированной рекламы часто использовался для эксплуатации , дискриминации и причинения вреда . Возможность таргетинга на людей по признаку этнической принадлежности, религии, пола, возраста или способностей позволяет размещать дискриминационные объявления о работе, жилье и кредитах. Таргетинг на основе кредитной истории или характеристик, систематически связанных с ней, позволяет использовать хищническую рекламу ссуд под высокие проценты. Таргетинг на основе демографических данных, местоположения и политической принадлежности помогает поставщикам политически мотивированной дезинформации и подавлению избирателей. Все виды поведенческого таргетинга увеличивают риск убедительного мошенничества .

Google, Facebook и многие другие рекламные платформы уже пытаются обуздать определенные виды использования своих платформ таргетинга. Например, Google ограничивает возможности рекламодателей ориентироваться на людей, относящихся к « чувствительным категориям интересов ». Однако эти усилия часто терпят неудачу; Определенные участники обычно могут найти обходные пути к ограничениям платформы на определенные виды таргетинга или определенные виды рекламы .

Даже обладая абсолютной властью над тем, какая информация может быть использована для нацеливания, платформы слишком часто не могут предотвратить злоупотребление своей технологией. Но FLoC будет использовать неконтролируемый алгоритм для создания своих кластеров. Это означает, что никто не будет иметь прямого контроля над группировкой людей. В идеале (для рекламодателей) FLoC будет создавать группы с общими интересами и поведением. Но онлайн-поведение связано со всеми видами чувствительных характеристик — демографическими данными, такими как пол, этническая принадлежность, возраст и доход; «Большая пятерка» личностных качеств ; даже психическое здоровье. Весьма вероятно, что FLoC также сгруппирует пользователей по некоторым из этих осей. Группы FLoC могут также напрямую отражать посещения веб-сайтов, связанных со злоупотреблением психоактивными веществами, финансовыми трудностями или поддержкой выживших после травм.

Google предложил, чтобы он мог отслеживать выходные данные системы, чтобы проверять любые корреляции с ее чувствительными категориями. Если обнаруживается, что определенная когорта слишком тесно связана с определенной защищенной группой, административный сервер может выбрать новые параметры для алгоритма и указать браузерам пользователей снова сгруппироваться.

Это решение звучит как оруэлловское, так и сизифовское. Чтобы отслеживать, как группы FLoC соотносятся с деликатными категориями, Google потребуется провести массовый аудит с использованием данных о расе, поле, религии, возрасте, состоянии здоровья и финансовом положении пользователей. Всякий раз, когда он находит когорту, которая слишком сильно коррелирует по любой из этих осей, ему придется перенастроить весь алгоритм и попробовать снова, надеясь, что никакие другие «чувствительные категории» не будут задействованы в новой версии. Это гораздо более сложная версия проблемы, которую он уже пытается решить , но часто не удается.

В мире с FLoC может быть сложнее ориентироваться на пользователей напрямую, исходя из возраста, пола или дохода. Но это не будет невозможным. Трекеры с доступом к вспомогательной информации о пользователях смогут узнать, что «означают» группы FLoC — какие типы людей они содержат — посредством наблюдения и экспериментов. Те, кто настроен на это, все равно смогут различать. Более того, платформам будет сложнее контролировать такое поведение, чем это уже делается. Рекламодатели с плохими намерениями будут иметь правдоподобное отрицание — в конце концов, они не нацелены напрямую на защищенные категории, они просто достигают людей на основе поведения. И вся система станет более непрозрачной для пользователей и регулирующих органов.

По материалам https://www.eff.org/

Источник — Блог Владимира Безмалого «Быть, а не казаться. О безопасности и не только».

Автор: Владимир Безмалый

Данный блог посвящен информационной безопасности и информационнм технологиям.

Комментарии: