08.04.2024

Оценка рисков безопасности при внедрении технологий больших данных и их использовании

В феврале 2024 года социальная сеть Reddit объявила о заключении договора о сотрудничестве с корпорацией Alphabet, которая стоит за известным брендом Google. Ежемесячно фактически Google будет платить по 5 млн долл. для тренировки собственных моделей, работающих на базе искусственного интеллекта (ИИ). В качестве материала для такого обучения будет использоваться пользовательский контент Reddit. Сотрудничество — не на один год, так что стоит к нему присмотреться повнимательнее.

По сути, Google получает доступ к big data (большим данным), которые есть у Reddit. Характеристика конкретных параметров данных — это предмет деталей контракта, однако речь идёт о массивных объёмах информации. И здесь возникают риски безопасности при использовании big data, как на стороне Reddit, так и Google.

Аккумулирование больших данных сопряжено с необходимостью стабильной работы «железа» и «софта» в Reddit. Из-за кибератаки злоумышленников может выйти из строя и то, и другое. Это означает необходимость создания резервных копий информации, задействуя «облачные» ресурсы. И их также нужно будет надежно защищать. Однако, если «облаком» обладает третья сторона, то здесь риски безопасности повышаются, так как нет прямого контроля над системой безопасности.

Аккумуляция больших данных на стороне Reddit означает, что получается большой массив неструктурированной информации или структурированной только в самых общих чертах. Чтобы разобраться в ней и упаковывать её регулярно в определенные «пакеты» для Google, нужно будет задействовать на первых порах дополнительные человеческие ресурсы. Ровно так, как и ИИ-модели от Google, Gemini, в настоящее время работает не автономно, а с участием человека.

Однако, получение доступа к большим данным Reddit дополнительного числа сотрудников повышает риск утечки информации, увеличивается общий риск оппортунистического поведения персонала. Данные, которые оставляют пользователи Reddit, это — своеобразная «валюта», который они расплачиваются за бесплатность использования социальных сетей. Появившаяся в публичном поле информация о контракте между Reddit и Google актуализирует ценность это «валюты».

Но удержать рынок этой «валюты» в «белой» зоне, учитывая её интернет-специфику, будет очень сложно. Наиболее эффективным решением этого вопроса является перевод по крайней мере наиболее дорогой части big data на блокчейн. Блокчейн позволит проконтролировать все точки входа к данным, зафиксировать, кто к ним получал доступ и когда.

Но здесь есть дилемма. Наиболее устойчивый к хакерским атакам блокчейн — это публичный распределенный реестр, то есть с наличием большего числа независимых друг от друга узлов (нод). При этом размещение информации на нём должно быть не бесплатным, чтобы по максимуму снизить вероятность хакерской атаки 51% на такой блокчейн. Но это — дополнительные затраты, что видно, например, по высоким комиссиям в блокчейне Ethereum. Такие конкуренты Ethereum, как, например, Solana, которые позиционируют свои распределенные реестры как блокчейны с более низкими комиссиями, не раз сталкивались с перегрузкой блокчейнов и перебоями в работе.

Важно также помнить, что публичный блокчейн означает, что в таком случае вся информация будет доступна общественности, и её ценность может упасть. С другой стороны, создание корпоративного блокчейна обеспечивает большую закрытость big data, но он менее безопасен и менее устойчив к хакерским атакам, чем публичный распределенный реестр. Принципиально ситуация не меняется, если экспериментировать не только с блокчейном, но и с другими формами распределенного реестра.

Заметим, что на стороне Google существуют схожие риски безопасности уже как у стороны, принимающей big data от другого лица. Важно, что для решения проблем с рисками при внедрении и использовании big data требуются значительные ресурсы. Это — по максимуму неуязвимые к хакерским атакам системы энергообеспечения, собственные «облачные» хранилища, использование известных блокчейнов с высокими комиссиями или развертывание своего распределенного реестра.

Кроме того, можно прогнозировать, что та работа в обучении ключевой модели ИИ от Google, которая сейчас частично выполняется в ручном в режиме, в будущем потребует использования ИИ-помощников от других компаний. Их нужно будет либо покупать, либо арендовать — ровно так же, как сейчас есть персонал в Google и Reddit, который имеет дело с big data.

Неудивительно, что Reddit заключила соглашение с Google за месяц до того, как вышла на IPO в Нью-Йорке: для выполнения контракта с Google нужны серьёзные финансовые ресурсы, которые можно почерпнуть на бирже. Однако инвесторам в акции Reddit нужно уточнение бизнес-модели развития монетизации пользовательского контента сервиса. Инвесторы пока что находятся в размышлениях по этому поводу. Как итог, бумаги Reddit, которые на пике 26 марта стоили 74,9 долл. за штуку, 5 апреля тестировали значения на уровне всего лишь 44,6 долл.

Если выйти за пределы кейса Reddit и Google, то можно сказать: использование big data в организациях — очень затратная вещь, прежде всего с точки зрения обеспечения безопасности. Если не брать истории, связанные с обучением на базе big data ИИ-моделей, то в остальных случаях компаниям нужно всё больше поручать ИИ-помощникам весь процесс аккумулирования, структурирования, анализа, принятия и осуществления решений на основе big data.

При этом для снижения рисков безопасности компаниям нужно идти по пакетному пути: корпоративные big data плюс корпоративные децентрализованные ИИ-помощники. Почему? Использование разработанных сторонними организациями ИИ-помощников (покупных или взятых в аренду) несёт в себе схожие риски, которые есть при задействовании человеческих ресурсов для работы с big data. Следовательно, максимально безопасное применение big data сопряжено с большими инвестициями и доступно только большим корпорациям.

Возьмём пример современной сети гипермаркетов в мире. Информация о действиях покупателей собирается в них с помощью сенсоров (аудио, видео, измерители тепла и пр.), которые постепенно всё больше начинают «общаться» друг с другом и превращаться в элементы корпоративного Интернета вещей (IoT). Уже здесь, на этапе сбора big data, нужны большие инвестиции в безопасную работу оборудования и софта.

В итоге, каждый день такой современный гипермаркет собирает big data, которая показывает, например, как долго взгляд покупателя останавливался на той или полке или товаре; как покупатель положил в продовольственную тележку товар, как потом обратно вернул на полку, передумав покупать, сколько времени прошло между двумя этими действиями, и пр. Число таких измерений растёт лавинообразно, и счёт идёт уже на десятки тысяч. На выходе каждые сутки, если распечатать все эти big data, выйдет увесистая книга страниц в несколько тысяч страниц A4. Вручную анализировать все эти big data не представляется возможным, а значит требуется использование ИИ.

После задействования ИИ в структурировании этой информации, расчёте показателей и принятии решений, наступает вопрос реализации этих решений в области задач мерчендайзинга: на какой товар сделать «промо», как изменить размещение товаров на полке и многое другое. И, конечно, как скорректировать цены на те или иные товары, исходя из полученных и обработанных big data. Человеческие ошибки здесь весьма возможны, как и утечка чувствительной информации конкурентам.

Для минимизации рисков безопасности в обозримом будущем нужно будет создавать закрытый ИИ-контур, в рамках которого будет происходить цикл жизни big data, включая их непрерывное обновление. При этом задействование публичного блокчейна в таком контуре будет происходить через управление узлами этого реестра разными ИИ-помощниками компании. Сначала эти помощники будут в том числе сторонними, но в дальнейшем нужно будет переходить к сети независимых ИИ-помощников, разработанных компанией, и управляющих нодами. Всё это возможно уже сейчас, однако требует больших финансовых ресурсов.

Большое внимание будет уделяться безопасности «железа», на котором будут выстраиваться ИИ-системы для работы с big data. Неудивительно, что в феврале появились сообщения о том, что OpenAI, создатель самой известной нейросети ChatGPT, намерен привлечь до 7 трлн долл. в разработку и производство своих чипов для своих ИИ-моделей работе с big data. Ещё ни один инвестиционный проект в истории человечества не ориентировался на такую сумму финансовых вливаний. По сути, OpenAI идёт по пути создания закрытого контура, что позволит снизить риски безопасности на всей бизнес-цепочке создания стоимости в своей работе с big data.

Автор: Константин Церазов, стратегический бизнес-консультант, финтех-эксперт, бывший старший вице-президент Банка «Открытие».

Автор: Церазов К.В.

Церазов Константин Владимирович — стратегический бизнес-консультант, финтех-эксперт, экономист.

Комментарии: