SkyDNS перешел на новую ML-архитектуру для защиты корпоративных сетей
Компания SkyDNS завершила переход на обновлённую инфраструктуру машинного обучения, предназначенную для анализа доменов и URL в условиях постоянно растущих объёмов данных. Изменения затронули ключевые компоненты системы — от хранения и обработки информации до процессов классификации и обучения моделей.
В рамках новой архитектуры ML-система SkyDNS была полностью развёрнута в Kubernetes, что позволило автоматизировать распределение вычислительных ресурсов и объединить их в единый кластер. Сегодня он включает 27 машин различного назначения с суммарной вычислительной мощностью 420 потоков и более 1,2 ТБ оперативной памяти. Все вычисления и запуск моделей выполняются в контейнерной среде, а управление пайплайнами автоматизировано с помощью Apache Airflow. Хранение данных реализовано на базе распределённого отказоустойчивого кластера Apache Cassandra.
На текущий момент система SkyDNS обрабатывает более 5 ТБ данных, включающих свыше 130 млн доменов и более 400 млн URL. Покрытие составляет 95,7% всех TLD-зон и 71,4% мировых доменов. Вся информация обновляется ежедневно и классифицируется по 9 категориям безопасности и 60 категориям контента.
Отдельное внимание в новой архитектуре уделено работе с доменами, потенциально используемыми в атаках нулевого дня. Для этого SkyDNS расширил интеграцию с крупнейшим международным регистратором доменных имен и получает данные о новых регистрациях, смене владельцев и перерегистрациях во всех доменных зонах. Недавно зарегистрированные домены автоматически выделяются в отдельную категорию и находятся под особым надзором в течение 90 дней.
По данным компании, использование регистрационной информации позволяет выявлять потенциально опасные ресурсы на ранней стадии — до их применения в фишинговых кампаниях или для распространения вредоносного ПО.
Переход на новую ML-инфраструктуру сопровождался сравнением результатов работы моделей до и после обновления. В SkyDNS отмечают, что при увеличении глубины анализа с доменного уровня до URL удалось сохранить сопоставимые показатели качества классификации и стабильность категориальной структуры.
