Глубокое обучение в борьбе с фишингом: как ИИ распознает угрозы

Фишинг и его виды
Начнем с фишинга. Фишинг – мошеннический процесс, с помощью которого злоумышленники пытаются получить конфиденциальную информацию от атакуемой ими жертвы. Фишинговые атаки могут быть весьма сложными и разнообразными. Обычно выделяют 4 основных типа фишинговых атак:
- Перехват информации – когда злоумышленники пытаются перехватить персональные данные жертвы (логины, пароли, номера кредиток и пр.). При этом используются поддельные веб-сайты или email-сообщения от якобы легитимных организаций.
- Социальная инженерия – этот вид фишинга основан на манипуляции психологическими и социальными аспектами, чтобы так или иначе убедить пользователей раскрыть свои персональные данные или же выполнить определенные действия. Злоумышленники представляются сотрудниками банка, правоохранительных органов или сервиса поддержки, чтобы получить доступ к конфиденциальной информации или провести мошеннические операции.
- Смс-фишинг – когда злоумышленники отправляют СМС-сообщения на смартфоны жертв, пытаясь заставить раскрыть персональные данные или совершить определенные действия. Как правило, СМС-сообщения маскируются под предупреждения от банков, сотовых операторов, поставщиков услуг и других организаций.
- Спам-фишинг – массовая рассылка спам-сообщений с целью обмана жертв. Эти сообщения обычно содержат ссылки на поддельные веб-сайты, либо прикрепленные вредоносные файлы.
Инструментарий фишинга
Он весьма разнообразен. Можно выделить:
- Использование фишинговых (поддельных) веб-сайтов. Их сложно (на первый взгляд) отличить от оригинальных – полностью копируется дизайн, логотипы, баннеры, ссылки и пр. Основная цель: сбор персональных данных жертв при регистрации или входе на поддельный веб-ресурс.
- Фишинговые рассылки. Они имитируют официальные письма от банков, онлайн-платежных систем, интернет-магазинов, государственных органов. Эти письма содержат ложные предупреждения о безопасности или просьбы обновить личную информацию, перейти по ссылке, чтобы привлечь жертв к поддельным веб-сайтам или побудить их раскрыть свои персональные данные.
- Социальная инженерия. Она используется для психологических манипуляции с жертвой. Фишеры притворяются представителями организаций, знакомыми/родственниками или другими лицами, чтобы убедить жертв раскрыть свои персональные данные или выполнить определенные действия, которые могут привести к компрометации их безопасности.
- Вредоносный софт. Он устанавливается на компьютер/смартфон/планшет пользователя без его согласия. Софт может записывать нажатия клавиш (кейлоггинг) и собирать персональные данные жертв — логины, пароли, данные банковских карточек и далее передавать их злоумышленникам.
- Поддельные банковские (платежные) страницы. Фишеры могут создавать поддельные страницы для банковских входов или платежных систем, которые очень точно копируют оригинальные страницы. Переходя на такие поддельные страницы, жертвы вводят свои персональные данные, которые далее попадают в руки фишеров.
- Социальные сети и мессенджеры. В соцсетях создаются поддельные профили или группы, которые выглядят как официальные страницы организаций или каких-то известных личностей. С их помощью отправляются сообщения, которые далее ведут к поддельным веб-сайтам (или содержат вредоносные файлы).
Традиционные подходы обнаружения фишинга и их ограничения
Наиболее часто применяются следующие, еще в недалеко прошлом достаточно эффективные подходы к обнаружению фишинга:
- Фильтрация спама и подозрительных писем. Фильтры настраиваются на ключевые слова, фразы и другие характеристики фишинговой атаки. Однако фишеры постоянно разрабатывают новые способы обхода этих фильтров.
- Черные списки фишинговых URL-адресов. Многие компании и браузеры поддерживают и постоянно пополняют такие списки. Однако, эти списки неполные и нередки случаи, когда новые фишинговые ресурсы остаются незамеченными.
Какими ограничениями обладают эти традиционные подходы?
- Ложные срабатывания. Традиционные методы обнаружения фишинга могут давать достаточно большой процент ложных срабатываний, ошибочно классифицируя легитимные письма как фишинговые.
- Смена тактик фишеров. Постоянно разрабатываются новые способы маскировки фишинговых атак, что также снижает эффективность традиционных методов в борьбе с постоянно изменяющимися фишинговыми угрозами.
- Недостаточная скорость обнаружения. Обновление черных списков URL-адресов может занимать определенное время, поэтому новые фишинговые сайты могут какое-то время оставаться незаблокированными.
Машинное обучения для обнаружения фишинга
Машинное обучение может использоваться для анализа поведения пользователя и обнаружения его аномальных или подозрительных действий. Можно проанализировать характеристики взаимодействия пользователя с веб-сайтом — клики, ввод данных и навигацию, построить профиль типичного поведения и выявить отклонения от него, которые могут указывать на фишинговую атаку.
Машинное обучение можно применить и для анализа содержания фишинговых писем, веб-страниц и других ресурсов. Можно выявлять поддельные логотипы, орфографические и грамматические ошибки, подозрительные ссылки и другие признаки фишинговой атаки.
Для машинного обучения потребуются большие объемы данных для обучения моделей: информация об известных фишинговых сайтах, фишинговых письмах. Еще будет нужно определить и зафиксировать типичное поведение пользователя. Все эти данные будут использованы для обучения моделей машинного обучения, которые затем смогут выявлять фишинговые веб-ресурсы.
Одно их основных преимуществ использования машинного обучения при обнаружении фишинга то, что модели автоматически обновляются на основе новых данных. А это, в свою очередь, позволяет адаптироваться к постоянно меняющимся тактикам фишеров и обнаруживать новые фишинговые атаки.
Перед применением алгоритмов машинного обучения необходимо проводится предварительная обработка данных. Этот этап включает очистку и нормализацию данных, удаление выбросов и несущественных признаков.
Выбор правильных (существенных) признаков является основным фактором успешного обучения модели. Эти признаки могут включать URL-адреса, содержимое веб-страниц, метаданные и другие характеристики. Для создания такого обучающего набора требуется так называемая разметка данных, то есть классификация веб-страниц как фишинговых или легитимных. Это может быть ручная разметка экспертами (обучение с учителем), так и использование автоматических методов — анализа черных списков или баз данных фишинговых сайтов (самообучение).
Алгоритмы машинного обучения, которые могут быть использованы для классификации фишинговых веб-сайтов, весьма разнообразны:
- Логистическая регрессия. Метод использует логистическую функцию для предсказания вероятности принадлежности веб-страницы к классу фишинговых или легитимных (нормальных). Обучение модели происходит оптимизацией весовых коэффициентов (весов) признаков.
- Нейронные сети. Они состоят из множества взаимосвязанных нейронов, обучаемых для выполнения специфических задач. Нейросети могут быть использованы для классификации фишинговых веб-сайтов, применяя глубокое обучение и множество скрытых слоев для извлечения сложных признаков.
- Деревья принятия решений. Каждый узел представляет условие на признаки, а каждый лист — классификацию. Этот алгоритм позволяет легко интерпретировать результаты и может обрабатывать как числовые, так и категориальные признаки.
- Случайный лес. Случайный лес — это некая совокупность деревьев принятия решений. Он состоит из нескольких деревьев, каждое из которых обучается на различных подмножествах данных и признаков. Затем результаты всех деревьев объединяются для получения итоговой классификации. Случайный лес обладает хорошей устойчивостью к переобучению и способен обрабатывать большие объемы данных.
- Опорные векторы. Метод опорных векторов основан на построении гиперплоскости, которая разделяет данные на 2 класса. При этом ищется оптимальная гиперплоскость, максимизирующая разделение между этими 2-мя классами. Метод опорных векторов может обрабатывать и линейно разделимые данные и данные с нелинейными зависимостями.
Выбор алгоритма машинного обучения зависит от многих факторов — размера и типа данных, их доступности, требований к точности и скорости обнаружения фишинга и др. Весьма часто применяется комбинация сразу нескольких алгоритмов классификации – это может повысить эффективность обнаружения фишинга.
Следует помнить, что фишеры постоянно адаптируются и разрабатывают новые методы обмана. Именно поэтому обучение должно быть непрерывным, а алгоритмы классификации оптимизированы, чтобы обнаруживать новые виды фишинга с высокой точностью и минимальным количеством ложных срабатываний.
Автор: Попов Алексей Юрьевич, Эксперт-преподаватель Академии Информационных Систем, автор методик по управлению проектами, бизнес-тренер.


