Малые языковые модели показывают потенциал в фильтрации фишинговых сайтов, но стабильность остаётся проблемой

Малые языковые модели показывают потенциал в фильтрации фишинговых сайтов, но стабильность остаётся проблемой

Изображение: recraft

В условиях роста числа фишинговых страниц специалисты по информационной безопасности ищут способы быстрой и точной фильтрации вредоносного веб-контента. Недавнее исследование рассматривает возможность применения малых языковых моделей (SLM) для анализа HTML-кода и обнаружения потенциальных угроз без предварительной очистки данных или ручной разметки.

Авторы работы протестировали несколько моделей различных масштабов, проверяя их способность идентифицировать фишинговые сайты по ограниченному набору HTML-фрагментов. Для эксперимента был взят открытый датасет из 10 000 сайтов, классифицированных как безопасные и вредоносные. Из него сформировали сбалансированную выборку из 1000 страниц, которые использовались в основном тестировании.

Каждая страница передавалась моделям в урезанном виде. Сохранялось от 5% до 50% исходного HTML-кода, преимущественно теги, связанные с навигацией, изображениями и метаданными. Это позволило сохранить характерные сигналы обманчивого дизайна и при этом снизить нагрузку на вычислительные ресурсы.

Моделям выдавался единый шаблон запроса. Им нужно было проанализировать структуру HTML, текстовые блоки и ссылки, а затем выдать числовую оценку (от 0 до 10), категорию (фишинг или безопасный) и краткое обоснование. Такой подход позволил оценить не только точность, но и согласованность генерации ответов.

Результаты оказались разноплановыми. Отдельные модели достигали 89% точности, другие — всего 56%. В среднем большая часть протестированных решений уверенно держалась выше 80%. Однако различия в стабильности вывода показали, что даже при высокой точности некоторые модели не могут надёжно воспроизводить ответы в нужном формате.

Отдельный экземпляр продемонстрировал точность в 98% при наличии результата, но часто не возвращал ответы полностью. Из-за этого его нельзя было использовать в реальных условиях. Другие, менее точные, обеспечивали строгую структурированность ответа, что делало их более применимыми для автоматизированных систем.

Наиболее успешными оказались модели среднего размера (10–20 млрд параметров). Их показатели были сопоставимы с предыдущими поколениями LLM, но при этом они обеспечивали баланс между скоростью и точностью. Крупные модели работали над каждой страницей дольше, что снижало их пригодность для потокового анализа. Малые — выдавали результат быстрее, но чаще ошибались.

Артем
Автор: Артем
Представитель редакции CISOCLUB. Пишу новости, дайджесты, добавляю мероприятия и отчеты.
Комментарии: