The International AI Safety Report: несмотря на развитие технологий, злоумышленники продолжают находить новые способы обмануть ИИ

The International AI Safety Report: несмотря на развитие технологий, злоумышленники продолжают находить новые способы обмануть ИИ

Изображение: recraft

Международная группа исследователей представила отчёт, посвящённый текущему состоянию безопасности в сфере искусственного интеллекта. Документ фиксирует тенденцию, что развитие ИИ ускоряется, тогда как методы защиты от злоупотреблений и манипуляций не успевают адаптироваться к скорости изменений. Руководители, отвечающие за управление рисками, вынуждены принимать решения при отсутствии стабильных критериев оценки угроз.

Согласно отчёту, разработчики современных ИИ-систем стремятся строить комплексные контуры защиты, охватывающие весь жизненный цикл моделей — от этапа обучения до эксплуатации. Для этого используются обучающие фильтры, инструменты для отслеживания отклонений, системы маркировки данных и механизмы контроля за результатами генерации. Предусмотрены инструменты, помогающие модели отклонять потенциально вредоносные команды, а также фильтры, анализирующие входящие и исходящие запросы в процессе работы. Дополнительно применяются водяные знаки и теги, которые позволяют отслеживать происхождение контента и упрощают анализ инцидентов.

Одной из иллюстраций отчёта стала «диаграмма швейцарского сыра», символизирующая многослойный подход к защите. Каждый уровень ограничен в своих возможностях, но при сочетании с другими способен компенсировать уязвимости. Вместе с тем испытания показали, что последовательные атаки позволяют обходить примерно половину уровней защиты. Это подтверждает недостаточность единичных барьеров и подчеркивает необходимость комплексного подхода.

Отдельное внимание в документе уделяется улучшению обучения моделей. Один из методов — фильтрация обучающих данных с целью исключения материалов, содержащих призывы к насилию или описания работы с оружием. Такая мера может снизить вероятность генерации особенно опасного контента. Однако при работе с массивными наборами данных этот метод теряет эффективность, поскольку не может полностью исключить менее сложные, но всё ещё нежелательные элементы — например, оскорбительные высказывания.

Широко применяемый метод — обучение с подкреплением на основе человеческой обратной связи. Модели адаптируются к предпочтениям людей, но человеческий фактор остаётся источником ошибок и противоречий. Пока сохраняется неоднородность оценок и суждений, нельзя говорить о надёжности такого подхода как единственного механизма защиты.

Артем
Автор: Артем
Представитель редакции CISOCLUB. Пишу новости, дайджесты, добавляю мероприятия и отчеты.
Комментарии: