Microsoft обнаружила атаку на ИИ, позволяющую обойти этические ограничения LLM

Microsoft обнаружила атаку на ИИ, позволяющую обойти этические ограничения LLM

Изображение: Zac Wolff (unsplash)

Компания Microsoft сообщила об обнаружении нового типа атак на современные технологии генеративного искусственного интеллекта. Специалисты по информационной безопасности американского гиганта назвали эту атаку Skeleton Key.

По словам аналитиков Microsoft, при организации такой кибератаки злоумышленники и многие простые пользователи получают возможность обойти любые этические ограничения, в том числе и связанные с безопасностью, которые были установлены в технологиях искусственного интеллекта и чат-ботах их разработчиками.

Эксперты также указывают на то, что атака такого типа работает лишь по той причине, что искусственному интеллекту можно предоставить контекст, который позволяет получить доступ к неправомерному, вредоносному и запрещённому контенту.

В Microsoft уточнили, что в качестве яркого примера можно рассматривать ситуацию, когда пользователь отправляет запрос нейросети на предоставление инструкции по разработке вредоносного софта, способного вывести из строя, например, очистную станцию.

В обычных условиях ни одна популярная большая языковая модель после получения подобного запроса никакие подробные сведения предоставлять не будет. Но, как отмечают в корпорации Microsoft, если пользователь немного изменит свой запрос и укажет, что информация ему нужна для получения образовательного материала ля исследования с участием различных экспертов и учёных, которые обучены этике и безопасности, а также добавит в свой запрос дисклеймер, то с некоторой долей вероятности практически все большие языковые модели предоставят запрашиваемый контент, даже если такая информация напрямую будет нарушать законодательство многих стран мира.

В Microsoft отмечают, что основным условием успешности проведения таких атак против больших языковых моделей является то, что пользователь должен убедить искусственный интеллект в том, что вредоносный запрос, который он отправляет, является на 100% нормальным, а вся информация, которая будет предоставлена по этому запросу со стороны генеративного ИИ, будет использоваться только в исследовательских или образовательных целях.

Артем
Автор: Артем
Представитель редакции CISOCLUB. Пишу новости, дайджесты, добавляю мероприятия и отчеты.
Комментарии: