21 января

Политика проектирования промптов и ограничений для корпоративных ассистентов

В современных условиях массового внедрения корпоративных ИИ-ассистентов (причем зачастую не как отдельной системы, а как надстройки в уже привычные нам продукты) роль ИБ-специалистов смещается от простых «запретов» или «разрешений» чего-либо к созданию методологий безопасного проектирования, что в мировой практике называется Secure Prompt Engineering. В этой статье я разберу, как построить политику ограничений, которая защитит компанию от несанкционированных действий нейросети и потенциальных утечек данных.

1. Почему это важно?

Проблема небезопасной работы корпоративных ассистентов, а конкретно их работа с нашими запросами, возникла не на пустом месте. То, насколько важно регулировать промпты и привилегии ассистентов, подчеркивается в актуальном рейтинге OWASP Top 10 for LLM Applications 2025 года. И, согласно нему, ключевыми рисками остаются:

LLM01:2025 Prompt Injection — инъекция злонамеренного содержимого в пользовательские запросы, которое изменяет поведение модели;
LLM02:2025 Sensitive Information Disclosure — случайное раскрытие (также подведение к нему) коммерческой тайны или персональных данных в ответах;
LLM06:2025 Excessive Agency — предоставление ИИ избыточных прав на выполнение действий в корпоративных системах;
LLM07:2025 System Prompt Leakage — кража внутренних инструкций ассистента, раскрывающих бизнес-логику.

И в данном случае это говорит не о том, что сами по себе корпоративные ИИ-ассистенты опасны, а о том, что нужно осознавать риски при недостаточно ответственном подходе к разработке таковых. Данная статья действительно поможет на практике, особенно тем, кому еще только предстоит столкнуться с составлением политики проектирования промптов и ограничений.

2. Виды пользовательских запросов и когда их использовать

Проектирование промптов — это не только о том, как правильно формулировать запросы, но и, в первую очередь, о понимании того, как структура пользовательского ввода влияет на ответ модели. Понимание — ключ к построению надежного фундамента знаний.

Ниже представлена таблица, дополненная расширенной информацией, с наиболее распространенными типами промптов:

Тип промпта	Описание	Базовый пример	Когда использовать	Типичная ошибка при работе
Zero-shot	Четко сформулированная задача, без примеров	«Напиши описание к функции распознавания речи этого устройства»	Простые, общие задачи, где модель имеет высокую точность	Слишком расплывчатые или общие формулировки: “Обоснуй вот это”
One-shot	Один пример, который устанавливает формат вывода или тон общения	«Перенеси поля из таксономии продукта №1 в продукт №2: object.name => name.obj. subject.name =>»	Когда формат вывода или тон имеют значение, но примеров решения задачи мало	Неудачи в четком разделении примера от самой задачи
Few-shot	Несколько примеров используются для обучения определенному шаблону или поведению	«Сократи эти замечания к продукту… [5 примеров]»	Обучение тону, рассуждениям, классификации или формату вывода	Использование непоследовательных или слишком сложных примеров
Chain-of-thought	Просьба к модели рассуждать шаг за шагом	«Давай решим это шаг за шагом. Во-первых…»	Математика, логика, решения, устранение неполадок, анализ безопасности	Пропуск шагов, переход сразу к ответу
Role-based	Присваивает модели персону, контекст или поведенческую структуру	«Представь, что ты сотрудник из отдела АБВ. Напиши, какую пользу он принесет тебе в работе»	Задачи, требующие контроля тона, экспертизы в области или имитации перспективы	Недостаточно точно сформулировано, как роль должна влиять на поведение
Context-rich	Включает предысторию (например, отчеты, документы) для краткого содержания или контроля качества	«Ориентируясь на внутренний регламент ИБ-компании ниже, ответь на вопрос, являются ли действия пользователя нарушением политик компании?»	Резюме, анализ длинного текста, рассуждение на основе документов	Дать контекст, но не структурируя его четко
Completion-style	Начинает предложение или структуру, которую ассистент должен закончить	«Отдел продаж сдает отчет каждый…»	Генерация подсказок / направляющих линий, мозговой штурм, шаблонные форматы	Оставлять завершение слишком открытым без подсказок по формату, без понимания, что пользователь хочет увидеть

Рассмотренные типы помогут проще погрузиться в работу с Secure Prompt Engineering.

3. Как безопасно проектировать промпты

Политика безопасного проектирования промптов и ограничений модели все еще находится в стадии развития. И большинство просвещающих материалов на эту тему направлены на защиту только от LLM01: Prompt Injection из рассмотренных ранее рисков.

Однако эта область гораздо шире, и она включает в себя ответственность за безопасность всего цикла «промпт-ответ», включая защиту от неверного использования, утечек и манипуляций.

Но уже сейчас сформулированы ключевые принципы для безопасного проектирования промптов:

Отделять пользовательские вводы от системных инструкций: предотвратите Prompt Injection, четко изолируя пользовательский ввод от внутренних инструкций. Используйте структурированное форматирование промпта или разделители, чтобы отметить, где начинается и заканчивается ввод;
Избегайте перегрузки запросов с избыточным контекстом: длинные или сложные промпты могут привести к неоднозначности. Они также увеличивают риск дрейфа или непреднамеренного поведения в ситуациях с множеством шагов. Необходимо держать их четко сконцентрированными на задаче и решении;
Используйте явное распределение ролей с осторожностью: назначение ролей вроде «вы эксперт по кибербезопасности» может повлиять на поведение моделей. Этот тип составления промптов следует использовать только при необходимости и с четко ограниченными задачами;
Проектирование запросов должно быть stateless (без сохранения состояния), когда это возможно: stateful-промпты (с сохранением состояния) могут накапливать непреднамеренный контекст. Чтобы избежать этого, сбрасывайте контекст сессии, где это уместно, и избегайте переноса ненужной информации между ходами;
Используйте ограничения для управления выходными данными: направляйте ассистента к тому, чтобы он реагировал в фиксированной структуре. Это ограничивает ошибки интерпретации и помогает в дальнейшей валидации или парсинге;
Тестируйте промпты крайних случаев и злонамеренных вариантов: попробуйте вводы, имитирующие попытки инъекций в промпты, неоднозначность или техники социальной инженерии. Корректируйте структуру запросов в зависимости от того, как ассистент отвечает;
Оценивайте промпты при помощи multi-shot-примеров: передача ИИ-ассистенту нескольких примеров может повысить согласованность и снизить вероятность неожиданного поведения. Это особенно полезно для структурированных задач;
Избегайте встраивания чувствительной логики в промпты: системные инструкции не должны раскрывать, как работает ассистент, или включать проприетарную логику. Используйте абстракцию и референцию, а не прямое раскрытие;
Ограничить повторное использование промптов для несвязанных задач: промпты, которые хорошо работают в одном контексте, могут провалиться в другом. Повторное использование без предварительной настройки может привести к ошибкам или открытию новых возможностей для атаки.

4. Как внедрить безопасность промптов в производственной среде

На данный момент не существует однозначного фреймворка, который можно внедрить и все будет работать. Поэтому каждой команде приходится решать проблему с защитой корпоративного ассистента своими методами, используя несколько различных систем и инструментов ради одной цели.

Для тех, кому приходится начать этот процесс сначала, можно ориентироваться на эту таблицу с «маст-хэв»-функционалом, необходимым для обеспечения безопасности проектирования промптов.

Назначение инструментов/систем	Как это повысит безопасность
Валидация и фильтрация пользовательского ввода и промптов	Эти инструменты используются для отбора входных данных до их попадания в модель. Помогают выявлять известные форматы джейлбрейков, конверсионные инструкции или неоднозначные формулировки, способные вызвать неправильное поведение
Мониторинг и логирование промптов	Эти системы позволяют командам ИБ собирать, воспроизводить и проверять активность с промптами
Контроль версионности	Это облегчает отслеживание изменений промптов со временем
Фильтрация ответов и многоступенчатая валидация	Эти системы оценивают результаты моделей после генерации, блокируя опасные ответы или перенаправляя их для пересмотра на основе заранее определенных политик
Многофункциональные системы, предназначенные для Secure Prompt Engineering	Эти системы предоставляют изоляцию контекста, ограниченную память и более жесткие границы промптов, связанные с пользовательскими ролями или типами задач

При этом технические меры защиты все еще развиваются; контроль доступа к ассистенту, логирование и проверка безопасности людьми остаются самыми надежными способами снижения рисков.

Заключение

Создание политики проектирования промптов в корпоративной среде — это не столько творческий процесс, сколько дисциплинированная инженерная работа. Правильно настроенная политика ограничений позволяет использовать мощь генеративного ИИ, минимизируя риски превращения помощника в точку входа для злоумышленника.

Автор: Андрей Жданухин, руководитель L1 GSOC компании «Газинформсервис».

Автор: Газинформсервис

«Газинформсервис» — отечественный разработчик программного обеспечения и оборудования для защиты информационной безопасности и комплексной инженерно-технической охраны.

Комментарии: