Политика проектирования промптов и ограничений для корпоративных ассистентов

В современных условиях массового внедрения корпоративных ИИ-ассистентов (причем зачастую не как отдельной системы, а как надстройки в уже привычные нам продукты) роль ИБ-специалистов смещается от простых «запретов» или «разрешений» чего-либо к созданию методологий безопасного проектирования, что в мировой практике называется Secure Prompt Engineering. В этой статье я разберу, как построить политику ограничений, которая защитит компанию от несанкционированных действий нейросети и потенциальных утечек данных.
1. Почему это важно?
Проблема небезопасной работы корпоративных ассистентов, а конкретно их работа с нашими запросами, возникла не на пустом месте. То, насколько важно регулировать промпты и привилегии ассистентов, подчеркивается в актуальном рейтинге OWASP Top 10 for LLM Applications 2025 года. И, согласно нему, ключевыми рисками остаются:
- LLM01:2025 Prompt Injection — инъекция злонамеренного содержимого в пользовательские запросы, которое изменяет поведение модели;
- LLM02:2025 Sensitive Information Disclosure — случайное раскрытие (также подведение к нему) коммерческой тайны или персональных данных в ответах;
- LLM06:2025 Excessive Agency — предоставление ИИ избыточных прав на выполнение действий в корпоративных системах;
- LLM07:2025 System Prompt Leakage — кража внутренних инструкций ассистента, раскрывающих бизнес-логику.
И в данном случае это говорит не о том, что сами по себе корпоративные ИИ-ассистенты опасны, а о том, что нужно осознавать риски при недостаточно ответственном подходе к разработке таковых. Данная статья действительно поможет на практике, особенно тем, кому еще только предстоит столкнуться с составлением политики проектирования промптов и ограничений.
2. Виды пользовательских запросов и когда их использовать
Проектирование промптов — это не только о том, как правильно формулировать запросы, но и, в первую очередь, о понимании того, как структура пользовательского ввода влияет на ответ модели. Понимание — ключ к построению надежного фундамента знаний.
Ниже представлена таблица, дополненная расширенной информацией, с наиболее распространенными типами промптов:
| Тип промпта | Описание | Базовый пример | Когда использовать | Типичная ошибка при работе |
| Zero-shot | Четко сформулированная задача, без примеров | «Напиши описание к функции распознавания речи этого устройства» | Простые, общие задачи, где модель имеет высокую точность | Слишком расплывчатые или общие формулировки: “Обоснуй вот это” |
| One-shot | Один пример, который устанавливает формат вывода или тон общения | «Перенеси поля из таксономии продукта №1 в продукт №2: object.name => name.obj. subject.name =>» | Когда формат вывода или тон имеют значение, но примеров решения задачи мало | Неудачи в четком разделении примера от самой задачи |
| Few-shot | Несколько примеров используются для обучения определенному шаблону или поведению | «Сократи эти замечания к продукту… [5 примеров]» | Обучение тону, рассуждениям, классификации или формату вывода | Использование непоследовательных или слишком сложных примеров |
| Chain-of-thought | Просьба к модели рассуждать шаг за шагом | «Давай решим это шаг за шагом. Во-первых…» | Математика, логика, решения, устранение неполадок, анализ безопасности | Пропуск шагов, переход сразу к ответу |
| Role-based | Присваивает модели персону, контекст или поведенческую структуру | «Представь, что ты сотрудник из отдела АБВ. Напиши, какую пользу он принесет тебе в работе» | Задачи, требующие контроля тона, экспертизы в области или имитации перспективы | Недостаточно точно сформулировано, как роль должна влиять на поведение |
| Context-rich | Включает предысторию (например, отчеты, документы) для краткого содержания или контроля качества | «Ориентируясь на внутренний регламент ИБ-компании ниже, ответь на вопрос, являются ли действия пользователя нарушением политик компании?» | Резюме, анализ длинного текста, рассуждение на основе документов | Дать контекст, но не структурируя его четко |
| Completion-style | Начинает предложение или структуру, которую ассистент должен закончить | «Отдел продаж сдает отчет каждый…» | Генерация подсказок / направляющих линий, мозговой штурм, шаблонные форматы | Оставлять завершение слишком открытым без подсказок по формату, без понимания, что пользователь хочет увидеть |
Рассмотренные типы помогут проще погрузиться в работу с Secure Prompt Engineering.
3. Как безопасно проектировать промпты
Политика безопасного проектирования промптов и ограничений модели все еще находится в стадии развития. И большинство просвещающих материалов на эту тему направлены на защиту только от LLM01: Prompt Injection из рассмотренных ранее рисков.
Однако эта область гораздо шире, и она включает в себя ответственность за безопасность всего цикла «промпт-ответ», включая защиту от неверного использования, утечек и манипуляций.
Но уже сейчас сформулированы ключевые принципы для безопасного проектирования промптов:
- Отделять пользовательские вводы от системных инструкций: предотвратите Prompt Injection, четко изолируя пользовательский ввод от внутренних инструкций. Используйте структурированное форматирование промпта или разделители, чтобы отметить, где начинается и заканчивается ввод;
- Избегайте перегрузки запросов с избыточным контекстом: длинные или сложные промпты могут привести к неоднозначности. Они также увеличивают риск дрейфа или непреднамеренного поведения в ситуациях с множеством шагов. Необходимо держать их четко сконцентрированными на задаче и решении;
- Используйте явное распределение ролей с осторожностью: назначение ролей вроде «вы эксперт по кибербезопасности» может повлиять на поведение моделей. Этот тип составления промптов следует использовать только при необходимости и с четко ограниченными задачами;
- Проектирование запросов должно быть stateless (без сохранения состояния), когда это возможно: stateful-промпты (с сохранением состояния) могут накапливать непреднамеренный контекст. Чтобы избежать этого, сбрасывайте контекст сессии, где это уместно, и избегайте переноса ненужной информации между ходами;
- Используйте ограничения для управления выходными данными: направляйте ассистента к тому, чтобы он реагировал в фиксированной структуре. Это ограничивает ошибки интерпретации и помогает в дальнейшей валидации или парсинге;
- Тестируйте промпты крайних случаев и злонамеренных вариантов: попробуйте вводы, имитирующие попытки инъекций в промпты, неоднозначность или техники социальной инженерии. Корректируйте структуру запросов в зависимости от того, как ассистент отвечает;
- Оценивайте промпты при помощи multi-shot-примеров: передача ИИ-ассистенту нескольких примеров может повысить согласованность и снизить вероятность неожиданного поведения. Это особенно полезно для структурированных задач;
- Избегайте встраивания чувствительной логики в промпты: системные инструкции не должны раскрывать, как работает ассистент, или включать проприетарную логику. Используйте абстракцию и референцию, а не прямое раскрытие;
- Ограничить повторное использование промптов для несвязанных задач: промпты, которые хорошо работают в одном контексте, могут провалиться в другом. Повторное использование без предварительной настройки может привести к ошибкам или открытию новых возможностей для атаки.
4. Как внедрить безопасность промптов в производственной среде
На данный момент не существует однозначного фреймворка, который можно внедрить и все будет работать. Поэтому каждой команде приходится решать проблему с защитой корпоративного ассистента своими методами, используя несколько различных систем и инструментов ради одной цели.
Для тех, кому приходится начать этот процесс сначала, можно ориентироваться на эту таблицу с «маст-хэв»-функционалом, необходимым для обеспечения безопасности проектирования промптов.
| Назначение инструментов/систем | Как это повысит безопасность |
| Валидация и фильтрация пользовательского ввода и промптов | Эти инструменты используются для отбора входных данных до их попадания в модель. Помогают выявлять известные форматы джейлбрейков, конверсионные инструкции или неоднозначные формулировки, способные вызвать неправильное поведение |
| Мониторинг и логирование промптов | Эти системы позволяют командам ИБ собирать, воспроизводить и проверять активность с промптами |
| Контроль версионности | Это облегчает отслеживание изменений промптов со временем |
| Фильтрация ответов и многоступенчатая валидация | Эти системы оценивают результаты моделей после генерации, блокируя опасные ответы или перенаправляя их для пересмотра на основе заранее определенных политик |
| Многофункциональные системы, предназначенные для Secure Prompt Engineering | Эти системы предоставляют изоляцию контекста, ограниченную память и более жесткие границы промптов, связанные с пользовательскими ролями или типами задач |
При этом технические меры защиты все еще развиваются; контроль доступа к ассистенту, логирование и проверка безопасности людьми остаются самыми надежными способами снижения рисков.
Заключение
Создание политики проектирования промптов в корпоративной среде — это не столько творческий процесс, сколько дисциплинированная инженерная работа. Правильно настроенная политика ограничений позволяет использовать мощь генеративного ИИ, минимизируя риски превращения помощника в точку входа для злоумышленника.
Автор: Андрей Жданухин, руководитель L1 GSOC компании «Газинформсервис».

