Политика проектирования промптов и ограничений для корпоративных ассистентов

Политика проектирования промптов и ограничений для корпоративных ассистентов

В современных условиях массового внедрения корпоративных ИИ-ассистентов (причем зачастую не как отдельной системы, а как надстройки в уже привычные нам продукты) роль ИБ-специалистов смещается от простых «запретов» или «разрешений» чего-либо к созданию методологий безопасного проектирования, что в мировой практике называется Secure Prompt Engineering. В этой статье я разберу, как построить политику ограничений, которая защитит компанию от несанкционированных действий нейросети и потенциальных утечек данных.

1. Почему это важно?

Проблема небезопасной работы корпоративных ассистентов, а конкретно их работа с нашими запросами, возникла не на пустом месте. То, насколько важно регулировать промпты и привилегии ассистентов, подчеркивается в актуальном рейтинге OWASP Top 10 for LLM Applications 2025 года. И, согласно нему, ключевыми рисками остаются:

  • LLM01:2025 Prompt Injection — инъекция злонамеренного содержимого в пользовательские запросы, которое изменяет поведение модели;
  • LLM02:2025 Sensitive Information Disclosure — случайное раскрытие (также подведение к нему) коммерческой тайны или персональных данных в ответах;
  • LLM06:2025 Excessive Agency — предоставление ИИ избыточных прав на выполнение действий в корпоративных системах;
  • LLM07:2025 System Prompt Leakage — кража внутренних инструкций ассистента, раскрывающих бизнес-логику.

И в данном случае это говорит не о том, что сами по себе корпоративные ИИ-ассистенты опасны, а о том, что нужно осознавать риски при недостаточно ответственном подходе к разработке таковых. Данная статья действительно поможет на практике, особенно тем, кому еще только предстоит столкнуться с составлением политики проектирования промптов и ограничений.

2. Виды пользовательских запросов и когда их использовать

Проектирование промптов — это не только о том, как правильно формулировать запросы, но и, в первую очередь, о понимании того, как структура пользовательского ввода влияет на ответ модели. Понимание — ключ к построению надежного фундамента знаний.

Ниже представлена таблица, дополненная расширенной информацией, с наиболее распространенными типами промптов:

Тип промптаОписаниеБазовый примерКогда использоватьТипичная ошибка при работе
Zero-shotЧетко сформулированная задача, без примеров«Напиши описание к функции распознавания речи этого устройства»Простые, общие задачи, где модель имеет высокую точностьСлишком расплывчатые или общие формулировки: “Обоснуй вот это”
One-shotОдин пример, который устанавливает формат вывода или тон общения«Перенеси поля из таксономии продукта №1 в продукт №2: object.name => name.obj. subject.name =>»Когда формат вывода или тон имеют значение, но примеров решения задачи малоНеудачи в четком разделении примера от самой задачи
Few-shotНесколько примеров используются для обучения определенному шаблону или поведению«Сократи эти замечания к продукту… [5 примеров]»Обучение тону, рассуждениям, классификации или формату выводаИспользование непоследовательных или слишком сложных примеров
Chain-of-thoughtПросьба к модели рассуждать шаг за шагом«Давай решим это шаг за шагом. Во-первых…»Математика, логика, решения, устранение неполадок, анализ безопасностиПропуск шагов, переход сразу к ответу
Role-basedПрисваивает модели персону, контекст или поведенческую структуру«Представь, что ты сотрудник из отдела АБВ. Напиши, какую пользу он принесет тебе в работе»Задачи, требующие контроля тона, экспертизы в области или имитации перспективыНедостаточно точно сформулировано, как роль должна влиять на поведение
Context-richВключает предысторию (например, отчеты, документы) для краткого содержания или контроля качества«Ориентируясь на внутренний регламент ИБ-компании ниже, ответь на вопрос, являются ли действия пользователя нарушением политик компании?»Резюме, анализ длинного текста, рассуждение на основе документовДать контекст, но не структурируя его четко
Completion-styleНачинает предложение или структуру, которую ассистент должен закончить«Отдел продаж сдает отчет каждый…»Генерация подсказок / направляющих линий, мозговой штурм, шаблонные форматыОставлять завершение слишком открытым без подсказок по формату, без понимания, что пользователь хочет увидеть

Рассмотренные типы помогут проще погрузиться в работу с Secure Prompt Engineering.

3. Как безопасно проектировать промпты

Политика безопасного проектирования промптов и ограничений модели все еще находится в стадии развития. И большинство просвещающих материалов на эту тему направлены на защиту только от LLM01: Prompt Injection из рассмотренных ранее рисков.

Однако эта область гораздо шире, и она включает в себя ответственность за безопасность всего цикла «промпт-ответ», включая защиту от неверного использования, утечек и манипуляций.

Но уже сейчас сформулированы ключевые принципы для безопасного проектирования промптов:

  • Отделять пользовательские вводы от системных инструкций: предотвратите Prompt Injection, четко изолируя пользовательский ввод от внутренних инструкций. Используйте структурированное форматирование промпта или разделители, чтобы отметить, где начинается и заканчивается ввод;
  • Избегайте перегрузки запросов с избыточным контекстом: длинные или сложные промпты могут привести к неоднозначности. Они также увеличивают риск дрейфа или непреднамеренного поведения в ситуациях с множеством шагов. Необходимо держать их четко сконцентрированными на задаче и решении;
  • Используйте явное распределение ролей с осторожностью: назначение ролей вроде «вы эксперт по кибербезопасности» может повлиять на поведение моделей. Этот тип составления промптов следует использовать только при необходимости и с четко ограниченными задачами;
  • Проектирование запросов должно быть stateless (без сохранения состояния), когда это возможно: stateful-промпты (с сохранением состояния) могут накапливать непреднамеренный контекст. Чтобы избежать этого, сбрасывайте контекст сессии, где это уместно, и избегайте переноса ненужной информации между ходами;
  • Используйте ограничения для управления выходными данными: направляйте ассистента к тому, чтобы он реагировал в фиксированной структуре. Это ограничивает ошибки интерпретации и помогает в дальнейшей валидации или парсинге;
  • Тестируйте промпты крайних случаев и злонамеренных вариантов: попробуйте вводы, имитирующие попытки инъекций в промпты, неоднозначность или техники социальной инженерии. Корректируйте структуру запросов в зависимости от того, как ассистент отвечает;
  • Оценивайте промпты при помощи multi-shot-примеров: передача ИИ-ассистенту нескольких примеров может повысить согласованность и снизить вероятность неожиданного поведения. Это особенно полезно для структурированных задач;
  • Избегайте встраивания чувствительной логики в промпты: системные инструкции не должны раскрывать, как работает ассистент, или включать проприетарную логику. Используйте абстракцию и референцию, а не прямое раскрытие;
  • Ограничить повторное использование промптов для несвязанных задач: промпты, которые хорошо работают в одном контексте, могут провалиться в другом. Повторное использование без предварительной настройки может привести к ошибкам или открытию новых возможностей для атаки.

4. Как внедрить безопасность промптов в производственной среде

На данный момент не существует однозначного фреймворка, который можно внедрить и все будет работать. Поэтому каждой команде приходится решать проблему с защитой корпоративного ассистента своими методами, используя несколько различных систем и инструментов ради одной цели.

Для тех, кому приходится начать этот процесс сначала, можно ориентироваться на эту таблицу с «маст-хэв»-функционалом, необходимым для обеспечения безопасности проектирования промптов.

Назначение инструментов/системКак это повысит безопасность
Валидация и фильтрация пользовательского ввода и промптовЭти инструменты используются для отбора входных данных до их попадания в модель. Помогают выявлять известные форматы джейлбрейков, конверсионные инструкции или неоднозначные формулировки, способные вызвать неправильное поведение
Мониторинг и логирование промптовЭти системы позволяют командам ИБ собирать, воспроизводить и проверять активность с промптами
Контроль версионностиЭто облегчает отслеживание изменений промптов со временем
Фильтрация ответов и многоступенчатая валидацияЭти системы оценивают результаты моделей после генерации, блокируя опасные ответы или перенаправляя их для пересмотра на основе заранее определенных политик
Многофункциональные системы, предназначенные для Secure Prompt EngineeringЭти системы предоставляют изоляцию контекста, ограниченную память и более жесткие границы промптов, связанные с пользовательскими ролями или типами задач

При этом технические меры защиты все еще развиваются; контроль доступа к ассистенту, логирование и проверка безопасности людьми остаются самыми надежными способами снижения рисков.

Заключение

Создание политики проектирования промптов в корпоративной среде — это не столько творческий процесс, сколько дисциплинированная инженерная работа. Правильно настроенная политика ограничений позволяет использовать мощь генеративного ИИ, минимизируя риски превращения помощника в точку входа для злоумышленника.

Автор: Андрей Жданухин, руководитель L1 GSOC компании «Газинформсервис».

Газинформсервис
Автор: Газинформсервис
«Газинформсервис» — отечественный разработчик программного обеспечения и оборудования для защиты информационной безопасности и комплексной инженерно-технической охраны.
Комментарии: