В OpenAI решили бороться с вредной привычкой, которая возникает у людей при взаимодействии с ИИ

Изображение: Jonathan Kemper (unsplash)
OpenAI представила модель Privacy Filter, которая автоматически находит и скрывает персональные данные в тексте перед их отправкой в систему ИИ. Инструмент реагирует на распространённую привычку пользователей вставлять в запросы контакты, финансовые реквизиты и прочие чувствительные сведения без оглядки на последствия. Новая модель стала частью общей стратегии по усилению защиты данных в системах ИИ.
Пользователи регулярно скармливают нейросетям куски личной информации. В компании обратили внимание на риск утечек и несанкционированного использования этих сведений при обработке запросов на внешних серверах разработчиков.
Privacy Filter разбирает текст с учётом контекста и умеет распознавать широкий набор персональных данных даже в неструктурированной форме. Алгоритм отделяет публичную информацию от сведений, относящихся к частным лицам. Подобная точность помогает корректно определить куски текста под маскировку без перегибов.
Модель распределяет чувствительные данные по 8 категориям. В перечень попадают имена, адреса, электронная почта, номера телефонов, ссылки, даты, платёжные реквизиты и секреты в виде паролей и API-ключей. Подобная разбивка упрощает встраивание инструмента в разные рабочие процессы с текстом.
Локальная обработка получила в разработке отдельное место. Privacy Filter компактна настолько, что спокойно запускается на устройстве самого пользователя. Очистка данных происходит до отправки запроса на сервер, а риск утечки снижается до минимальных значений.
С технической стороны система опирается на метод классификации токенов и прогоняет текст за один проход. Поддержка объёмов до 128000 токенов позволяет работать с длинными документами целиком. Общий размер модели составляет около 1,5 миллиарда параметров, при этом активная часть заметно меньше, а обработка идёт быстро.
В тестах на наборе PII-Masking-300k модель выдала высокую точность распознавания. Показатель F1 достиг 96%, точность составила 94,04%, а полнота вышла на 98,04%. На обновлённой версии датасета результат вырос до 97,43%.
Разработчики заложили возможность дообучения модели под конкретные задачи. Эффективность в отдельных отраслях при подобной настройке заметно подрастает. Ограничения тоже остались на месте. Система порой спотыкается на редких идентификаторах или ошибается при недостатке контекста, что хорошо видно на коротких текстах.
В OpenAI предупредили о границах применимости автоматической обработки. В юридической практике, медицине и финансах использование Privacy Filter без дополнительной проверки человеком не рекомендуется. Ручной контроль и адаптация под конкретные задачи остаются обязательной частью работы с подобными инструментами в чувствительных сферах.


