В OpenAI решили бороться с вредной привычкой, которая возникает у людей при взаимодействии с ИИ

В OpenAI решили бороться с вредной привычкой, которая возникает у людей при взаимодействии с ИИ

Изображение: Jonathan Kemper (unsplash)

OpenAI представила модель Privacy Filter, которая автоматически находит и скрывает персональные данные в тексте перед их отправкой в систему ИИ. Инструмент реагирует на распространённую привычку пользователей вставлять в запросы контакты, финансовые реквизиты и прочие чувствительные сведения без оглядки на последствия. Новая модель стала частью общей стратегии по усилению защиты данных в системах ИИ.

Пользователи регулярно скармливают нейросетям куски личной информации. В компании обратили внимание на риск утечек и несанкционированного использования этих сведений при обработке запросов на внешних серверах разработчиков.

Privacy Filter разбирает текст с учётом контекста и умеет распознавать широкий набор персональных данных даже в неструктурированной форме. Алгоритм отделяет публичную информацию от сведений, относящихся к частным лицам. Подобная точность помогает корректно определить куски текста под маскировку без перегибов.

Модель распределяет чувствительные данные по 8 категориям. В перечень попадают имена, адреса, электронная почта, номера телефонов, ссылки, даты, платёжные реквизиты и секреты в виде паролей и API-ключей. Подобная разбивка упрощает встраивание инструмента в разные рабочие процессы с текстом.

Локальная обработка получила в разработке отдельное место. Privacy Filter компактна настолько, что спокойно запускается на устройстве самого пользователя. Очистка данных происходит до отправки запроса на сервер, а риск утечки снижается до минимальных значений.

С технической стороны система опирается на метод классификации токенов и прогоняет текст за один проход. Поддержка объёмов до 128000 токенов позволяет работать с длинными документами целиком. Общий размер модели составляет около 1,5 миллиарда параметров, при этом активная часть заметно меньше, а обработка идёт быстро.

В тестах на наборе PII-Masking-300k модель выдала высокую точность распознавания. Показатель F1 достиг 96%, точность составила 94,04%, а полнота вышла на 98,04%. На обновлённой версии датасета результат вырос до 97,43%.

Разработчики заложили возможность дообучения модели под конкретные задачи. Эффективность в отдельных отраслях при подобной настройке заметно подрастает. Ограничения тоже остались на месте. Система порой спотыкается на редких идентификаторах или ошибается при недостатке контекста, что хорошо видно на коротких текстах.

В OpenAI предупредили о границах применимости автоматической обработки. В юридической практике, медицине и финансах использование Privacy Filter без дополнительной проверки человеком не рекомендуется. Ручной контроль и адаптация под конкретные задачи остаются обязательной частью работы с подобными инструментами в чувствительных сферах.

Артем
Автор: Артем
Представитель редакции CISOCLUB. Пишу новости, дайджесты, добавляю мероприятия и отчеты.
Комментарии: