Зачем обезличивать данные перед обработкой ИИ
Языковая модель работает с тем текстом, который вы ей передаёте: если в промпт попал паспорт клиента или диагноз, эти данные окажутся в контексте запроса, а часто и в логах провайдера. Обезличивание разрывает связь между данными и человеком до того, как информация покидает ваш периметр, поэтому даже при утечке лога или ошибке в промпте раскрыть личность будет нельзя.
Это особенно важно в чувствительных нишах — клиниках, финансах, HR. Обезличенные тексты можно спокойнее использовать для аналитики, дообучения и наполнения базы знаний для RAG, не расширяя круг лиц с доступом к настоящим ПДн.
Как обезличивают данные на практике
Основные приёмы — маскирование (замена части значения звёздочками: +7 *** ** 45), псевдонимизация (замена на условный идентификатор вроде «Клиент №1024») и полное удаление поля. Чтобы находить PII в свободном тексте автоматически, применяют распознавание именованных сущностей — NER, которое размечает имена, телефоны, адреса и номера документов для последующей замены.
В архитектуре ИИ-ассистента обезличивание встраивают как слой перед моделью и как часть защитных фильтров — guardrails, которые не дают чувствительным данным попасть ни в запрос, ни в ответ. При псевдонимизации соответствие «заглушка → реальное значение» хранят отдельно и подставляют обратно только на вашей стороне, когда это действительно нужно бизнес-процессу.
Обезличивание и 152-ФЗ
Российский закон 152-ФЗ «О персональных данных» рассматривает обезличивание как один из способов снизить регуляторную нагрузку: корректно обезличенные данные проще и безопаснее обрабатывать и хранить. При этом важно понимать, что псевдонимизация с сохранением ключа сопоставления — это всё ещё персональные данные, и на них требования закона распространяются.
Поэтому для корпоративного бота обезличивание проектируют вместе с остальными мерами безопасности: разграничением доступа, хранением данных в РФ и минимизацией того, что вообще передаётся модели. Подробнее о том, как безопасно давать ИИ доступ к данным, мы разбираем на отдельной странице.
PapAI Soft встраивает обезличивание PII и хранение данных в РФ прямо в архитектуру бота — обсудим ваш сценарий при разработке ИИ-ассистента.
Связанные термины
- NER — распознаёт имена, телефоны и адреса в тексте, чтобы автоматически найти PII для маскирования
- Guardrails — защитные фильтры не дают персональным данным попасть в запрос или ответ модели
- RAG — базу знаний обезличивают перед индексацией, чтобы ИИ отвечал без доступа к настоящим ПДн
- Обезличивание данных — псевдонимизация с ключом сопоставления остаётся персональными данными по 152-ФЗ
Где применяется
Нужен ИИ-ассистент, который обрабатывает данные клиентов по 152-ФЗ? Обсудим ваш проект.
Связаться с нами