Обезличивание данных (PII, анонимизация)

Когда ИИ-ассистент обрабатывает переписку с клиентами или медицинские карты, в текст неизбежно попадают персональные данные. Обезличивание — это процесс, при котором такие данные удаляют или заменяют на заглушки перед тем, как их увидит языковая модель, лог или внешний сервис. Для бизнеса это способ одновременно пользоваться возможностями ИИ и не нарушать закон, снижая риск того, что чувствительная информация утечёт через промпт, историю диалога или обучающую выборку.

Зачем обезличивать данные перед обработкой ИИ

Языковая модель работает с тем текстом, который вы ей передаёте: если в промпт попал паспорт клиента или диагноз, эти данные окажутся в контексте запроса, а часто и в логах провайдера. Обезличивание разрывает связь между данными и человеком до того, как информация покидает ваш периметр, поэтому даже при утечке лога или ошибке в промпте раскрыть личность будет нельзя.

Это особенно важно в чувствительных нишах — клиниках, финансах, HR. Обезличенные тексты можно спокойнее использовать для аналитики, дообучения и наполнения базы знаний для RAG, не расширяя круг лиц с доступом к настоящим ПДн.

Как обезличивают данные на практике

Основные приёмы — маскирование (замена части значения звёздочками: +7 *** ** 45), псевдонимизация (замена на условный идентификатор вроде «Клиент №1024») и полное удаление поля. Чтобы находить PII в свободном тексте автоматически, применяют распознавание именованных сущностей — NER, которое размечает имена, телефоны, адреса и номера документов для последующей замены.

В архитектуре ИИ-ассистента обезличивание встраивают как слой перед моделью и как часть защитных фильтров — guardrails, которые не дают чувствительным данным попасть ни в запрос, ни в ответ. При псевдонимизации соответствие «заглушка → реальное значение» хранят отдельно и подставляют обратно только на вашей стороне, когда это действительно нужно бизнес-процессу.

Обезличивание и 152-ФЗ

Российский закон 152-ФЗ «О персональных данных» рассматривает обезличивание как один из способов снизить регуляторную нагрузку: корректно обезличенные данные проще и безопаснее обрабатывать и хранить. При этом важно понимать, что псевдонимизация с сохранением ключа сопоставления — это всё ещё персональные данные, и на них требования закона распространяются.

Поэтому для корпоративного бота обезличивание проектируют вместе с остальными мерами безопасности: разграничением доступа, хранением данных в РФ и минимизацией того, что вообще передаётся модели. Подробнее о том, как безопасно давать ИИ доступ к данным, мы разбираем на отдельной странице.

PapAI Soft встраивает обезличивание PII и хранение данных в РФ прямо в архитектуру бота — обсудим ваш сценарий при разработке ИИ-ассистента.

Связанные термины

  • NER — распознаёт имена, телефоны и адреса в тексте, чтобы автоматически найти PII для маскирования
  • Guardrails — защитные фильтры не дают персональным данным попасть в запрос или ответ модели
  • RAG — базу знаний обезличивают перед индексацией, чтобы ИИ отвечал без доступа к настоящим ПДн
  • Обезличивание данных — псевдонимизация с ключом сопоставления остаётся персональными данными по 152-ФЗ

Где применяется

ИИ-ассистент и 152-ФЗ → Безопасно ли давать ИИ доступ к данным →

Нужен ИИ-ассистент, который обрабатывает данные клиентов по 152-ФЗ? Обсудим ваш проект.

Связаться с нами