Распознавание именованных сущностей (NER)

NER (Named Entity Recognition) — задача автоматического извлечения из текста конкретных объектов: имён людей, организаций, дат, сумм, адресов, номеров документов. В контексте чат-ботов NER позволяет получать структурированные данные из свободного текста пользователя без анкет и форм.

Что распознаёт NER

Стандартные типы сущностей для русского языка:

  • PER — персона: «Иван Петров», «директора Смирнова»
  • ORG — организация: «ООО Ромашка», «Сбербанк»
  • LOC — место: «Санкт-Петербург», «ул. Ленсовета, 76»
  • DATE / TIME — дата и время: «в пятницу», «15 июня в 14:30»
  • MONEY — суммы: «5 000 рублей», «50 тыс.»
  • PHONE — телефоны: «+7 921 123-45-67»

Как NER реализуется в боте

Два подхода. Первый — специализированная NER-модель (DeepPavlov, natasha, spaCy с русской моделью): работает быстро (5–20 мс), не требует вызова LLM API, хорошо справляется со стандартными типами сущностей. Второй — LLM с structured output: модель возвращает JSON с извлечёнными сущностями. Медленнее и дороже, но лучше справляется с нестандартными или контекстно-зависимыми сущностями.

В HR-боте NER извлекает из текста резюме: ФИО, стаж, навыки, предыдущие должности — и передаёт их в AmoCRM как поля контакта. 0 ручного ввода рекрутером. Читать кейс.

NER для нормализации дат и сумм

Пользователи называют даты по-разному: «послезавтра», «в следующий понедельник», «15-го». NER с нормализацией переводит все форматы в стандартный ISO: 2026-05-27. Аналогично для сумм: «полтора миллиона» → 1 500 000. Это критично для передачи данных в CRM и booking-системы, которые принимают только стандартные форматы.

Связанные термины

  • NLU — NER как часть задачи понимания текста
  • Чат-бот — применение NER для сбора данных в диалоге
  • CRM-интеграция — куда NER передаёт извлечённые данные
  • LLM — языковая модель как NER-движок с structured output

Хотите настроить автоматическое извлечение данных? Обсудим задачу.

Связаться с нами