Что распознаёт NER
Стандартные типы сущностей для русского языка:
- PER — персона: «Иван Петров», «директора Смирнова»
- ORG — организация: «ООО Ромашка», «Сбербанк»
- LOC — место: «Санкт-Петербург», «ул. Ленсовета, 76»
- DATE / TIME — дата и время: «в пятницу», «15 июня в 14:30»
- MONEY — суммы: «5 000 рублей», «50 тыс.»
- PHONE — телефоны: «+7 921 123-45-67»
Как NER реализуется в боте
Два подхода. Первый — специализированная NER-модель (DeepPavlov, natasha, spaCy с русской моделью): работает быстро (5–20 мс), не требует вызова LLM API, хорошо справляется со стандартными типами сущностей. Второй — LLM с structured output: модель возвращает JSON с извлечёнными сущностями. Медленнее и дороже, но лучше справляется с нестандартными или контекстно-зависимыми сущностями.
В HR-боте NER извлекает из текста резюме: ФИО, стаж, навыки, предыдущие должности — и передаёт их в AmoCRM как поля контакта. 0 ручного ввода рекрутером. Читать кейс.
NER для нормализации дат и сумм
Пользователи называют даты по-разному: «послезавтра», «в следующий понедельник», «15-го». NER с нормализацией переводит все форматы в стандартный ISO: 2026-05-27. Аналогично для сумм: «полтора миллиона» → 1 500 000. Это критично для передачи данных в CRM и booking-системы, которые принимают только стандартные форматы.
Связанные термины
- NLU — NER как часть задачи понимания текста
- Чат-бот — применение NER для сбора данных в диалоге
- CRM-интеграция — куда NER передаёт извлечённые данные
- LLM — языковая модель как NER-движок с structured output
Хотите настроить автоматическое извлечение данных? Обсудим задачу.
Связаться с нами