Технический стек: ASR → NLU → TTS
ASR (Automatic Speech Recognition) — преобразует входящий аудиопоток в текст в режиме реального времени. Современные модели (Whisper от OpenAI, SaluteSpeech от Сбера, Yandex SpeechKit) дают WER (Word Error Rate) 5–8% на чистом русском языке. Задержка: 300–700 мс.
NLU — определяет намерение из расшифрованного текста и извлекает сущности (дату, имя, номер полиса).
TTS (Text-to-Speech) — синтезирует голосовой ответ. Современные нейросетевые TTS (Silero, YandexTTS) дают естественное звучание без роботизированных артефактов. Задержка генерации: 200–400 мс.
Подключение к телефонии
Голосовой бот подключается к АТС через SIP-транк или через Telephony API (Манго Телеком, Beeline, МТТ). При входящем звонке АТС перенаправляет вызов на WebSocket-сервер бота, который обрабатывает аудиопоток. При исходящем звонке бот инициирует вызов через API оператора, передавая номер и сценарий.
Голосовой бот для медицинской регистратуры принимает 85% входящих звонков без участия оператора. Среднее время звонка: 2 минуты 10 секунд против 6 минут у оператора. Подробнее о PapAI MedScale.
Ограничения и сценарии применения
Голосовой бот хорошо справляется с линейными сценариями: подтверждение записи, уточнение адреса доставки, информирование о статусе заказа, первичный сбор данных. При сложных возражениях, жалобах или нестандартных запросах бот переводит звонок на живого оператора. Стоимость разработки голосового бота — от 350 000 ₽, срок — 4–6 недель.
Связанные термины
- NLU — понимание речи после расшифровки
- Омниканальность — голос как один из каналов единого бота
- Чат-бот — текстовая альтернатива голосовому боту
- API-интеграция — подключение к телефонному оператору
Хотите внедрить голосового бота? Обсудим задачу.
Связаться с нами