Технический стек: ASR → NLU → TTS
ASR (Automatic Speech Recognition) — преобразует входящий аудиопоток в текст в режиме реального времени. Современные модели (Whisper от OpenAI, SaluteSpeech от Сбера, Yandex SpeechKit) дают WER (Word Error Rate) 5–8% на чистом русском языке. Задержка: 300–700 мс.
NLU — определяет намерение из расшифрованного текста и извлекает сущности (дату, имя, номер полиса).
TTS (Text-to-Speech) — синтезирует голосовой ответ. Современные нейросетевые TTS (Silero, YandexTTS) дают естественное звучание без роботизированных артефактов. Задержка генерации: 200–400 мс.
Подключение к телефонии
Голосовой бот подключается к АТС через SIP-транк или через Telephony API (Манго Телеком, Beeline, МТТ). При входящем звонке АТС перенаправляет вызов на WebSocket-сервер бота, который обрабатывает аудиопоток. При исходящем звонке бот инициирует вызов через API оператора, передавая номер и сценарий.
Голосовой бот для медицинской регистратуры принимает 85% входящих звонков без участия оператора. Среднее время звонка: 2 минуты 10 секунд против 6 минут у оператора. Подробнее о PapAI MedScale.
Ограничения и сценарии применения
Голосовой бот хорошо справляется с линейными сценариями: подтверждение записи, уточнение адреса доставки, информирование о статусе заказа, первичный сбор данных. При сложных возражениях, жалобах или нестандартных запросах бот переводит звонок на живого оператора. Стоимость разработки голосового бота — от 350 000 ₽, срок — 4–6 недель.
Архитектура голосового бота
Цепочка обработки голоса: телефонный звонок → АТС (Asterisk, FreePBX, облачная телефония) → WebSocket-поток аудио → ASR-модель (Whisper, Yandex SpeechKit) → транскрипция → LLM → ответный текст → TTS-модель → синтезированный аудио → обратно клиенту. Задержка каждого звена суммируется: хорошая система отвечает за 1.5–3 секунды, плохая — за 5–8 секунд (клиент думает, что связь прервалась).
Сложности голосовых ботов
- Качество ASR. Распознавание имён, адресов и профессиональных терминов требует дообучения или подсказок модели.
- Прерывания. Клиент может перебить бота — система должна уметь обрабатывать barge-in и останавливать синтез.
- Фоновый шум. Звонки с улицы или из машины существенно снижают точность распознавания — нужна шумоподавление на входе.
Сергей Полухин
Co-Founder & CTO PapAI Soft · профиль
Частые вопросы
Какова задержка у голосового бота и как её снизить?
Задержка складывается из: ASR (~0.5–1.5 сек) + LLM (~0.5–2 сек) + TTS (~0.3–0.8 сек) = 1.3–4.3 секунды. Снижение: стриминг TTS (начинать воспроизведение до конца генерации), streaming LLM, кэш часто запрашиваемых фраз в TTS. Цель — <2 секунды для комфортного диалога.
Чем голосовой бот отличается от IVR?
IVR — дерево тоновых меню («нажмите 1 для...»). Голосовой бот понимает произвольную речь и ведёт диалог. IVR дешевле и надёжнее для простой маршрутизации, голосовой бот — для квалификации, записи и ответов на вопросы. Гибридный подход: IVR для начальной маршрутизации + голосовой бот для конкретных задач.
Связанные термины
- NLU — понимание речи после расшифровки
- Омниканальность — голос как один из каналов единого бота
- Чат-бот — текстовая альтернатива голосовому боту
- API-интеграция — подключение к телефонному оператору
Где применяется
Хотите внедрить голосового бота? Обсудим задачу.
Связаться с нами