Голосовой бот — как работает ASR, TTS и телефонная

Технический стек: ASR → NLU → TTS

ASR (Automatic Speech Recognition) — преобразует входящий аудиопоток в текст в режиме реального времени. Современные модели (Whisper от OpenAI, SaluteSpeech от Сбера, Yandex SpeechKit) дают WER (Word Error Rate) 5–8% на чистом русском языке. Задержка: 300–700 мс.

NLU — определяет намерение из расшифрованного текста и извлекает сущности (дату, имя, номер полиса).

TTS (Text-to-Speech) — синтезирует голосовой ответ. Современные нейросетевые TTS (Silero, YandexTTS) дают естественное звучание без роботизированных артефактов. Задержка генерации: 200–400 мс.

Подключение к телефонии

Голосовой бот подключается к АТС через SIP-транк или через Telephony API (Манго Телеком, Beeline, МТТ). При входящем звонке АТС перенаправляет вызов на WebSocket-сервер бота, который обрабатывает аудиопоток. При исходящем звонке бот инициирует вызов через API оператора, передавая номер и сценарий.

Голосовой бот для медицинской регистратуры принимает 85% входящих звонков без участия оператора. Среднее время звонка: 2 минуты 10 секунд против 6 минут у оператора. Подробнее о PapAI MedScale.

Ограничения и сценарии применения

Голосовой бот хорошо справляется с линейными сценариями: подтверждение записи, уточнение адреса доставки, информирование о статусе заказа, первичный сбор данных. При сложных возражениях, жалобах или нестандартных запросах бот переводит звонок на живого оператора. Стоимость разработки голосового бота — от 350 000 ₽, срок — 4–6 недель.

Архитектура голосового бота

Цепочка обработки голоса: телефонный звонок → АТС (Asterisk, FreePBX, облачная телефония) → WebSocket-поток аудио → ASR-модель (Whisper, Yandex SpeechKit) → транскрипция → LLM → ответный текст → TTS-модель → синтезированный аудио → обратно клиенту. Задержка каждого звена суммируется: хорошая система отвечает за 1.5–3 секунды, плохая — за 5–8 секунд (клиент думает, что связь прервалась).

Сложности голосовых ботов

Качество ASR. Распознавание имён, адресов и профессиональных терминов требует дообучения или подсказок модели.
Прерывания. Клиент может перебить бота — система должна уметь обрабатывать barge-in и останавливать синтез.
Фоновый шум. Звонки с улицы или из машины существенно снижают точность распознавания — нужна шумоподавление на входе.

Сергей Полухин

Co-Founder & CTO PapAI Soft · профиль

Частые вопросы

Какова задержка у голосового бота и как её снизить?

Задержка складывается из: ASR (~0.5–1.5 сек) + LLM (~0.5–2 сек) + TTS (~0.3–0.8 сек) = 1.3–4.3 секунды. Снижение: стриминг TTS (начинать воспроизведение до конца генерации), streaming LLM, кэш часто запрашиваемых фраз в TTS. Цель — <2 секунды для комфортного диалога.

Чем голосовой бот отличается от IVR?

IVR — дерево тоновых меню («нажмите 1 для...»). Голосовой бот понимает произвольную речь и ведёт диалог. IVR дешевле и надёжнее для простой маршрутизации, голосовой бот — для квалификации, записи и ответов на вопросы. Гибридный подход: IVR для начальной маршрутизации + голосовой бот для конкретных задач.

Связанные термины

NLU — понимание речи после расшифровки
Омниканальность — голос как один из каналов единого бота
Чат-бот — текстовая альтернатива голосовому боту
API-интеграция — подключение к телефонному оператору

Где применяется

PapAI MedScale для клиник → Автообзвон клиентов →

Хотите внедрить голосового бота? Обсудим задачу.