Робозвонок и голосовой ИИ — разные технологии
Чтобы не путать, разложим по полочкам:
- Робозвонок проигрывает запись по линейному скрипту. Максимум интерактива — «нажмите 1». Человека он не слышит: перебьёте, спросите, возмутитесь — запись продолжит играть. Отсюда и репутация.
- Голосовой ИИ распознаёт живую речь, понимает смысл сказанного и формулирует ответ под конкретную реплику. Кандидат спрашивает «а график какой?» — бот отвечает про график, а не продолжает зачитывать вакансию. Можно перебивать, переспрашивать, отвечать не по порядку — диалог не разваливается.
Граница простая: робозвонок говорит В человека, голосовой ИИ говорит С человеком.
Как устроен голосовой ИИ: разбор по шагам
Покажу на базе нашего HR-проекта — голосового бота для обзвона кандидатов. За один звонок внутри системы происходит четыре процесса, и все — за доли секунды.
- STT: речь в текст в реальном времени. Всё, что говорит кандидат, транскрибируется на лету — в этом проекте связкой Whisper и SpeechRecognition от Yandex. Не «после звонка для отчёта», а прямо по ходу фразы.
- LLM готовит ответ. Текст уходит в языковую модель (в кейсе — YandexGPT и ChatGPT), которая держит контекст всего разговора и цель звонка: уточнить опыт, проверить готовность выйти в смену, пригласить на собеседование. Варианты ответа начинают готовиться, пока человек ещё договаривает.
- Детекция конца фразы. Отдельный механизм решает, закончил человек говорить или просто задумался. Ошибёшься в одну сторону — бот перебивает, в другую — висит неловкая пауза. Это тоньше, чем кажется: «ну-у, я в принципе...» — это ещё не конец фразы.
- TTS: текст в речь. Готовый ответ озвучивается синтезом (в проекте — RHVoice) и уходит в трубку. Для разбора морфологии русского языка в связке работает Mystem, сама система собрана на Java, Python и TypeScript.
Задержка ответа — главная инженерная проблема
В переписке пауза в 30 секунд незаметна. В звонке пауза больше полутора-двух секунд — и человек говорит «алло, вы тут?» или вешает трубку. Поэтому вся архитектура голосового ИИ строится вокруг скорости: генерация начинается до конца фразы собеседника, первые слова ответа уходят в синтез, пока модель дописывает остальное. Именно по задержке проще всего отличить взрослое решение от поделки: попросите на демо живой звонок, а не записанный ролик.
Где голосовой ИИ уже приносит деньги
Скрининг кандидатов
Самый зрелый сценарий — массовый подбор. Рекрутер физически делает 30–50 звонков в день, и до половины — впустую: не берут трубку, уже нашли работу, не подходят по базовым критериям. В нашем кейсе голосовой ИИ-бот обзванивает откликнувшихся, транскрибирует разговор в реальном времени, задаёт вопросы предварительного отбора и сам приглашает подходящих на собеседование. Результат: +50% обработанных заявок без роста штата и +3,38 млн ₽ экономии в год. Как это устроено в продукте — смотрите PapAI HR.
Подтверждение записи и напоминания
Клиника, салон, автосервис: бот накануне обзванивает записанных, подтверждает визит или предлагает перенос. Освободившиеся окна возвращаются в расписание, неявки падают.
Реактивация базы
«Вы интересовались полгода назад — актуально?» По переписке такие клиенты часто молчат, по телефону отвечают. Бот прозванивает тысячи спящих контактов и передаёт менеджерам только тёплых.
NPS-опросы
Три вопроса после визита или покупки голосом собирают больше ответов, чем анкета в SMS. Негативная оценка сразу уходит руководителю — пока клиента ещё можно вернуть.
Первая линия клиники
В медицине до 30% пациентов теряется на первой линии, а 80% позвонивших уходят, если ждут дольше 5 минут. ИИ на первой линии снимает обращение мгновенно и в любое время суток — автоматизация первой линии в сети из 12 филиалов дала 3,38 млн ₽ экономии в год. Подробный разбор — в материале про PapAI MedScale.
Когда окупается: считаем от объёма звонков
Экономика голосового ИИ — это арифметика минут. Формула:
Экономия в месяц = минуты разговоров × (стоимость минуты оператора − стоимость минуты бота)
Стоимость минуты оператора посчитайте честно: оклад 55 000–65 000 ₽, плюс взносы около 30%, рабочее место, супервизор, текучка и найм — полная стоимость выходит к 90 000–100 000 ₽ в месяц. Чистого разговорного времени у оператора колл-центра — порядка 100 часов в месяц. Итого 15–17 ₽ за минуту разговора. Минута голосового бота — телефония, распознавание, синтез, токены — по нашим проектам обходится в несколько раз дешевле; точная цифра зависит от выбранной связки STT/TTS и провайдера LLM.
Пример: 3 000 звонков в месяц по 3 минуты = 9 000 минут. При разнице хотя бы 10 ₽ на минуте экономия — 90 000 ₽ в месяц. Голосовой модуль (STT/TTS) входит в Корпоративный тариф от 500 000 ₽ со сроком внедрения 6–12 недель — значит, на одной только экономии проект возвращается примерно за полгода. Это сходится с нашей статистикой: HR-направление окупается за 6–12 месяцев. И заметьте — в расчёте ещё нет роста: +50% обработанных заявок из кейса означают, что бот не просто дешевле, он успевает там, куда люди не дотягивались вовсе.
Если звонков меньше 1 000–1 500 в месяц, окупаемость растягивается, и мы честно предложим начать с текстового бота — тарифы от 49 000 ₽ и от 120 000 ₽ описаны на странице тарифов.
Оператор против голосового ИИ: сравнение
| Критерий | Оператор | Голосовой ИИ |
|---|---|---|
| Стоимость часа разговора | 900–1 000 ₽ с учётом полной стоимости сотрудника | В разы ниже, зависит от связки STT/TTS и LLM |
| Параллельность | 1 звонок за раз | Десятки звонков одновременно |
| Время работы | Смена 8 часов, обед, отпуск, больничный | 24/7 без выгорания |
| Типовые сценарии | Качество плавает от усталости и настроения | Стабильно одинаковое, скрипт соблюдён всегда |
| Сложные переговоры и возражения | Сильная сторона человека | Слабое место — нужна передача оператору |
| Эмпатия в конфликте | Да | Имитация, которую слышно |
| Масштабирование на пике | Нанимать и обучать недели | Добавить мощности за часы |
Вывод из таблицы: голосовой ИИ — не замена людям, а фильтр перед ними. Типовой вал забирает машина, людям остаются разговоры, где решает человек.
Где голосовой ИИ не сработает — честно
- Сложные переговоры. Торг по цене, работа с серьёзными возражениями, продажа дорогих решений — это к человеку. Бот может назначить такую встречу, но не провести её.
- Шум и акцент. Стройплощадка, громкая улица, сильный акцент или плохая связь снижают качество распознавания. Хороший бот в таких случаях переспрашивает или переключает на оператора, но процент потерь будет.
- Неуместность раздражает. Людей бесит робот, который притворяется человеком. Бот обязан представляться ботом в первой фразе и по первой просьбе соединять с живым сотрудником. Как ни странно, честное «я виртуальный помощник компании X» держит разговор лучше, чем имитация.
- Хаос в процессах. Если ваши операторы сами не знают, что отвечать на типовые вопросы, боту неоткуда взять сценарий. Сначала описанный процесс — потом автоматизация: если не работает естественный интеллект, искусственный вас не спасёт.
Закон: что обязательно учесть
Голосовые обзвоны в РФ регулируются жёстче переписки, и в 2026 году за этим следят всерьёз:
- Представление и запись. Бот должен представиться и предупредить о записи разговора в начале звонка.
- 152-ФЗ. Запись голоса и данные из разговора — персональные данные. Нужны законное основание обработки, согласие и хранение данных на серверах в РФ. Мы проектируем контур обработки под это требование с первого дня.
- ФЗ «О рекламе». Рекламный обзвон допустим только при предварительном согласии абонента на получение рекламы — без него компанию ждут жалобы в ФАС и штрафы. Сервисные звонки своей базе — подтверждение записи, статус заказа, опрос после визита — рекламой не являются, но согласие на обработку данных нужно и для них.
- Гигиена базы. Звоним только своим контактам с подтверждённым согласием. Купленные базы — это не только штрафы, но и сожжённая репутация номера: операторы связи помечают такие номера как спам.
Частые вопросы
Человек поймёт, что говорит с роботом?
Да, и это нормально. Бот представляется в первой фразе — так требует и закон, и здравый смысл. Практика показывает: людей раздражает не сам факт робота, а робот бесполезный. Если бот за две минуты решает вопрос, который у живого оператора занял бы десять минут ожидания на линии, — никто не жалуется.
Что будет, если собеседник уйдёт от сценария?
Голосовой ИИ работает на LLM, поэтому свободные вопросы — его штатный режим, а не сбой. Он ответит по сути, вернёт разговор к цели звонка, а если вопрос за пределами компетенции — зафиксирует его и передаст человеку вместе с транскриптом разговора.
Сколько звонков бот делает одновременно?
Десятки параллельных линий — ограничение задаёт телефония, а не ИИ. База в 3 000 контактов, на которую у двух операторов ушёл бы месяц, прозванивается за несколько дней. При этом интенсивность настраиваем так, чтобы не попасть под спам-фильтры операторов связи.
Можно ли запустить голосового бота дешевле Корпоративного тарифа?
Голосовой модуль STT/TTS входит в Корпоративный тариф от 500 000 ₽ — это честная цена за телефонию, распознавание, синтез и интеграции с вашими системами. Если бюджет меньше, начните с текстового бота от 49 000 ₽ или от 120 000 ₽ с CRM-интеграцией: он окупится быстрее и подготовит базу сценариев для голоса.
Куда попадают результаты звонков?
В вашу CRM: статус «прошёл скрининг / отказ / перезвонить», транскрипт разговора и заполненные поля анкеты прикрепляются к карточке. В Корпоративный тариф входит интеграция с 1С, Битрикс24 и другими CRM, SLA и выделенный менеджер.
С каких сценариев лучше начинать?
С коротких и массовых: подтверждение записи, скрининг кандидатов, NPS-опрос. Это разговоры на 2–4 минуты с понятной структурой — на них бот показывает максимум пользы при минимуме рисков. Сложные продажи голосом не доверяйте боту вовсе.
Получите бесплатный аудит
Расскажите, сколько звонков в месяц делает ваша команда и какие из них типовые, — мы бесплатно посчитаем экономику голосового ИИ под ваш объём и честно скажем, если он вам пока не окупится. Демо со звонком показываем до оплаты. Тарифы — на странице тарифов, написать нам можно в Telegram t.me/papai_robot или по телефону +7 (993) 983-09-12.
Ключевые выводы
- → Робозвонок проигрывает запись, голосовой ИИ ведёт диалог: STT → LLM → детекция конца фразы → TTS, и всё за доли секунды
- → Рабочие сценарии: скрининг кандидатов (+50% обработанных заявок, +3,38 млн ₽/год в кейсе), подтверждение записи, реактивация базы, NPS-опросы
- → Считайте окупаемость от минут: минута оператора стоит 15–17 ₽, минута бота — в разы дешевле; при 3 000 звонков в месяц проект возвращается примерно за полгода
- → Бот обязан представляться ботом, предупреждать о записи и работать только со своей базой по 152-ФЗ — сложные переговоры остаются людям
Нужен голосовой ИИ для вашего объёма звонков?
Посчитаем экономику под ваши минуты и покажем демо с живым звонком до оплаты.
Узнать подробнее