Блог PapAI Soft · Технологии

Голосовой ИИ для обзвона: как работает и когда окупается

«Здравствуйте! Только сегодня уникальное предложение! Нажмите один...» — и короткие гудки на третьей секунде. Робозвонки приучили людей бросать трубку при первом же намёке на автоматику, и теперь любой разговор про «голосового бота» начинается с этого недоверия. Проблема в том, что под одним словом живут две разные технологии: тупой проигрыватель записей и диалоговый голосовой ИИ, который слышит человека и отвечает по смыслу. Первый сжигает базу контактов, второй обрабатывает на 50% больше заявок без роста штата. Разберём, как устроен второй, где он реально приносит деньги, во что обходится и что говорит закон.

Сергей Полухин·10.06.2026·9 мин. чтения

Бесплатная консультация

Внедрим ИИ-ассистента для вашего бизнеса — за 7 дней

Робозвонок и голосовой ИИ — разные технологии

Чтобы не путать, разложим по полочкам:

  • Робозвонок проигрывает запись по линейному скрипту. Максимум интерактива — «нажмите 1». Человека он не слышит: перебьёте, спросите, возмутитесь — запись продолжит играть. Отсюда и репутация.
  • Голосовой ИИ распознаёт живую речь, понимает смысл сказанного и формулирует ответ под конкретную реплику. Кандидат спрашивает «а график какой?» — бот отвечает про график, а не продолжает зачитывать вакансию. Можно перебивать, переспрашивать, отвечать не по порядку — диалог не разваливается.

Граница простая: робозвонок говорит В человека, голосовой ИИ говорит С человеком.

Как устроен голосовой ИИ: разбор по шагам

Покажу на базе нашего HR-проекта — голосового бота для обзвона кандидатов. За один звонок внутри системы происходит четыре процесса, и все — за доли секунды.

  1. STT: речь в текст в реальном времени. Всё, что говорит кандидат, транскрибируется на лету — в этом проекте связкой Whisper и SpeechRecognition от Yandex. Не «после звонка для отчёта», а прямо по ходу фразы.
  2. LLM готовит ответ. Текст уходит в языковую модель (в кейсе — YandexGPT и ChatGPT), которая держит контекст всего разговора и цель звонка: уточнить опыт, проверить готовность выйти в смену, пригласить на собеседование. Варианты ответа начинают готовиться, пока человек ещё договаривает.
  3. Детекция конца фразы. Отдельный механизм решает, закончил человек говорить или просто задумался. Ошибёшься в одну сторону — бот перебивает, в другую — висит неловкая пауза. Это тоньше, чем кажется: «ну-у, я в принципе...» — это ещё не конец фразы.
  4. TTS: текст в речь. Готовый ответ озвучивается синтезом (в проекте — RHVoice) и уходит в трубку. Для разбора морфологии русского языка в связке работает Mystem, сама система собрана на Java, Python и TypeScript.

Задержка ответа — главная инженерная проблема

В переписке пауза в 30 секунд незаметна. В звонке пауза больше полутора-двух секунд — и человек говорит «алло, вы тут?» или вешает трубку. Поэтому вся архитектура голосового ИИ строится вокруг скорости: генерация начинается до конца фразы собеседника, первые слова ответа уходят в синтез, пока модель дописывает остальное. Именно по задержке проще всего отличить взрослое решение от поделки: попросите на демо живой звонок, а не записанный ролик.

Где голосовой ИИ уже приносит деньги

Скрининг кандидатов

Самый зрелый сценарий — массовый подбор. Рекрутер физически делает 30–50 звонков в день, и до половины — впустую: не берут трубку, уже нашли работу, не подходят по базовым критериям. В нашем кейсе голосовой ИИ-бот обзванивает откликнувшихся, транскрибирует разговор в реальном времени, задаёт вопросы предварительного отбора и сам приглашает подходящих на собеседование. Результат: +50% обработанных заявок без роста штата и +3,38 млн ₽ экономии в год. Как это устроено в продукте — смотрите PapAI HR.

Подтверждение записи и напоминания

Клиника, салон, автосервис: бот накануне обзванивает записанных, подтверждает визит или предлагает перенос. Освободившиеся окна возвращаются в расписание, неявки падают.

Реактивация базы

«Вы интересовались полгода назад — актуально?» По переписке такие клиенты часто молчат, по телефону отвечают. Бот прозванивает тысячи спящих контактов и передаёт менеджерам только тёплых.

NPS-опросы

Три вопроса после визита или покупки голосом собирают больше ответов, чем анкета в SMS. Негативная оценка сразу уходит руководителю — пока клиента ещё можно вернуть.

Первая линия клиники

В медицине до 30% пациентов теряется на первой линии, а 80% позвонивших уходят, если ждут дольше 5 минут. ИИ на первой линии снимает обращение мгновенно и в любое время суток — автоматизация первой линии в сети из 12 филиалов дала 3,38 млн ₽ экономии в год. Подробный разбор — в материале про PapAI MedScale.

Когда окупается: считаем от объёма звонков

Экономика голосового ИИ — это арифметика минут. Формула:

Экономия в месяц = минуты разговоров × (стоимость минуты оператора − стоимость минуты бота)

Стоимость минуты оператора посчитайте честно: оклад 55 000–65 000 ₽, плюс взносы около 30%, рабочее место, супервизор, текучка и найм — полная стоимость выходит к 90 000–100 000 ₽ в месяц. Чистого разговорного времени у оператора колл-центра — порядка 100 часов в месяц. Итого 15–17 ₽ за минуту разговора. Минута голосового бота — телефония, распознавание, синтез, токены — по нашим проектам обходится в несколько раз дешевле; точная цифра зависит от выбранной связки STT/TTS и провайдера LLM.

Пример: 3 000 звонков в месяц по 3 минуты = 9 000 минут. При разнице хотя бы 10 ₽ на минуте экономия — 90 000 ₽ в месяц. Голосовой модуль (STT/TTS) входит в Корпоративный тариф от 500 000 ₽ со сроком внедрения 6–12 недель — значит, на одной только экономии проект возвращается примерно за полгода. Это сходится с нашей статистикой: HR-направление окупается за 6–12 месяцев. И заметьте — в расчёте ещё нет роста: +50% обработанных заявок из кейса означают, что бот не просто дешевле, он успевает там, куда люди не дотягивались вовсе.

Если звонков меньше 1 000–1 500 в месяц, окупаемость растягивается, и мы честно предложим начать с текстового бота — тарифы от 49 000 ₽ и от 120 000 ₽ описаны на странице тарифов.

Оператор против голосового ИИ: сравнение

Критерий Оператор Голосовой ИИ
Стоимость часа разговора 900–1 000 ₽ с учётом полной стоимости сотрудника В разы ниже, зависит от связки STT/TTS и LLM
Параллельность 1 звонок за раз Десятки звонков одновременно
Время работы Смена 8 часов, обед, отпуск, больничный 24/7 без выгорания
Типовые сценарии Качество плавает от усталости и настроения Стабильно одинаковое, скрипт соблюдён всегда
Сложные переговоры и возражения Сильная сторона человека Слабое место — нужна передача оператору
Эмпатия в конфликте Да Имитация, которую слышно
Масштабирование на пике Нанимать и обучать недели Добавить мощности за часы

Вывод из таблицы: голосовой ИИ — не замена людям, а фильтр перед ними. Типовой вал забирает машина, людям остаются разговоры, где решает человек.

Где голосовой ИИ не сработает — честно

  • Сложные переговоры. Торг по цене, работа с серьёзными возражениями, продажа дорогих решений — это к человеку. Бот может назначить такую встречу, но не провести её.
  • Шум и акцент. Стройплощадка, громкая улица, сильный акцент или плохая связь снижают качество распознавания. Хороший бот в таких случаях переспрашивает или переключает на оператора, но процент потерь будет.
  • Неуместность раздражает. Людей бесит робот, который притворяется человеком. Бот обязан представляться ботом в первой фразе и по первой просьбе соединять с живым сотрудником. Как ни странно, честное «я виртуальный помощник компании X» держит разговор лучше, чем имитация.
  • Хаос в процессах. Если ваши операторы сами не знают, что отвечать на типовые вопросы, боту неоткуда взять сценарий. Сначала описанный процесс — потом автоматизация: если не работает естественный интеллект, искусственный вас не спасёт.

Закон: что обязательно учесть

Голосовые обзвоны в РФ регулируются жёстче переписки, и в 2026 году за этим следят всерьёз:

  • Представление и запись. Бот должен представиться и предупредить о записи разговора в начале звонка.
  • 152-ФЗ. Запись голоса и данные из разговора — персональные данные. Нужны законное основание обработки, согласие и хранение данных на серверах в РФ. Мы проектируем контур обработки под это требование с первого дня.
  • ФЗ «О рекламе». Рекламный обзвон допустим только при предварительном согласии абонента на получение рекламы — без него компанию ждут жалобы в ФАС и штрафы. Сервисные звонки своей базе — подтверждение записи, статус заказа, опрос после визита — рекламой не являются, но согласие на обработку данных нужно и для них.
  • Гигиена базы. Звоним только своим контактам с подтверждённым согласием. Купленные базы — это не только штрафы, но и сожжённая репутация номера: операторы связи помечают такие номера как спам.

Частые вопросы

Человек поймёт, что говорит с роботом?

Да, и это нормально. Бот представляется в первой фразе — так требует и закон, и здравый смысл. Практика показывает: людей раздражает не сам факт робота, а робот бесполезный. Если бот за две минуты решает вопрос, который у живого оператора занял бы десять минут ожидания на линии, — никто не жалуется.

Что будет, если собеседник уйдёт от сценария?

Голосовой ИИ работает на LLM, поэтому свободные вопросы — его штатный режим, а не сбой. Он ответит по сути, вернёт разговор к цели звонка, а если вопрос за пределами компетенции — зафиксирует его и передаст человеку вместе с транскриптом разговора.

Сколько звонков бот делает одновременно?

Десятки параллельных линий — ограничение задаёт телефония, а не ИИ. База в 3 000 контактов, на которую у двух операторов ушёл бы месяц, прозванивается за несколько дней. При этом интенсивность настраиваем так, чтобы не попасть под спам-фильтры операторов связи.

Можно ли запустить голосового бота дешевле Корпоративного тарифа?

Голосовой модуль STT/TTS входит в Корпоративный тариф от 500 000 ₽ — это честная цена за телефонию, распознавание, синтез и интеграции с вашими системами. Если бюджет меньше, начните с текстового бота от 49 000 ₽ или от 120 000 ₽ с CRM-интеграцией: он окупится быстрее и подготовит базу сценариев для голоса.

Куда попадают результаты звонков?

В вашу CRM: статус «прошёл скрининг / отказ / перезвонить», транскрипт разговора и заполненные поля анкеты прикрепляются к карточке. В Корпоративный тариф входит интеграция с 1С, Битрикс24 и другими CRM, SLA и выделенный менеджер.

С каких сценариев лучше начинать?

С коротких и массовых: подтверждение записи, скрининг кандидатов, NPS-опрос. Это разговоры на 2–4 минуты с понятной структурой — на них бот показывает максимум пользы при минимуме рисков. Сложные продажи голосом не доверяйте боту вовсе.

Получите бесплатный аудит

Расскажите, сколько звонков в месяц делает ваша команда и какие из них типовые, — мы бесплатно посчитаем экономику голосового ИИ под ваш объём и честно скажем, если он вам пока не окупится. Демо со звонком показываем до оплаты. Тарифы — на странице тарифов, написать нам можно в Telegram t.me/papai_robot или по телефону +7 (993) 983-09-12.

Ключевые выводы

  • → Робозвонок проигрывает запись, голосовой ИИ ведёт диалог: STT → LLM → детекция конца фразы → TTS, и всё за доли секунды
  • → Рабочие сценарии: скрининг кандидатов (+50% обработанных заявок, +3,38 млн ₽/год в кейсе), подтверждение записи, реактивация базы, NPS-опросы
  • → Считайте окупаемость от минут: минута оператора стоит 15–17 ₽, минута бота — в разы дешевле; при 3 000 звонков в месяц проект возвращается примерно за полгода
  • → Бот обязан представляться ботом, предупреждать о записи и работать только со своей базой по 152-ФЗ — сложные переговоры остаются людям

Нужен голосовой ИИ для вашего объёма звонков?

Посчитаем экономику под ваши минуты и покажем демо с живым звонком до оплаты.

Узнать подробнее

Готовы автоматизировать бизнес с помощью ИИ?

Покажем демо на вашем кейсе — бесплатно, до подписания договора. Запуск от 7 дней.