Почему нейросеть уверенно врёт вашим клиентам

Разберём вашу задачу на бесплатном демо — покажем решение ещё до оплаты. Обсудить базу знаний для бота

Меня зовут Сергей Полухин, я сооснователь PapAI Soft — мы делаем ИИ-ассистентов для бизнеса под ключ. Сейчас покажу, откуда берётся враньё нейросети и как мы давим этот риск до величин, с которыми уже можно спокойно работать. Начну со сценки.

Условный кейс: бот, который придумал услугу

Представьте (это обобщённый пример, помечаю честно — «условно»): клиника подключает базового чат-бота «из коробки». Пациент спрашивает: «А вы делаете МРТ сердца под наркозом для ребёнка?» Бот бодро отвечает: «Да, конечно, записываю вас на среду!»

Проблема в том, что такой услуги в клинике нет. Бот её выдумал. Не со зла — просто он так устроен. Пациент приезжает, тратит время, злится, пишет отзыв на два экрана. А владелец узнаёт об этом последним.

Вот это и есть галлюцинация. И чтобы понять, почему она возникает, надо на минуту заглянуть под капот. Обещаю, без формул.

Откуда берутся галлюцинации: ИИ — это очень начитанный стажёр

Я люблю сравнивать большую языковую модель со стажёром, который прочитал весь интернет, но ни дня не работал в вашей компании.

Он эрудит. Он знает, как в среднем устроены клиники, магазины, юрфирмы «где-то в мире». Но он ни разу не видел ваш прайс, ваши регламенты, ваш ассортимент и ваши документы. И когда вы задаёте ему вопрос про вашу специфику, он делает ровно то, чему его учили: достраивает самый правдоподобный ответ по общей картине мира.

Модель ведь не «вспоминает факт из базы». Она предсказывает, какое слово статистически вероятнее идёт следующим. Если в её «общем интернете» у клиник обычно есть МРТ — она уверенно допишет, что и у вас есть. Ей за это не стыдно, потому что стыда у неё нет. Есть только правдоподобие.

Отсюда две неприятные особенности, которые важно понять бизнесу:

Модель звучит одинаково уверенно и когда права, и когда врёт. Нет интонации «я не уверен». Ложь подаётся тем же ровным, вежливым тоном, что и правда.
Чем уже ваша специфика, тем выше риск. По общим вопросам («как записаться к врачу вообще») модель почти не ошибается. А вот по вашему уникальному — по конкретной услуге, цене, условию договора — додумывает охотнее всего.

Это не баг конкретной нейросети. Это природа технологии. Ругать за это GPT или GigaChat — всё равно что ругать перфоратор за то, что он не умеет класть плитку. Инструмент отличный, просто применять надо правильно.

RAG на пальцах: не спрашивай по памяти — спрашивай по шпаргалке

Теперь хорошая новость. Есть подход, который превращает «болтливого стажёра» в дисциплинированного сотрудника. Называется он RAG (Retrieval-Augmented Generation), но название можете забыть — важна идея.

Аналогия простая. Есть два способа отвечать на экзамене:

По памяти. Как получится, что вспомнил — то и сказал. Так работает «голая» модель. И так рождаются галлюцинации.
По открытой шпаргалке. Прежде чем ответить, ты сначала лезешь в конспект, находишь нужный абзац и отвечаешь строго по нему.

RAG — это второй способ. Мы запрещаем ассистенту отвечать из головы. На каждый вопрос он сначала лезет в вашу базу знаний (прайсы, регламенты, описания услуг, FAQ, выгрузки из 1С и CRM), находит релевантные куски и формулирует ответ только на их основе.

На том же условном примере это выглядит так. Пациент спрашивает про МРТ сердца под наркозом. Ассистент лезет в базу, ищет — и не находит такой услуги. И вместо бодрого вранья честно отвечает: «Такой услуги у нас нет, но есть вот эти обследования, а по редким случаям вас соединю с администратором». Никто никуда зря не приехал.

Именно поэтому мы в PapAI делаем ассистентов, а не «каких-то там ботов». Кнопочный бот знает три заготовленные фразы. Ассистент на RAG знает всё, что знает ваша компания, — ровно потому, что отвечает по вашим документам, а не по памяти интернета.

Как мы готовим и чистим базу знаний

А вот здесь начинается самое неромантичное и самое важное. Потому что RAG работает по принципу «мусор на входе — мусор на выходе». Дашь ассистенту шпаргалку из противоречивых, устаревших документов — и он будет уверенно врать уже по вашим же бумагам. Просто теперь это будет ваша вина, а не «плохой нейросети».

Поэтому база знаний — это не «скинули папку с файлами и забыли». Это дисциплина данных. Вот что мы делаем на практике:

Собираем и вычищаем источники. Прайсы, скрипты, регламенты, описания, частые вопросы. Убираем дубли и то, что противоречит само себе. Классика жанра — три версии прайса за разные годы, и все лежат в одной папке.
Режем на смысловые куски. Большой документ бесполезно давать целиком — модель утонет. Мы бьём его на аккуратные фрагменты, чтобы на каждый вопрос находился ровно нужный абзац, а не вся простыня.
Помечаем «источник правды». Договариваемся с заказчиком, какой документ главный, если данные расходятся. Цена берётся из 1С, а не из презентации трёхлетней давности.
Ставим границы дозволенного. Прямо прописываем: про что ассистент говорит сам, а где обязан честно сказать «не знаю» и передать человеку. Лучше живое «сейчас уточню у коллеги», чем красивая выдумка.
Держим базу живой. Поменялся прайс — обновилась база. Данные лежат на серверах в РФ, по 152-ФЗ и под NDA: тема чувствительная, тут без вариантов.

Скучно? Да. Но именно эта чёрная работа отличает ассистента, которому можно доверить клиента, от красивой демки, которая посыпется на второй неделе. Если вам важно, как при этом устроен доступ к данным, я отдельно разбирал, безопасно ли давать ИИ доступ к данным.

Как мы измеряем точность (а не верим на слово)

«У нас всё точно» — это не аргумент, а маркетинг. Точность надо мерить, иначе вы просто верите на слово — сначала подрядчику, потом нейросети.

Что мы делаем: собираем набор реальных вопросов, которые задают живые клиенты (десятки и сотни), прогоняем через ассистента и вручную проверяем каждый ответ по двум вещам. Первое — фактическая верность: не соврал ли, всё ли по вашим документам. Второе — честность отказа: там, где ответа в базе нет, сказал ли он «не знаю» вместо того, чтобы выдумать. Второе, кстати, важнее первого. Управляемый ассистент — это не тот, кто знает всё, а тот, кто честно признаётся, когда не знает.

Кастомный ассистент на нормальной базе закрывает автоматически до 94% обращений — против 60–70% у кнопочных ботов. Оставшийся хвост мы честно уводим на человека.

И скажу прямо, без хайпа: нулевых галлюцинаций не гарантирует никто. Кто обещает 100% — либо не разобрался, либо продаёт вам сказку. Но разница в цифрах колоссальная. Вот это и есть «управляемый риск»: не ноль ошибок, а понятная, измеренная и постоянно снижающаяся величина.

Что мы показываем заказчику: демо «до/после»

Слова словами, но лучше один раз увидеть. Поэтому мы не берём денег за демо и делаем простую, честную штуку — сравнение «до/после» на данных самого клиента.

«До». Задаём каверзные вопросы про специфику «голой» модели без базы. Она уверенно фантазирует — придумывает услуги, путает цены, обещает невозможное. Заказчик своими глазами видит, как это выглядело бы для его клиентов.
«После». Тот же вопрос — тому же ассистенту, но уже подключённому к вычищенной базе знаний. Ответы становятся точными, а на незнакомое он честно говорит «не знаю».

Разница обычно бьёт наотмашь сильнее любой презентации. И это, по-моему, единственный честный способ продавать такие вещи: не «поверьте нам», а «посмотрите сами, вот ваши данные, вот два ответа».

Ключевые выводы

→ LLM врёт не потому, что «злая» или «сырая», а потому, что не знает вашу компанию — и когда не знает, додумывает.
→ RAG заставляет ассистента отвечать по вашей базе знаний, а не по памяти интернета.
→ Чистая, живая база и честное измерение точности превращают риск из «непредсказуемого» в «управляемый».
→ Нулевых галлюцинаций не обещает никто — управляемый ассистент честно признаётся, когда не знает.

Вывод

Давайте начистоту. LLM врёт вашим клиентам не потому, что она «злая» или «сырая». Она врёт, потому что не знает вашу компанию — её учили на общем интернете, а не на ваших документах. И когда не знает, она додумывает. Уверенно и с той же вежливой интонацией, что и правду.

Лечится это не магией, а инженерией и дисциплиной: RAG (отвечаем по вашей базе, а не по памяти) плюс чистая, живая база знаний плюс честное измерение точности. Нулевых галлюцинаций не обещает никто — но риск из «непредсказуемого» превращается в «управляемый и измеримый». А это уже совсем другой разговор. ИИ здесь работает как инструмент, который помогает вашим сотрудникам, а не подставляет их перед клиентом.

Почему нейросеть уверенно врёт вашим клиентам — и как её лечит база знаний

Условный кейс: бот, который придумал услугу

Откуда берутся галлюцинации: ИИ — это очень начитанный стажёр

RAG на пальцах: не спрашивай по памяти — спрашивай по шпаргалке

Как мы готовим и чистим базу знаний

Как мы измеряем точность (а не верим на слово)

Что мы показываем заказчику: демо «до/после»

Ключевые выводы

Вывод

Хотите увидеть своё «до/после» на своих же данных?

Почему нейросеть уверенно врёт вашим клиентам — и как её лечит база знаний

Условный кейс: бот, который придумал услугу

Откуда берутся галлюцинации: ИИ — это очень начитанный стажёр

RAG на пальцах: не спрашивай по памяти — спрашивай по шпаргалке

Как мы готовим и чистим базу знаний

Как мы измеряем точность (а не верим на слово)

Что мы показываем заказчику: демо «до/после»

Ключевые выводы

Вывод

Хотите увидеть своё «до/после» на своих же данных?

Связанные решения