Как работает RAG: три шага
Шаг 1 — индексация. Документы (PDF, Word, страницы CMS) разбиваются на фрагменты по 200–500 токенов, каждый фрагмент преобразуется в числовой вектор через модель эмбеддингов и сохраняется в векторной базе данных (Qdrant, Weaviate, pgvector).
Шаг 2 — retrieval. Запрос пользователя также преобразуется в вектор. Векторная база находит 3–10 наиболее похожих фрагментов за 20–50 мс.
Шаг 3 — generation. Найденные фрагменты вставляются в промпт вместе с вопросом пользователя. LLM формирует ответ, опираясь только на этот контекст.
В проекте для медицинской базы знаний RAG-бот отвечает на 94% вопросов без эскалации на оператора. База: 2 300 документов, время ответа — 3–4 секунды. Подробнее о PapAI MedScale.
RAG или Fine-tuning: что выбрать
RAG дешевле и гибче: обновить базу знаний можно за минуты без переобучения модели. Fine-tuning меняет поведение самой модели — стиль, формат, специфическую терминологию — но требует минимум 500–1000 примеров и недель работы. Для большинства корпоративных ботов, которым нужно отвечать по документам компании, RAG — правильный выбор.
Качество RAG: что влияет на точность
Размер чанка (фрагмента): слишком маленький — теряется контекст, слишком большой — заполняет контекстное окно нерелевантным текстом. Качество эмбеддинг-модели: для русского языка лучше работают модели, обученные на русскоязычном корпусе (например, rubert-tiny2 или E5-multilingual). Гибридный поиск (вектор + BM25 keyword) повышает recall на 15–20% по сравнению с чисто векторным.
Связанные термины
- LLM — языковая модель, которая генерирует ответ в RAG
- Fine-tuning — альтернатива RAG для изменения поведения модели
- Контекстное окно — ограничение, которое определяет, сколько документов войдёт в промпт
- Промпт-инжиниринг — как правильно вставить найденные документы в промпт
Хотите подключить RAG к корпоративной базе знаний? Обсудим задачу.
Связаться с нами