RAG (Retrieval-Augmented Generation)

RAG — архитектура, при которой языковая модель формирует ответ не из своих «воспоминаний», а на основе документов, найденных в базе знаний прямо во время запроса. Это решает главную проблему LLM — галлюцинации: модель отвечает только тем, что реально есть в ваших документах.

Как работает RAG: три шага

Шаг 1 — индексация. Документы (PDF, Word, страницы CMS) разбиваются на фрагменты по 200–500 токенов, каждый фрагмент преобразуется в числовой вектор через модель эмбеддингов и сохраняется в векторной базе данных (Qdrant, Weaviate, pgvector).

Шаг 2 — retrieval. Запрос пользователя также преобразуется в вектор. Векторная база находит 3–10 наиболее похожих фрагментов за 20–50 мс.

Шаг 3 — generation. Найденные фрагменты вставляются в промпт вместе с вопросом пользователя. LLM формирует ответ, опираясь только на этот контекст.

В проекте для медицинской базы знаний RAG-бот отвечает на 94% вопросов без эскалации на оператора. База: 2 300 документов, время ответа — 3–4 секунды. Подробнее о PapAI MedScale.

RAG или Fine-tuning: что выбрать

RAG дешевле и гибче: обновить базу знаний можно за минуты без переобучения модели. Fine-tuning меняет поведение самой модели — стиль, формат, специфическую терминологию — но требует минимум 500–1000 примеров и недель работы. Для большинства корпоративных ботов, которым нужно отвечать по документам компании, RAG — правильный выбор.

Качество RAG: что влияет на точность

Размер чанка (фрагмента): слишком маленький — теряется контекст, слишком большой — заполняет контекстное окно нерелевантным текстом. Качество эмбеддинг-модели: для русского языка лучше работают модели, обученные на русскоязычном корпусе (например, rubert-tiny2 или E5-multilingual). Гибридный поиск (вектор + BM25 keyword) повышает recall на 15–20% по сравнению с чисто векторным.

Связанные термины

  • LLM — языковая модель, которая генерирует ответ в RAG
  • Fine-tuning — альтернатива RAG для изменения поведения модели
  • Контекстное окно — ограничение, которое определяет, сколько документов войдёт в промпт
  • Промпт-инжиниринг — как правильно вставить найденные документы в промпт

Хотите подключить RAG к корпоративной базе знаний? Обсудим задачу.

Связаться с нами