Токен и токенизация (Tokenization)

Когда ИИ-ассистент читает сообщение клиента и формирует ответ, он не видит буквы или слова напрямую — он работает с токенами. Токен — это кусочек текста, на которые модель заранее разбивает любой ввод. Понимание токенизации важно не ради теории: именно в токенах считаются лимиты диалога и итоговый счёт от провайдера LLM. Владельцу бизнеса это нужно, чтобы прогнозировать стоимость бота, а техлиду — чтобы не упереться в лимит контекста при работе с длинными документами и историей переписки.

Как из текста получаются токены

Токенизатор разбивает входной текст на подслова по статистике: частые слова становятся одним токеном, редкие и длинные — дробятся на несколько. Пробелы и знаки препинания тоже считаются. Поэтому фраза «Запишите меня к врачу» — это не 4 слова, а несколько токенов, и точное их число зависит от модели и языка. Русский текст, как правило, требует больше токенов, чем эквивалент на английском, что напрямую влияет на расходы.

Именно на токенах модель строит внутреннее представление смысла: каждый токен превращается в вектор — эмбеддинг, — с которым дальше работают слои LLM. Так текст переводится с человеческого языка на язык чисел, понятный нейросети.

Токены, лимит контекста и стоимость

Все ограничения модели измеряются в токенах. Контекстное окно — это максимальное число токенов, которое влезает в один запрос: системный промпт, история диалога, подгруженные документы и сам ответ. Когда история переписки разрастается, старые сообщения приходится обрезать или сжимать, иначе они не поместятся в окно. Для корпоративного бота это ключевой инженерный лимит.

Стоимость запроса к LLM тоже считается по токенам: отдельно тарифицируются входные (промпт) и выходные (ответ) токены, причём выходные обычно дороже. Отсюда практический вывод: чем короче и точнее системный промпт и чем аккуратнее подаётся контекст через RAG, тем ниже счёт. Экономят токены и подача только релевантных фрагментов базы знаний вместо целых документов.

В PapAI Soft мы проектируем ИИ-ассистентов так, чтобы бот укладывался в лимиты контекста и не переплачивал за лишние токены на каждом диалоге.

Связанные термины

Контекстное окно — лимит модели, измеряемый в токенах
LLM — модель, которая оперирует токенами
Эмбеддинги — векторное представление токенов и текста
RAG — подача релевантного контекста экономит токены

Где применяется

Разработка ИИ-ассистента → Как работает ИИ-ассистент →

Хотите точно оценить стоимость и лимиты вашего ИИ-бота? Обсудим проект.

Связаться с нами