Как из текста получаются токены
Токенизатор разбивает входной текст на подслова по статистике: частые слова становятся одним токеном, редкие и длинные — дробятся на несколько. Пробелы и знаки препинания тоже считаются. Поэтому фраза «Запишите меня к врачу» — это не 4 слова, а несколько токенов, и точное их число зависит от модели и языка. Русский текст, как правило, требует больше токенов, чем эквивалент на английском, что напрямую влияет на расходы.
Именно на токенах модель строит внутреннее представление смысла: каждый токен превращается в вектор — эмбеддинг, — с которым дальше работают слои LLM. Так текст переводится с человеческого языка на язык чисел, понятный нейросети.
Токены, лимит контекста и стоимость
Все ограничения модели измеряются в токенах. Контекстное окно — это максимальное число токенов, которое влезает в один запрос: системный промпт, история диалога, подгруженные документы и сам ответ. Когда история переписки разрастается, старые сообщения приходится обрезать или сжимать, иначе они не поместятся в окно. Для корпоративного бота это ключевой инженерный лимит.
Стоимость запроса к LLM тоже считается по токенам: отдельно тарифицируются входные (промпт) и выходные (ответ) токены, причём выходные обычно дороже. Отсюда практический вывод: чем короче и точнее системный промпт и чем аккуратнее подаётся контекст через RAG, тем ниже счёт. Экономят токены и подача только релевантных фрагментов базы знаний вместо целых документов.
В PapAI Soft мы проектируем ИИ-ассистентов так, чтобы бот укладывался в лимиты контекста и не переплачивал за лишние токены на каждом диалоге.
Связанные термины
- Контекстное окно — лимит модели, измеряемый в токенах
- LLM — модель, которая оперирует токенами
- Эмбеддинги — векторное представление токенов и текста
- RAG — подача релевантного контекста экономит токены
Где применяется
Хотите точно оценить стоимость и лимиты вашего ИИ-бота? Обсудим проект.
Связаться с нами