Токенизатор

Материал из OpenCorpora
Перейти к навигации Перейти к поиску
Версия для печати больше не поддерживается и может содержать ошибки обработки. Обновите закладки браузера и используйте вместо этого функцию печати браузера по умолчанию.

Что это

Токенизатор — инструмент для автоматического или полуавтоматического разделения текста на токены, т.е. на слова и другие цепочки символов, которые мы хотим считать минимальными линейными единицами текста. В корпусе мы используем токенизатор для предварительной сегментации, которая потом проверяется вручную.

Код

Токенизатор существует в трёх параллельных измерениях:

Код в первых двух местах в норме всегда синхронизирован. Модуль периодически также синхронизируется и умеет скачивать нужные данные из корпуса через интернет.

Выкладывание в продакшен

Инструкция