Токенизатор
Перейти к навигации
Перейти к поиску
Что это
Токенизатор — инструмент для автоматического или полуавтоматического разделения текста на токены, т.е. на слова и другие цепочки символов, которые мы хотим считать минимальными линейными единицами текста. В корпусе мы используем токенизатор для предварительной сегментации, которая потом проверяется вручную.
Код
Токенизатор существует в трёх параллельных измерениях:
- в виде набора функций в PHP-библиотеке lib_tokenizer,
- в виде Perl-скрипта
- в виде внешнего Perl-модуля, который почти никак не завязан на корпус и который можно скачать и использовать на любой машине. Подробнее про модуль.
Код в первых двух местах в норме всегда синхронизирован. Модуль периодически также синхронизируется и умеет скачивать нужные данные из корпуса через интернет.