Токенизатор
Перейти к навигации
Перейти к поиску
Что это
Токенизатор — инструмент для автоматического или полуавтоматического разделения текста на токены, т.е. на слова и другие цепочки символов, которые мы хотим считать минимальными линейными единицами текста. В корпусе мы используем токенизатор для предварительной сегментации, которая потом проверяется вручную.