Токенизатор

Материал из OpenCorpora
Версия от 11:24, 19 ноября 2011; GranD (обсуждение | вклад) (Новая страница: «== Что это == Токенизатор — инструмент для автоматического или полуавтоматического разд...»)
(разн.) ← Предыдущая версия | Текущая версия (разн.) | Следующая версия → (разн.)
Перейти к навигации Перейти к поиску

Что это

Токенизатор — инструмент для автоматического или полуавтоматического разделения текста на токены, т.е. на слова и другие цепочки символов, которые мы хотим считать минимальными линейными единицами текста. В корпусе мы используем токенизатор для предварительной сегментации, которая потом проверяется вручную.