Токенизатор — различия между версиями

Материал из OpenCorpora Вики
Перейти к: навигация, поиск
Строка 8: Строка 8:
  
 
Код в первых двух местах в норме всегда синхронизирован. Модуль периодически также синхронизируется и умеет скачивать нужные данные из корпуса через интернет.
 
Код в первых двух местах в норме всегда синхронизирован. Модуль периодически также синхронизируется и умеет скачивать нужные данные из корпуса через интернет.
 +
== Выкладывание в продакшен ==
 +
[[Токенизатор/ПорядокВыкладыванияВПродакшен]]

Версия 14:25, 20 ноября 2011

Что это

Токенизатор — инструмент для автоматического или полуавтоматического разделения текста на токены, т.е. на слова и другие цепочки символов, которые мы хотим считать минимальными линейными единицами текста. В корпусе мы используем токенизатор для предварительной сегментации, которая потом проверяется вручную.

Код

Токенизатор существует в трёх параллельных измерениях:

  • в виде набора функций в PHP-библиотеке lib_tokenizer,
  • в виде Perl-скрипта
  • в виде внешнего Perl-модуля, который почти никак не завязан на корпус и который можно скачать и использовать на любой машине.

Код в первых двух местах в норме всегда синхронизирован. Модуль периодически также синхронизируется и умеет скачивать нужные данные из корпуса через интернет.

Выкладывание в продакшен

Токенизатор/ПорядокВыкладыванияВПродакшен