Токенизатор — различия между версиями

Материал из OpenCorpora Вики
Перейти к: навигация, поиск
(Выкладывание в продакшен)
 
Строка 5: Строка 5:
 
* в виде набора функций в PHP-библиотеке [http://code.google.com/p/opencorpora/source/browse/trunk/lib/lib_tokenizer.php lib_tokenizer],
 
* в виде набора функций в PHP-библиотеке [http://code.google.com/p/opencorpora/source/browse/trunk/lib/lib_tokenizer.php lib_tokenizer],
 
* в виде [http://code.google.com/p/opencorpora/source/browse/trunk/scripts/tokenizer/collect_data.pl Perl-скрипта]
 
* в виде [http://code.google.com/p/opencorpora/source/browse/trunk/scripts/tokenizer/collect_data.pl Perl-скрипта]
* в виде [http://search.cpan.org/perldoc?Lingua::RU::OpenCorpora::Tokenizer внешнего Perl-модуля], который почти никак не завязан на корпус и который можно скачать и использовать на любой машине.
+
* в виде [http://search.cpan.org/perldoc?Lingua::RU::OpenCorpora::Tokenizer внешнего Perl-модуля], который почти никак не завязан на корпус и который можно скачать и использовать на любой машине. [[Токенизатор/ПерловыйМодуль | Подробнее про модуль]].
  
 
Код в первых двух местах в норме всегда синхронизирован. Модуль периодически также синхронизируется и умеет скачивать нужные данные из корпуса через интернет.
 
Код в первых двух местах в норме всегда синхронизирован. Модуль периодически также синхронизируется и умеет скачивать нужные данные из корпуса через интернет.
 
== Выкладывание в продакшен ==
 
== Выкладывание в продакшен ==
 
[[Токенизатор/ПорядокВыкладыванияВПродакшен | Инструкция]]
 
[[Токенизатор/ПорядокВыкладыванияВПродакшен | Инструкция]]

Текущая версия на 00:01, 22 ноября 2011

Что это

Токенизатор — инструмент для автоматического или полуавтоматического разделения текста на токены, т.е. на слова и другие цепочки символов, которые мы хотим считать минимальными линейными единицами текста. В корпусе мы используем токенизатор для предварительной сегментации, которая потом проверяется вручную.

Код

Токенизатор существует в трёх параллельных измерениях:

Код в первых двух местах в норме всегда синхронизирован. Модуль периодически также синхронизируется и умеет скачивать нужные данные из корпуса через интернет.

Выкладывание в продакшен

Инструкция