Токенизатор: различия между версиями
Перейти к навигации
Перейти к поиску
Ksurent (обсуждение | вклад) |
Ksurent (обсуждение | вклад) Нет описания правки |
||
Строка 5: | Строка 5: | ||
* в виде набора функций в PHP-библиотеке [http://code.google.com/p/opencorpora/source/browse/trunk/lib/lib_tokenizer.php lib_tokenizer], | * в виде набора функций в PHP-библиотеке [http://code.google.com/p/opencorpora/source/browse/trunk/lib/lib_tokenizer.php lib_tokenizer], | ||
* в виде [http://code.google.com/p/opencorpora/source/browse/trunk/scripts/tokenizer/collect_data.pl Perl-скрипта] | * в виде [http://code.google.com/p/opencorpora/source/browse/trunk/scripts/tokenizer/collect_data.pl Perl-скрипта] | ||
* в виде [http://search.cpan.org/perldoc?Lingua::RU::OpenCorpora::Tokenizer внешнего Perl-модуля], который почти никак не завязан на корпус и который можно скачать и использовать на любой машине. | * в виде [http://search.cpan.org/perldoc?Lingua::RU::OpenCorpora::Tokenizer внешнего Perl-модуля], который почти никак не завязан на корпус и который можно скачать и использовать на любой машине. [[Токенизатор/ПерловыйМодуль | Подробнее про модуль]]. | ||
Код в первых двух местах в норме всегда синхронизирован. Модуль периодически также синхронизируется и умеет скачивать нужные данные из корпуса через интернет. | Код в первых двух местах в норме всегда синхронизирован. Модуль периодически также синхронизируется и умеет скачивать нужные данные из корпуса через интернет. | ||
== Выкладывание в продакшен == | == Выкладывание в продакшен == | ||
[[Токенизатор/ПорядокВыкладыванияВПродакшен | Инструкция]] | [[Токенизатор/ПорядокВыкладыванияВПродакшен | Инструкция]] |
Текущая версия от 21:01, 21 ноября 2011
Что это
Токенизатор — инструмент для автоматического или полуавтоматического разделения текста на токены, т.е. на слова и другие цепочки символов, которые мы хотим считать минимальными линейными единицами текста. В корпусе мы используем токенизатор для предварительной сегментации, которая потом проверяется вручную.
Код
Токенизатор существует в трёх параллельных измерениях:
- в виде набора функций в PHP-библиотеке lib_tokenizer,
- в виде Perl-скрипта
- в виде внешнего Perl-модуля, который почти никак не завязан на корпус и который можно скачать и использовать на любой машине. Подробнее про модуль.
Код в первых двух местах в норме всегда синхронизирован. Модуль периодически также синхронизируется и умеет скачивать нужные данные из корпуса через интернет.