Токенизатор: различия между версиями
Перейти к навигации
Перейти к поиску
GranD (обсуждение | вклад) (Новая страница: «== Что это == Токенизатор — инструмент для автоматического или полуавтоматического разд...») |
GranD (обсуждение | вклад) Нет описания правки |
||
Строка 1: | Строка 1: | ||
== Что это == | == Что это == | ||
Токенизатор — инструмент для автоматического или полуавтоматического разделения текста на токены, т.е. на слова и другие цепочки символов, которые мы хотим считать минимальными линейными единицами текста. В корпусе мы используем токенизатор для предварительной сегментации, которая потом проверяется вручную. | Токенизатор — инструмент для автоматического или полуавтоматического разделения текста на токены, т.е. на слова и другие цепочки символов, которые мы хотим считать минимальными линейными единицами текста. В корпусе мы используем токенизатор для предварительной сегментации, которая потом проверяется вручную. | ||
== Код == | |||
Токенизатор существует в трёх параллельных измерениях: | |||
* в виде набора функций в PHP-библиотеке [http://code.google.com/p/opencorpora/source/browse/trunk/lib/lib_tokenizer.php lib_tokenizer], | |||
* в виде [http://code.google.com/p/opencorpora/source/browse/trunk/scripts/tokenizer/collect_data.pl Perl-скрипта] | |||
* в виде [http://search.cpan.org/perldoc?Lingua::RU::OpenCorpora::Tokenizer внешнего Perl-модуля], который почти никак не завязан на корпус и который можно скачать и использовать на любой машине. | |||
Код в первых двух местах в норме всегда синхронизирован. Модуль периодически также синхронизируется и умеет скачивать нужные данные из корпуса через интернет. |
Версия от 11:32, 19 ноября 2011
Что это
Токенизатор — инструмент для автоматического или полуавтоматического разделения текста на токены, т.е. на слова и другие цепочки символов, которые мы хотим считать минимальными линейными единицами текста. В корпусе мы используем токенизатор для предварительной сегментации, которая потом проверяется вручную.
Код
Токенизатор существует в трёх параллельных измерениях:
- в виде набора функций в PHP-библиотеке lib_tokenizer,
- в виде Perl-скрипта
- в виде внешнего Perl-модуля, который почти никак не завязан на корпус и который можно скачать и использовать на любой машине.
Код в первых двух местах в норме всегда синхронизирован. Модуль периодически также синхронизируется и умеет скачивать нужные данные из корпуса через интернет.