Токенизатор/ПерловыйМодуль

Материал из OpenCorpora Вики
Перейти к: навигация, поиск

Назначение

Мы хотим делать модули на Perl для того, чтобы было удобно раздавать результаты проекта программистам.

Возможность использования данных Открытого Корпуса без привязки к его инфрастктуре.

Описание

По сути представляет из себя порт lib_tokenizer. Самостоятельных фич, кроме обновления через интернет, не имеет.

Дистрибутив состоит из набора модулей, документации, вспомогательных скриптов и файлов с данными.

Файлы с данными

Для работы модуля необходимы 4 файла:

  • список векторов с вероятностями
  • список исключений
  • список префиксов
  • список слов с дефисом

Все файлы генерируются автоматически перед релизом новой версии. Генерацией занимается скрипт gen_data_for_module.pl.

Версии файлов, сгенерированные для старых релизов, остаются доступными на скачивание даже после выхода более новой версии. Это позволяет сохранять обратную совместимость обновления для старых версий модуля. Шаблон URL: http://opencorpora.org/files/export/tokenizer_data/$version/$name.{latest,gz}.

Примеры:

Версии

Дистрибутив имеет две версии: версия кода и версия данных.

Rationale: ...

Код

Данные

Разработка

Исходный код модуля доступен на GitHub. В репозитории всегда находится самая последняя версия кода, возможно не всегда готовая для полноценного релиза.

Код в репозитории периодически синхронизируется с кодом lib_tokenizer и collect_data.

Примеры

...

Проблемы

  • Путаница с версиями
  • Медленная работа
  • Отсутствие нормального инструмента для QA

Ссылки

...