Токенизатор/ПерловыйМодуль

Материал из OpenCorpora
Перейти к навигации Перейти к поиску
Версия для печати больше не поддерживается и может содержать ошибки обработки. Обновите закладки браузера и используйте вместо этого функцию печати браузера по умолчанию.

Назначение

Мы хотим делать модули на Perl для того, чтобы было удобно раздавать результаты проекта программистам.

Возможность использования данных Открытого Корпуса без привязки к его инфрастктуре.

Описание

По сути представляет из себя порт lib_tokenizer. Самостоятельных фич, кроме обновления через интернет, не имеет.

Дистрибутив состоит из набора модулей, документации, вспомогательных скриптов и файлов с данными.

Файлы с данными

Для работы модуля необходимы 4 файла:

  • список векторов с вероятностями
  • список исключений
  • список префиксов
  • список слов с дефисом

Все файлы генерируются автоматически перед релизом новой версии. Генерацией занимается скрипт gen_data_for_module.pl.

Версии файлов, сгенерированные для старых релизов, остаются доступными на скачивание даже после выхода более новой версии. Это позволяет сохранять обратную совместимость обновления для старых версий модуля. Шаблон URL: http://opencorpora.org/files/export/tokenizer_data/$version/$name.{latest,gz}.

Примеры:

Версии

Дистрибутив имеет две версии: версия кода и версия данных.

Rationale: ...

Код

Данные

Разработка

Исходный код модуля доступен на GitHub. В репозитории всегда находится самая последняя версия кода, возможно не всегда готовая для полноценного релиза.

Код в репозитории периодически синхронизируется с кодом lib_tokenizer и collect_data.

Примеры

...

Проблемы

  • Путаница с версиями
  • Медленная работа
  • Отсутствие нормального инструмента для QA

Ссылки

...