Токенизатор/ПерловыйМодуль
Назначение
Мы хотим делать модули на Perl для того, чтобы было удобно раздавать результаты проекта программистам.
Возможность использования данных Открытого Корпуса без привязки к его инфрастктуре.
Описание
По сути представляет из себя порт lib_tokenizer. Самостоятельных фич, кроме обновления через интернет, не имеет.
Дистрибутив состоит из набора модулей, документации, вспомогательных скриптов и файлов с данными.
Файлы с данными
Для работы модуля необходимы 4 файла:
- список векторов с вероятностями
- список исключений
- список префиксов
- список слов с дефисом
Все файлы генерируются автоматически перед релизом новой версии. Генерацией занимается скрипт gen_data_for_module.pl.
Версии файлов, сгенерированные для старых релизов, остаются доступными на скачивание даже после выхода более новой версии. Это позволяет сохранять обратную совместимость обновления для старых версий модуля. Шаблон URL: http://opencorpora.org/files/export/tokenizer_data/$version/$name.{latest,gz}.
Примеры:
- http://opencorpora.org/files/export/tokenizer_data/0.03/vectors.latest
- http://opencorpora.org/files/export/tokenizer_data/0.04/expceptions.gz
Версии
Дистрибутив имеет две версии: версия кода и версия данных.
Rationale: ...
Код
Данные
Разработка
Исходный код модуля доступен на GitHub. В репозитории всегда находится самая последняя версия кода, возможно не всегда готовая для полноценного релиза.
Код в репозитории периодически синхронизируется с кодом lib_tokenizer и collect_data.
Примеры
...
Проблемы
- Путаница с версиями
- Медленная работа
- Отсутствие нормального инструмента для QA
Ссылки
...