Токенизатор/ПерловыйМодуль: различия между версиями
Ksurent (обсуждение | вклад) (Новая страница: «= Назначение = <blockquote>''Мы хотим делать модули на Perl для того, чтобы было удобно раздавать ре...») |
Ksurent (обсуждение | вклад) Нет описания правки |
||
Строка 7: | Строка 7: | ||
= Описание = | = Описание = | ||
По сути представляет из себя порт lib_tokenizer.php. | По сути представляет из себя порт [http://code.google.com/p/opencorpora/source/browse/trunk/lib/lib_tokenizer.php lib_tokenizer]. Самостоятельных фич, кроме обновления через интернет, не имеет. | ||
Дистрибутив состоит из набора модулей, документации | Дистрибутив состоит из набора модулей, документации, вспомогательных скриптов и файлов с данными. | ||
... | == Файлы с данными == | ||
Для работы модуля необходимы 4 файла: | |||
* список векторов с вероятностями | |||
* список исключений | |||
* список префиксов | |||
* список слов с дефисом | |||
Все файлы генерируются автоматически перед релизом новой версии. Генерацией занимается скрипт [http://code.google.com/p/opencorpora/source/browse/trunk/scripts/tokenizer/gen_data_for_module.pl gen_data_for_module.pl]. | |||
Версии файлов, сгенерированные для старых релизов, остаются доступными на скачивание даже после выхода более новой версии. Это позволяет сохранять обратную совместимость обновления для старых версий модуля. | |||
Шаблон URL: http://opencorpora.org/files/export/tokenizer_data/$version/$name.{latest,gz}. | |||
Примеры: | |||
* http://opencorpora.org/files/export/tokenizer_data/0.03/vectors.latest | |||
* http://opencorpora.org/files/export/tokenizer_data/0.04/expceptions.gz | |||
== Версии == | |||
Дистрибутив имеет две версии: версия кода и версия данных. | |||
Rationale: ... | |||
=== Код === | |||
=== Данные === | |||
= Разработка = | = Разработка = | ||
Исходный код модуля доступен на | Исходный код модуля доступен на [https://github.com/ksurent/Lingua--RU--OpenCorpora--Tokenizer GitHub]. | ||
В репозитории всегда находится самая последняя версия кода, возможно не всегда готовая для полноценного релиза. | |||
Код в репозитории периодически синхронизируется с кодом lib_tokenizer и collect_data. | |||
= Примеры = | = Примеры = |
Версия от 09:51, 23 ноября 2011
Назначение
Мы хотим делать модули на Perl для того, чтобы было удобно раздавать результаты проекта программистам.
Возможность использования данных Открытого Корпуса без привязки к его инфрастктуре.
Описание
По сути представляет из себя порт lib_tokenizer. Самостоятельных фич, кроме обновления через интернет, не имеет.
Дистрибутив состоит из набора модулей, документации, вспомогательных скриптов и файлов с данными.
Файлы с данными
Для работы модуля необходимы 4 файла:
- список векторов с вероятностями
- список исключений
- список префиксов
- список слов с дефисом
Все файлы генерируются автоматически перед релизом новой версии. Генерацией занимается скрипт gen_data_for_module.pl.
Версии файлов, сгенерированные для старых релизов, остаются доступными на скачивание даже после выхода более новой версии. Это позволяет сохранять обратную совместимость обновления для старых версий модуля. Шаблон URL: http://opencorpora.org/files/export/tokenizer_data/$version/$name.{latest,gz}.
Примеры:
- http://opencorpora.org/files/export/tokenizer_data/0.03/vectors.latest
- http://opencorpora.org/files/export/tokenizer_data/0.04/expceptions.gz
Версии
Дистрибутив имеет две версии: версия кода и версия данных.
Rationale: ...
Код
Данные
Разработка
Исходный код модуля доступен на GitHub. В репозитории всегда находится самая последняя версия кода, возможно не всегда готовая для полноценного релиза.
Код в репозитории периодически синхронизируется с кодом lib_tokenizer и collect_data.
Примеры
...
Проблемы
- Путаница с версиями
- Медленная работа
- Отсутствие нормального инструмента для QA
Ссылки
...