Токенизатор/ПерловыйМодуль: различия между версиями

Материал из OpenCorpora
Перейти к навигации Перейти к поиску
(Новая страница: «= Назначение = <blockquote>''Мы хотим делать модули на Perl для того, чтобы было удобно раздавать ре...»)
 
Нет описания правки
Строка 7: Строка 7:
= Описание =
= Описание =


По сути представляет из себя порт lib_tokenizer.php.
По сути представляет из себя порт [http://code.google.com/p/opencorpora/source/browse/trunk/lib/lib_tokenizer.php lib_tokenizer]. Самостоятельных фич, кроме обновления через интернет, не имеет.


Дистрибутив состоит из набора модулей, документации и вспомогательных скриптов.
Дистрибутив состоит из набора модулей, документации, вспомогательных скриптов и файлов с данными.


...
== Файлы с данными ==
 
Для работы модуля необходимы 4 файла:
* список векторов с вероятностями
* список исключений
* список префиксов
* список слов с дефисом
 
Все файлы генерируются автоматически перед релизом новой версии. Генерацией занимается скрипт [http://code.google.com/p/opencorpora/source/browse/trunk/scripts/tokenizer/gen_data_for_module.pl gen_data_for_module.pl].
 
Версии файлов, сгенерированные для старых релизов, остаются доступными на скачивание даже после выхода более новой версии. Это позволяет сохранять обратную совместимость обновления для старых версий модуля.
Шаблон URL: http://opencorpora.org/files/export/tokenizer_data/$version/$name.{latest,gz}.
 
Примеры:
* http://opencorpora.org/files/export/tokenizer_data/0.03/vectors.latest
* http://opencorpora.org/files/export/tokenizer_data/0.04/expceptions.gz
 
== Версии ==
 
Дистрибутив имеет две версии: версия кода и версия данных.
 
Rationale: ...
 
=== Код ===
 
=== Данные ===


= Разработка =
= Разработка =


Исходный код модуля доступен на гитхабе.
Исходный код модуля доступен на [https://github.com/ksurent/Lingua--RU--OpenCorpora--Tokenizer GitHub].
 
В репозитории всегда находится самая последняя версия кода, возможно не всегда готовая для полноценного релиза.
Не имеет собственных фич, кроме обновления через интернет.


...
Код в репозитории периодически синхронизируется с кодом lib_tokenizer и collect_data.


= Примеры =
= Примеры =

Версия от 09:51, 23 ноября 2011

Назначение

Мы хотим делать модули на Perl для того, чтобы было удобно раздавать результаты проекта программистам.

Возможность использования данных Открытого Корпуса без привязки к его инфрастктуре.

Описание

По сути представляет из себя порт lib_tokenizer. Самостоятельных фич, кроме обновления через интернет, не имеет.

Дистрибутив состоит из набора модулей, документации, вспомогательных скриптов и файлов с данными.

Файлы с данными

Для работы модуля необходимы 4 файла:

  • список векторов с вероятностями
  • список исключений
  • список префиксов
  • список слов с дефисом

Все файлы генерируются автоматически перед релизом новой версии. Генерацией занимается скрипт gen_data_for_module.pl.

Версии файлов, сгенерированные для старых релизов, остаются доступными на скачивание даже после выхода более новой версии. Это позволяет сохранять обратную совместимость обновления для старых версий модуля. Шаблон URL: http://opencorpora.org/files/export/tokenizer_data/$version/$name.{latest,gz}.

Примеры:

Версии

Дистрибутив имеет две версии: версия кода и версия данных.

Rationale: ...

Код

Данные

Разработка

Исходный код модуля доступен на GitHub. В репозитории всегда находится самая последняя версия кода, возможно не всегда готовая для полноценного релиза.

Код в репозитории периодически синхронизируется с кодом lib_tokenizer и collect_data.

Примеры

...

Проблемы

  • Путаница с версиями
  • Медленная работа
  • Отсутствие нормального инструмента для QA

Ссылки

...