Версия от 09:51, 23 ноября 2011

Назначение

Мы хотим делать модули на Perl для того, чтобы было удобно раздавать результаты проекта программистам.

Возможность использования данных Открытого Корпуса без привязки к его инфрастктуре.

Описание

По сути представляет из себя порт lib_tokenizer. Самостоятельных фич, кроме обновления через интернет, не имеет.

Дистрибутив состоит из набора модулей, документации, вспомогательных скриптов и файлов с данными.

Файлы с данными

Для работы модуля необходимы 4 файла:

список векторов с вероятностями
список исключений
список префиксов
список слов с дефисом

Все файлы генерируются автоматически перед релизом новой версии. Генерацией занимается скрипт gen_data_for_module.pl.

Версии файлов, сгенерированные для старых релизов, остаются доступными на скачивание даже после выхода более новой версии. Это позволяет сохранять обратную совместимость обновления для старых версий модуля. Шаблон URL: http://opencorpora.org/files/export/tokenizer_data/$version/$name.{latest,gz}.

Примеры:

Версии

Дистрибутив имеет две версии: версия кода и версия данных.

Rationale: ...

Код

Данные

Разработка

Исходный код модуля доступен на GitHub. В репозитории всегда находится самая последняя версия кода, возможно не всегда готовая для полноценного релиза.

Код в репозитории периодически синхронизируется с кодом lib_tokenizer и collect_data.

Примеры

...

Проблемы

Путаница с версиями
Медленная работа
Отсутствие нормального инструмента для QA

Ссылки

...

@@ Строка 7: / Строка 7: @@
 = Описание =
-По сути представляет из себя порт lib_tokenizer.php.
+По сути представляет из себя порт [http://code.google.com/p/opencorpora/source/browse/trunk/lib/lib_tokenizer.php lib_tokenizer]. Самостоятельных фич, кроме обновления через интернет, не имеет.
-Дистрибутив состоит из набора модулей, документации и вспомогательных скриптов.
+Дистрибутив состоит из набора модулей, документации, вспомогательных скриптов и файлов с данными.
-...
+== Файлы с данными ==
+Для работы модуля необходимы 4 файла:
+* список векторов с вероятностями
+* список исключений
+* список префиксов
+* список слов с дефисом
+Все файлы генерируются автоматически перед релизом новой версии. Генерацией занимается скрипт [http://code.google.com/p/opencorpora/source/browse/trunk/scripts/tokenizer/gen_data_for_module.pl gen_data_for_module.pl].
+Версии файлов, сгенерированные для старых релизов, остаются доступными на скачивание даже после выхода более новой версии. Это позволяет сохранять обратную совместимость обновления для старых версий модуля.
+Шаблон URL: http://opencorpora.org/files/export/tokenizer_data/$version/$name.{latest,gz}.
+Примеры:
+* http://opencorpora.org/files/export/tokenizer_data/0.03/vectors.latest
+* http://opencorpora.org/files/export/tokenizer_data/0.04/expceptions.gz
+== Версии ==
+Дистрибутив имеет две версии: версия кода и версия данных.
+Rationale: ...
+=== Код ===
+=== Данные ===
 = Разработка =
-Исходный код модуля доступен на гитхабе.
+Исходный код модуля доступен на [https://github.com/ksurent/Lingua--RU--OpenCorpora--Tokenizer GitHub].
+В репозитории всегда находится самая последняя версия кода, возможно не всегда готовая для полноценного релиза.
-Не имеет собственных фич, кроме обновления через интернет.
-...
+Код в репозитории периодически синхронизируется с кодом lib_tokenizer и collect_data.
 = Примеры =

Токенизатор/ПерловыйМодуль: различия между версиями

Версия от 09:51, 23 ноября 2011

Содержание

Назначение

Описание

Файлы с данными

Версии

Код

Данные

Разработка

Примеры

Проблемы

Ссылки

Навигация

Токенизатор/ПерловыйМодуль: различия между версиями

Версия от 09:51, 23 ноября 2011

Назначение

Описание

Файлы с данными

Версии

Код

Данные

Разработка

Примеры

Проблемы

Ссылки

Навигация

Поиск