Токенизатор/ПерловыйМодуль — различия между версиями

Материал из OpenCorpora Вики
Перейти к: навигация, поиск
(Новая страница: «= Назначение = <blockquote>''Мы хотим делать модули на Perl для того, чтобы было удобно раздавать ре...»)
 
Строка 7: Строка 7:
 
= Описание =
 
= Описание =
  
По сути представляет из себя порт lib_tokenizer.php.
+
По сути представляет из себя порт [http://code.google.com/p/opencorpora/source/browse/trunk/lib/lib_tokenizer.php lib_tokenizer]. Самостоятельных фич, кроме обновления через интернет, не имеет.
  
Дистрибутив состоит из набора модулей, документации и вспомогательных скриптов.
+
Дистрибутив состоит из набора модулей, документации, вспомогательных скриптов и файлов с данными.
  
...
+
== Файлы с данными ==
  
= Разработка =
+
Для работы модуля необходимы 4 файла:
 +
* список векторов с вероятностями
 +
* список исключений
 +
* список префиксов
 +
* список слов с дефисом
  
Исходный код модуля доступен на гитхабе.
+
Все файлы генерируются автоматически перед релизом новой версии. Генерацией занимается скрипт [http://code.google.com/p/opencorpora/source/browse/trunk/scripts/tokenizer/gen_data_for_module.pl gen_data_for_module.pl].
 +
 
 +
Версии файлов, сгенерированные для старых релизов, остаются доступными на скачивание даже после выхода более новой версии. Это позволяет сохранять обратную совместимость обновления для старых версий модуля.
 +
Шаблон URL: http://opencorpora.org/files/export/tokenizer_data/$version/$name.{latest,gz}.
 +
 
 +
Примеры:
 +
* http://opencorpora.org/files/export/tokenizer_data/0.03/vectors.latest
 +
* http://opencorpora.org/files/export/tokenizer_data/0.04/expceptions.gz
 +
 
 +
== Версии ==
 +
 
 +
Дистрибутив имеет две версии: версия кода и версия данных.
 +
 
 +
Rationale: ...
 +
 
 +
=== Код ===
 +
 
 +
=== Данные ===
 +
 
 +
= Разработка =
  
Не имеет собственных фич, кроме обновления через интернет.
+
Исходный код модуля доступен на [https://github.com/ksurent/Lingua--RU--OpenCorpora--Tokenizer GitHub].
 +
В репозитории всегда находится самая последняя версия кода, возможно не всегда готовая для полноценного релиза.
  
...
+
Код в репозитории периодически синхронизируется с кодом lib_tokenizer и collect_data.
  
 
= Примеры =
 
= Примеры =

Версия 12:51, 23 ноября 2011

Назначение

Мы хотим делать модули на Perl для того, чтобы было удобно раздавать результаты проекта программистам.

Возможность использования данных Открытого Корпуса без привязки к его инфрастктуре.

Описание

По сути представляет из себя порт lib_tokenizer. Самостоятельных фич, кроме обновления через интернет, не имеет.

Дистрибутив состоит из набора модулей, документации, вспомогательных скриптов и файлов с данными.

Файлы с данными

Для работы модуля необходимы 4 файла:

  • список векторов с вероятностями
  • список исключений
  • список префиксов
  • список слов с дефисом

Все файлы генерируются автоматически перед релизом новой версии. Генерацией занимается скрипт gen_data_for_module.pl.

Версии файлов, сгенерированные для старых релизов, остаются доступными на скачивание даже после выхода более новой версии. Это позволяет сохранять обратную совместимость обновления для старых версий модуля. Шаблон URL: http://opencorpora.org/files/export/tokenizer_data/$version/$name.{latest,gz}.

Примеры:

Версии

Дистрибутив имеет две версии: версия кода и версия данных.

Rationale: ...

Код

Данные

Разработка

Исходный код модуля доступен на GitHub. В репозитории всегда находится самая последняя версия кода, возможно не всегда готовая для полноценного релиза.

Код в репозитории периодически синхронизируется с кодом lib_tokenizer и collect_data.

Примеры

...

Проблемы

  • Путаница с версиями
  • Медленная работа
  • Отсутствие нормального инструмента для QA

Ссылки

...