Задачи для разработчиков: различия между версиями

Версия от 20:06, 21 сентября 2012

Ниже приводится список задач, которые любой желающий может помочь нам сделать. Сюда попадает то, что, как нам кажется, легко сделать, не закапываясь глубоко в наш код.

Предварительно прочтите, пожалуйста, страницу Разработчикам.

Если вы хотите взять себе задачу — напишите на рассылку opencorpora-dev@ и/или на [email protected].

PHP

Читаемое отображение отличий

Наша разметка и словарь версионированы, т.е. мы храним для них историю изменений. Иногда хочется посмотреть разницу между двумя версиями. Сейчас это выглядит как-то так и это очень сложно читать. Предположительно, должны существовать библиотеки для таких задач.

Задача: сделать такую страницу более читаемой.
Исходные данные: два текста в XML-формате, структуру см. по ссылке выше.
Инструменты: PHP, HTML, CSS, JavaScript?
Тикет: http://code.google.com/p/opencorpora/issues/detail?id=43

Perl/Python

Синхронизация с Викисловарём

Наш морфологический словарь хотелось бы иногда пополнять. Например, с помощью Викисловаря.

Задача: написать программу, выдающую список лемм, отсутствующих у нас и присутствующих в Викисловаре.
Исходные данные: экспорт нашего словаря здесь; дамп Викисловаря берётся где-то здесь под названием ruwiktionary.
Тикет: http://code.google.com/p/opencorpora/issues/detail?id=157

Валидаторы тегов

У документов, которые мы добавляем в корпус, проставляются так называемые метаданные (метатеги), например, дата создания или автор. Хочется уметь находить документы, у которых эти данные похожи на ошибочные. Некоторое количество программ-валидаторов уже написано, они лежат в каталоге scripts/validators/. По аналогии с ними можно делать остальные.

Потребуется некоторое знание SQL. Структура нашей БД здесь, нас интересуют таблицы books и book_tags.

Задача 1: изменить валидатор года так, чтобы он помечал документы из блогов старее 2000 года.
Задача 2: проверять, что у документа из блогов указаны теги Дата: и Время:
Задача 3: изменить валидатор URL с учётом того, что у документа, не находящегося на самом нижнем уровне иерархии, тега url: может не быть.

Другое

Составить XML Schema

Наши данные экспортируются в формате XML, хочется иметь XML Schema для экспорта словаря и для экспорта разметки.

Исходные данные: файлы экспорта можно найти на странице Downloads
Тикет: http://code.google.com/p/opencorpora/issues/detail?id=71

Конвертация статей в HTML

У нас есть несколько статей, написанных в формате TEX. Хочется научиться конвертировать их в HTML.

Задача: найти и протестировать нужный инструмент.
Исходные данные: ссылки на .tex файлы здесь.
Тикет: http://code.google.com/p/opencorpora/issues/detail?id=213

@@ Строка 19: / Строка 19: @@
 * '''Исходные данные''': экспорт нашего словаря [http://opencorpora.org/?page=downloads здесь]; дамп Викисловаря берётся [http://dumps.wikimedia.org/backup-index.html где-то здесь] под названием ruwiktionary.
 * '''Тикет''': http://code.google.com/p/opencorpora/issues/detail?id=157
+=== Валидаторы тегов ===
+У документов, которые мы добавляем в корпус, проставляются так называемые метаданные (метатеги), например, дата создания или автор. Хочется уметь находить документы, у которых эти данные похожи на ошибочные. Некоторое количество программ-валидаторов уже написано, они лежат в каталоге scripts/validators/. По аналогии с ними можно делать остальные.
+Потребуется некоторое знание SQL. Структура нашей БД [http://code.google.com/p/opencorpora/source/browse/trunk/install/install.sql здесь], нас интересуют таблицы books и book_tags.
+* '''Задача 1''': изменить валидатор года так, чтобы он помечал документы из блогов старее 2000 года.
+* '''Задача 2''': проверять, что у документа из блогов указаны теги Дата: и Время:
+* '''Задача 3''': изменить валидатор URL с учётом того, что у документа, не находящегося на самом нижнем уровне иерархии, тега url: может не быть.
 == Другое ==
 === Составить XML Schema ===

Задачи для разработчиков: различия между версиями

Версия от 20:06, 21 сентября 2012

Содержание

PHP

Читаемое отображение отличий

Perl/Python

Синхронизация с Викисловарём

Валидаторы тегов

Другое

Составить XML Schema

Конвертация статей в HTML

Навигация

Задачи для разработчиков: различия между версиями

Версия от 20:06, 21 сентября 2012

PHP

Читаемое отображение отличий

Perl/Python

Синхронизация с Викисловарём

Валидаторы тегов

Другое

Составить XML Schema

Конвертация статей в HTML

Навигация

Поиск