Задачи для разработчиков: различия между версиями

Материал из OpenCorpora
Перейти к навигации Перейти к поиску
Нет описания правки
 
(не показаны 3 промежуточные версии этого же участника)
Строка 1: Строка 1:
Ниже приводится список задач, которые любой желающий может помочь нам сделать. Сюда попадает то, что, как нам кажется, легко сделать, не закапываясь глубоко в наш код. Можно заглянуть ещё в [http://code.google.com/p/opencorpora/issues/list список задач], может быть, там вы найдёте что-нибудь себе по душе.
Ниже приводится список задач, которые любой желающий может помочь нам сделать. Сюда попадает то, что, как нам кажется, легко сделать, не закапываясь глубоко в наш код. Но в первую очередь нужно заглянуть в [https://github.com/OpenCorpora/opencorpora/issues список задач], может быть, там вы найдёте что-нибудь себе по душе.


Предварительно прочтите, пожалуйста, страницу [[Разработчикам]].
Предварительно прочтите, пожалуйста, страницу [[Разработчикам]].
Строка 6: Строка 6:


== PHP ==
== PHP ==
=== Читаемое отображение отличий ===
Наша разметка и словарь версионированы, т.е. мы храним для них историю изменений. Иногда хочется посмотреть разницу между двумя версиями. Сейчас это выглядит [http://opencorpora.org/dict_diff.php?lemma_id=75046&set_id=3027 как-то так] и это очень сложно читать. Предположительно, должны существовать библиотеки для таких задач.
* '''Задача''': сделать такую страницу более читаемой.
* '''Исходные данные''': два текста в XML-формате, структуру см. по ссылке выше.
* '''Инструменты''': PHP, HTML, CSS, JavaScript?
* '''Тикет''': http://code.google.com/p/opencorpora/issues/detail?id=43
=== Аудит безопасности ===
=== Аудит безопасности ===
Мы стараемся писать такой код, чтобы нельзя было взломать наш сайт и/или БД, используя ошибки в коде. Тем не менее, всякое бывает. Весь наш код выложен в открытый доступ (ссылка в начале этой страницы). Если вы найдёте у нас ошибку, с помощью которой можно сделать что-нибудь нехорошее, напишите нам об этом.
Мы стараемся писать такой код, чтобы нельзя было взломать наш сайт и/или БД, используя ошибки в коде. Тем не менее, всякое бывает. Весь наш код выложен в открытый доступ (ссылка в начале этой страницы). Если вы найдёте у нас ошибку, с помощью которой можно сделать что-нибудь нехорошее, напишите нам об этом.
== Perl/Python ==
== Perl/Python ==
=== Синхронизация с Викисловарём ===
 
Наш [http://opencorpora.org/dict.php морфологический словарь] хотелось бы иногда пополнять. Например, с помощью [http://ru.wiktionary.org Викисловаря].
* '''Задача''': написать программу, выдающую список лемм, отсутствующих у нас и присутствующих в Викисловаре.
* '''Исходные данные''': экспорт нашего словаря [http://opencorpora.org/?page=downloads здесь]; дамп Викисловаря берётся [http://dumps.wikimedia.org/backup-index.html где-то здесь] под названием ruwiktionary.
* '''Тикет''': http://code.google.com/p/opencorpora/issues/detail?id=157
=== Валидаторы тегов ===
=== Валидаторы тегов ===
У документов, которые мы добавляем в корпус, проставляются так называемые метаданные (метатеги), например, дата создания или автор. Хочется уметь находить документы, у которых эти данные похожи на ошибочные. Некоторое количество программ-валидаторов уже написано, они лежат в каталоге scripts/validators/. По аналогии с ними можно делать остальные.
У документов, которые мы добавляем в корпус, проставляются так называемые метаданные (метатеги), например, дата создания или автор. Хочется уметь находить документы, у которых эти данные похожи на ошибочные. Некоторое количество программ-валидаторов уже написано, они лежат в каталоге scripts/validators/. По аналогии с ними можно делать остальные.
Строка 35: Строка 25:


== Другое ==
== Другое ==
=== Составить XML Schema ===
Наши данные экспортируются в формате XML, хочется иметь [http://en.wikipedia.org/wiki/XML_schema XML Schema] для экспорта словаря и для экспорта разметки.
* '''Исходные данные''': файлы экспорта можно найти на [http://opencorpora.org/?page=downloads странице Downloads]
* '''Тикет''': http://code.google.com/p/opencorpora/issues/detail?id=71
=== Конвертация статей в HTML ===
=== Конвертация статей в HTML ===
У нас есть несколько статей, написанных в формате TeX. Хочется научиться конвертировать их в HTML.
У нас есть несколько статей, написанных в формате TeX. Хочется научиться конвертировать их в HTML.

Текущая версия от 07:07, 19 августа 2014

Ниже приводится список задач, которые любой желающий может помочь нам сделать. Сюда попадает то, что, как нам кажется, легко сделать, не закапываясь глубоко в наш код. Но в первую очередь нужно заглянуть в список задач, может быть, там вы найдёте что-нибудь себе по душе.

Предварительно прочтите, пожалуйста, страницу Разработчикам.

Если вы хотите взять себе задачу — напишите на рассылку opencorpora-dev@ и/или на [email protected].

PHP

Аудит безопасности

Мы стараемся писать такой код, чтобы нельзя было взломать наш сайт и/или БД, используя ошибки в коде. Тем не менее, всякое бывает. Весь наш код выложен в открытый доступ (ссылка в начале этой страницы). Если вы найдёте у нас ошибку, с помощью которой можно сделать что-нибудь нехорошее, напишите нам об этом.

Perl/Python

Валидаторы тегов

У документов, которые мы добавляем в корпус, проставляются так называемые метаданные (метатеги), например, дата создания или автор. Хочется уметь находить документы, у которых эти данные похожи на ошибочные. Некоторое количество программ-валидаторов уже написано, они лежат в каталоге scripts/validators/. По аналогии с ними можно делать остальные.

Потребуется некоторое знание SQL. Структура нашей БД здесь, нас интересуют таблицы books и book_tags.

  • Задача 1: изменить валидатор года так, чтобы он помечал документы из блогов старее 2000 года.
  • Задача 2: проверять, что у документа из блогов указаны теги Дата: и Время:
  • Задача 3: изменить валидатор URL с учётом того, что у документа, не находящегося на самом нижнем уровне иерархии, тега url: может не быть.

Экспорт N-грамм

У нас есть экспорт N-грамм слов (токенов). Хочется и экспорт N-грамм символов. Для вдохновения можно посмотреть скрипт экспорта N-грамм слов.

Потребуется минимальное знание SQL. Структура нашей БД здесь, нас интересует таблица text_forms.

  • Задача: сделать программу, генерирующую частотные списки N-грамм кириллических символов (0 < N < 6) по данным корпуса.

Другое

Конвертация статей в HTML

У нас есть несколько статей, написанных в формате TeX. Хочется научиться конвертировать их в HTML.