Задачи для разработчиков: различия между версиями
GranD (обсуждение | вклад) Нет описания правки |
GranD (обсуждение | вклад) |
||
Строка 28: | Строка 28: | ||
* '''Задача 2''': проверять, что у документа из блогов указаны теги Дата: и Время: | * '''Задача 2''': проверять, что у документа из блогов указаны теги Дата: и Время: | ||
* '''Задача 3''': изменить валидатор URL с учётом того, что у документа, не находящегося на самом нижнем уровне иерархии, тега url: может не быть. | * '''Задача 3''': изменить валидатор URL с учётом того, что у документа, не находящегося на самом нижнем уровне иерархии, тега url: может не быть. | ||
=== Экспорт N-грамм === | |||
У нас [http://opencorpora.org/?page=downloads есть] экспорт N-грамм слов (токенов). Хочется и экспорт N-грамм символов. Для вдохновения можно посмотреть [http://code.google.com/p/opencorpora/source/browse/trunk/export/export_ngram.pl скрипт экспорта N-грамм слов]. | |||
Потребуется минимальное знание SQL. Структура нашей БД [http://code.google.com/p/opencorpora/source/browse/trunk/install/install.sql здесь], нас интересует таблица text_forms. | |||
* '''Задача''': сделать программу, генерирующую частотные списки N-грамм кириллических символов (0 < N < 6) по данным корпуса. | |||
== Другое == | == Другое == |
Версия от 20:18, 21 сентября 2012
Ниже приводится список задач, которые любой желающий может помочь нам сделать. Сюда попадает то, что, как нам кажется, легко сделать, не закапываясь глубоко в наш код. Можно заглянуть ещё в список задач, может быть, там вы найдёте что-нибудь себе по душе.
Предварительно прочтите, пожалуйста, страницу Разработчикам.
Если вы хотите взять себе задачу — напишите на рассылку opencorpora-dev@ и/или на [email protected].
PHP
Читаемое отображение отличий
Наша разметка и словарь версионированы, т.е. мы храним для них историю изменений. Иногда хочется посмотреть разницу между двумя версиями. Сейчас это выглядит как-то так и это очень сложно читать. Предположительно, должны существовать библиотеки для таких задач.
- Задача: сделать такую страницу более читаемой.
- Исходные данные: два текста в XML-формате, структуру см. по ссылке выше.
- Инструменты: PHP, HTML, CSS, JavaScript?
- Тикет: http://code.google.com/p/opencorpora/issues/detail?id=43
Аудит безопасности
Мы стараемся писать такой код, чтобы нельзя было взломать наш сайт и/или БД, используя ошибки в коде. Тем не менее, всякое бывает. Весь наш код выложен в открытый доступ (ссылка в начале этой страницы). Если вы найдёте у нас ошибку, с помощью которой можно сделать что-нибудь нехорошее, напишите нам об этом.
Perl/Python
Синхронизация с Викисловарём
Наш морфологический словарь хотелось бы иногда пополнять. Например, с помощью Викисловаря.
- Задача: написать программу, выдающую список лемм, отсутствующих у нас и присутствующих в Викисловаре.
- Исходные данные: экспорт нашего словаря здесь; дамп Викисловаря берётся где-то здесь под названием ruwiktionary.
- Тикет: http://code.google.com/p/opencorpora/issues/detail?id=157
Валидаторы тегов
У документов, которые мы добавляем в корпус, проставляются так называемые метаданные (метатеги), например, дата создания или автор. Хочется уметь находить документы, у которых эти данные похожи на ошибочные. Некоторое количество программ-валидаторов уже написано, они лежат в каталоге scripts/validators/. По аналогии с ними можно делать остальные.
Потребуется некоторое знание SQL. Структура нашей БД здесь, нас интересуют таблицы books и book_tags.
- Задача 1: изменить валидатор года так, чтобы он помечал документы из блогов старее 2000 года.
- Задача 2: проверять, что у документа из блогов указаны теги Дата: и Время:
- Задача 3: изменить валидатор URL с учётом того, что у документа, не находящегося на самом нижнем уровне иерархии, тега url: может не быть.
Экспорт N-грамм
У нас есть экспорт N-грамм слов (токенов). Хочется и экспорт N-грамм символов. Для вдохновения можно посмотреть скрипт экспорта N-грамм слов.
Потребуется минимальное знание SQL. Структура нашей БД здесь, нас интересует таблица text_forms.
- Задача: сделать программу, генерирующую частотные списки N-грамм кириллических символов (0 < N < 6) по данным корпуса.
Другое
Составить XML Schema
Наши данные экспортируются в формате XML, хочется иметь XML Schema для экспорта словаря и для экспорта разметки.
- Исходные данные: файлы экспорта можно найти на странице Downloads
- Тикет: http://code.google.com/p/opencorpora/issues/detail?id=71
Конвертация статей в HTML
У нас есть несколько статей, написанных в формате TEX. Хочется научиться конвертировать их в HTML.
- Задача: найти и протестировать нужный инструмент.
- Исходные данные: ссылки на .tex файлы здесь.
- Тикет: http://code.google.com/p/opencorpora/issues/detail?id=213