Задачи для разработчиков

Материал из OpenCorpora
Перейти к навигации Перейти к поиску
Версия для печати больше не поддерживается и может содержать ошибки обработки. Обновите закладки браузера и используйте вместо этого функцию печати браузера по умолчанию.

Ниже приводится список задач, которые любой желающий может помочь нам сделать. Сюда попадает то, что, как нам кажется, легко сделать, не закапываясь глубоко в наш код. Но в первую очередь нужно заглянуть в список задач, может быть, там вы найдёте что-нибудь себе по душе.

Предварительно прочтите, пожалуйста, страницу Разработчикам.

Если вы хотите взять себе задачу — напишите на рассылку opencorpora-dev@ и/или на [email protected].

PHP

Аудит безопасности

Мы стараемся писать такой код, чтобы нельзя было взломать наш сайт и/или БД, используя ошибки в коде. Тем не менее, всякое бывает. Весь наш код выложен в открытый доступ (ссылка в начале этой страницы). Если вы найдёте у нас ошибку, с помощью которой можно сделать что-нибудь нехорошее, напишите нам об этом.

Perl/Python

Валидаторы тегов

У документов, которые мы добавляем в корпус, проставляются так называемые метаданные (метатеги), например, дата создания или автор. Хочется уметь находить документы, у которых эти данные похожи на ошибочные. Некоторое количество программ-валидаторов уже написано, они лежат в каталоге scripts/validators/. По аналогии с ними можно делать остальные.

Потребуется некоторое знание SQL. Структура нашей БД здесь, нас интересуют таблицы books и book_tags.

  • Задача 1: изменить валидатор года так, чтобы он помечал документы из блогов старее 2000 года.
  • Задача 2: проверять, что у документа из блогов указаны теги Дата: и Время:
  • Задача 3: изменить валидатор URL с учётом того, что у документа, не находящегося на самом нижнем уровне иерархии, тега url: может не быть.

Экспорт N-грамм

У нас есть экспорт N-грамм слов (токенов). Хочется и экспорт N-грамм символов. Для вдохновения можно посмотреть скрипт экспорта N-грамм слов.

Потребуется минимальное знание SQL. Структура нашей БД здесь, нас интересует таблица text_forms.

  • Задача: сделать программу, генерирующую частотные списки N-грамм кириллических символов (0 < N < 6) по данным корпуса.

Другое

Конвертация статей в HTML

У нас есть несколько статей, написанных в формате TeX. Хочется научиться конвертировать их в HTML.