FAQ: различия между версиями

Материал из OpenCorpora
Перейти к навигации Перейти к поиску
Строка 45: Строка 45:
== Как помочь ==
== Как помочь ==
=== Я программист, как вам помочь? ===
=== Я программист, как вам помочь? ===
Мы планируем написать [[Задачи для разработчиков|целую страницу]] про это, пока что [mailto:[email protected] пишите нам], мы найдём для вас задачу.
У нас про это есть [[Задачи для разработчиков|целая страница]].
 
=== Я не программист, как вам помочь? ===
=== Я не программист, как вам помочь? ===
# Примите участие в разметке корпуса ([http://vk.com/topic-29874644_26461626 инструкция], скоро [[Инструкция по разметке|перепишем сюда]]).
# Примите участие в разметке корпуса ([http://vk.com/topic-29874644_26461626 инструкция], скоро [[Инструкция по разметке|перепишем сюда]]).

Версия от 19:54, 21 сентября 2012

Общие вопросы

В чём суть проекта?

Если в двух словах, то мы собираем большую базу данных, состоящую из текстов на русском языке и разнообразной информации, добавленной к текстам и отдельным словам. Такая база называется корпусом. Это нужно для создания, во-первых, инструментов анализа текста, во-вторых, разных производных продуктов и технологий. См. Компьютерная лингвистика, о проекте.

Всё, что мы делаем в рамках OpenCorpora, распространяется бесплатно и под свободными лицензиями. Это принципиальная позиция и так будет всегда.

Кто участники проекта? Кто его спонсирует?

Список разработчиков есть на этой странице, список участников — на этой. Проект не спонсирует никто, мы занимаемся им в свободное время.

Проект ещё жив?

По состоянию на осень 2012 г. проекту три года и он вполне жив. В любой момент времени можно убедиться в этом, заглянув в список последних изменений в коде и в статистику разметки корпуса.

Как быть в курсе ваших новостей?

  1. Подписаться на рассылку
  2. Зафолловить нас в Твиттере
  3. Подписаться на нашу страницу ВКонтакте

Есть другие корпуса, чем ваш лучше?

Главное — все наши данные доступны под открытой лицензией. Подробно мы описали свою мотивацию в этой статье и в этом видео.

Что означает слово OpenCorpora?

Это перевод словосочетания "открытые корпуса" на английский язык. Corpora — это множественное число от corpus.

Данные и их использование

Какие у вас есть данные?

По состоянию на сентябрь 2012 г. данные у нас такие:

  • морфологический словарь русского языка (основанный на словаре проекта АОТ), описание формата здесь;
  • непосредственно корпус с морфологической разметкой (омонимия не снята, но мы уже её снимаем), актуальный объём можно посмотреть на странице статистики;
  • разные частотные списки слов, составленные по этому корпусу;
  • списки коллокаций по метрике MI.

Всё это можно взять на странице Downloads.

Как можно добавить в корпус ещё один или несколько текстов?

В данный момент, к сожалению, процедура добавления текстов очень сложная и не очень интересная, поэтому мы пока приостановили добавление вовсе, а в будущем, вероятно, будем делать это сами. Если ваш текст подходит нам по лицензии, то напишите нам и мы его добавим.

На каких условиях я могу использовать ваши данные?

На условиях лицензии Creative Commons Attribution-ShareAlike 3.0. То есть бесплатно, но при создании чего-либо на основе этих данных вы обязаны указать, что эти данные взяли у нас, а распространять их дальше можно только на этих же условиях.

Кстати, если вы будете использовать наши данные, напишите нам об этом, нам будет приятно.

Я нашёл в данных ошибку. Как мне сделать так, чтобы её исправили?

Можно ли использовать ваш движок или его часть в своём проекте?

Да, наш код находится здесь и лицензирован под GPLv2.

Это означает, в том числе, что если вы хотите использовать код в коммерческом проекте или в проекте с закрытым кодом, то мы не гарантируем, что это легально, поскольку некоторые компоненты, которые мы используем, могут быть лицензионно несовместимы с таким использованием. В случае сомнений спросите у нас.

Как помочь

Я программист, как вам помочь?

У нас про это есть целая страница.

Я не программист, как вам помочь?

  1. Примите участие в разметке корпуса (инструкция, скоро перепишем сюда).
  2. В этом списке есть некоторые задачи, для которых не нужно уметь программировать.
  3. Расскажите о нас тем, кому это может быть интересно. Подпишитесь на наш твиттер и делайте ретвиты.
  4. Если вы знаете источник текстов под открытой лицензией (чей-то блог, новостной сайт или ещё что-нибудь), запишите его сюда.
  5. Придумайте, что можно было бы добавить в проект или улучшить, и расскажите нам.
  6. Если вы хорошо знаете русский язык (и особенно если вы лингвист), помогите нам с модерацией разметки (пишите).
  7. Если вы умеете рисовать, нарисуйте нам хороший логотип :)
  8. Если всё это не подходит, напишите нам и мы что-нибудь придумаем.

У меня остались вопросы

Можно написать нам на [email protected], мы будем рады и обязательно вам ответим.