О проекте

Общие вопросы[править]

В чём суть проекта?[править]

Если в двух словах, то мы собираем большую базу данных, состоящую из текстов на русском языке и разнообразной информации, добавленной к текстам и отдельным словам. Такая база называется корпусом. Это нужно для создания, во-первых, инструментов анализа текста, во-вторых, разных производных продуктов и технологий. См. Компьютерная лингвистика, о проекте.

Всё, что мы делаем в рамках OpenCorpora, распространяется бесплатно и под свободными лицензиями. Это принципиальная позиция и так будет всегда.

Кто участники проекта? Кто его спонсирует?[править]

Список разработчиков есть на этой странице, список участников — на этой. Проект не спонсирует никто, мы занимаемся им в свободное время.

Проект ещё жив?[править]

По состоянию на лето 2020 г. проекту около 11 лет и он более-менее жив. В любой момент времени можно убедиться в этом, заглянув в список последних изменений в коде и в статистику разметки корпуса.

Как быть в курсе ваших новостей?[править]

Есть другие корпуса, чем ваш лучше?[править]

Главное — все наши данные доступны под открытой лицензией. Подробно мы описали свою мотивацию в этой статье.

Как искать по корпусу?[править]

Через сайт — никак, можно скачать дамп и искать в нём. А вообще наш корпус не очень предназначен для поиска, он скорее для обучения или тестирования лингвистических инструментов.

Что означает слово OpenCorpora?[править]

Это перевод словосочетания "открытые корпуса" на английский язык. Corpora — это множественное число от corpus.

Данные и их использование[править]

Какие у вас есть данные?[править]

По состоянию на лето 2020 г. данные у нас такие:

морфологический словарь русского языка (основанный на словаре проекта АОТ), описание формата здесь;
непосредственно корпус с морфологической разметкой, актуальный объём можно посмотреть на странице статистики;
подкорпуса со снятой грамматической неоднозначностью объёмом до 250 тыс. слов (есть разные версии);
разные частотные списки слов, составленные по этому корпусу;
списки коллокаций по метрике MI.

Всё это можно взять на странице Downloads.

Какие ещё данные планируются?[править]

тексты, размеченные именованными сущностями,
неразмеченные тексты с метаинформацией,
n-граммы с лемматизацией,
коллокации по другим метрикам, кроме MI.

Как можно добавить в корпус ещё один или несколько текстов?[править]

В данный момент, к сожалению, процедура добавления текстов очень сложная и не очень интересная, поэтому мы пока приостановили добавление вовсе, а в будущем, вероятно, будем делать это сами. Если ваш текст подходит нам по лицензии, то напишите нам и мы его добавим.

На каких условиях я могу использовать ваши данные?[править]

На условиях лицензии Creative Commons Attribution-ShareAlike 3.0. То есть бесплатно, но при создании чего-либо на основе этих данных вы обязаны указать, что эти данные взяли у нас, а распространять их дальше можно только на этих же условиях.

Кстати, если вы будете использовать наши данные, напишите нам об этом, нам будет приятно.

Я нашёл в данных ошибку. Как мне сделать так, чтобы её исправили?[править]

если ошибка в том, что у слова не снята неоднозначность, присоединяйтесь к разметке и помогите нам это исправить,
если это что-то другое, вы можете создать сообщение об ошибке здесь или написать нам письмо.

Код и его использование[править]

Можно ли использовать ваш движок или его часть в своём проекте?[править]

Да, наш код находится здесь и лицензирован под GPLv2.

Это означает, в том числе, что если вы хотите использовать код в коммерческом проекте или в проекте с закрытым кодом, то мы не гарантируем, что это легально, поскольку некоторые компоненты, которые мы используем, могут быть лицензионно несовместимы с таким использованием. В случае сомнений спросите у нас.

Вы делаете какой-то сопутствующий софт, кроме непосредственно корпуса?[править]

Да, у нас сейчас есть модуль токенизации, написанный на Perl.

В будущем, предположительно, появится какой-то сегментатор более высокого уровня (для деления текста на предложения) и, возможно, POS-tagger. Следите за новостями.

Кроме того, на основе нашего морфологического словаря делается морфологический анализатор PyMorphy2.

Рабочий процесс[править]

Как происходит разметка текста?[править]

Поэтапно:

текст, если он устраивает нас лицензионно, добавляется в базу вместе с метаинформацией (дата публикации, автор и т.п.),
текст вручную разбивается на предложения и полуавтоматически на токены (довольно подробно мы об этом рассказываем здесь),
каждому слову приписываются все возможные разборы из словаря,
слова группируются в т.н. пулы в соответствии с типом омонимии и предлагаются на разметку сообществу (инструкция),
каждое неоднозначное слово размечается таким образом 3-4 разными людьми, при некоторых условиях также проверяется модератором,
в большинстве случаев омонимия со слова таким образом снимается.

На странице статистики есть какой-то % расхождений, что это такое?[править]

Возьмём все слова, которые разметил данный участник и для которых получено требуемое количество ответов от разных людей (обычно 3). Теперь выберем из них те случаи, когда хотя бы один ответ в этой тройке отличается от других. Разделим количество вторых на количество первых, это и есть процент расхождений.

Этот показатель очень косвенно может указывать на точность разметки.

А % ошибок?[править]

Это процент случаев, когда модератор не согласился с ответом участника. Предполагается, что модератор прав, и именно его ответ в итоге будет в корпусе.

Какой смысл собирать 3 ответа с участников, а после этого ещё и ответ модератора?[править]

Модераторы проверяют не каждое слово. Хотя если ответы участников не совпадают между собой, к модератору это слово наверняка попадёт.

Мы моделируем это примерно так. Участник может допустить ошибку либо по незнанию, либо случайно (по невнимательности). Поскольку крайне маловероятно, что несколько человек случайно одинаково ошибутся в одном и том же месте, мы показываем каждое слово нескольким участникам, что почти гарантированно защищает от случайных ошибок. Ошибки "по незнанию" случаются в сложных случаях, и эти случаи мы стараемся показывать модератору независимо от наличия разногласий.

В целом, естественно, мы стараемся достичь наибольшей эффективности без потери качества.

Но ведь модератор тоже может ошибиться?[править]

Несомненно, может. В будущем мы попробуем сделать инструмент для обнаружения "подозрительных" мест в размеченном корпусе. Можете нам помочь, если хотите.

Судя по статистике, у меня много ошибок, это плохо?[править]

Это не смертельно, потому что каждое слово размечает несколько человек. Но всё же мы просим вас читать инструкции, потому что там могут быть неочевидные случаи, в частности, не согласующиеся со школьными учебниками.

Как посмотреть свои ошибки?[править]

Зайти на страницу "Мои успехи" (в раскрывающемся меню справа сверху), там максимально полная статистика, в том числе ссылки на ошибки (они на розовом фоне).

Что будет, когда мы разметим таким образом все слова?[править]

Будем размечать синтаксические отношения. Или значения слов. Или особенные сущности (ФИО, географию и т.д.). Или всё вместе. Что-нибудь точно будет.

Разное[править]

На сайте что-то не работает или работает странно[править]

Напишите нам, пожалуйста, об этом сюда.

Что делать, если я не могу авторизоваться (залогиниться)?[править]

Напишите нам на opencorpora (at) opencorpora.org. Если раньше вы авторизовались через соцсеть, придётся создать новый аккаунт и привязать к старому, потому что вход через внешние сервисы сломался.

Что делать, если я создал больше одного аккаунта?[править]

Напишите нам на opencorpora (at) opencorpora.org, мы их склеим.

Как помочь[править]

Я программист, как вам помочь?[править]

Выбирайте! Если там не нашлось ничего подходящего — напишите нам.

Слепок базы данных регулярно выкладывается здесь.

Я не программист, как вам помочь?[править]

Примите участие в разметке корпуса (инструкция).
В этом списке есть некоторые задачи, для которых не нужно уметь программировать.
Расскажите о нас тем, кому это может быть интересно. Подпишитесь на наш твиттер и делайте ретвиты.
Если вы знаете источник текстов под открытой лицензией (чей-то блог, новостной сайт или ещё что-нибудь), запишите его сюда.
Придумайте, что можно было бы добавить в проект или улучшить, и расскажите нам.
Если вы хорошо знаете русский язык (и особенно если вы лингвист), помогите нам с модерацией разметки (пишите).
Если вы умеете рисовать, нарисуйте нам хороший логотип :)
Если всё это не подходит, напишите нам и мы что-нибудь придумаем.

У меня остались вопросы[править]

Можно написать нам на [email protected], мы будем рады и обязательно вам ответим.