Если в двух словах, то мы собираем большую базу данных, состоящую из текстов на русском языке и разнообразной информации, добавленной к текстам и отдельным словам. Такая база называется корпусом. Это нужно для создания, во-первых, инструментов анализа текста, во-вторых, разных производных продуктов и технологий. См. Компьютерная лингвистика, о проекте.
Всё, что мы делаем в рамках OpenCorpora, распространяется бесплатно и под свободными лицензиями. Это принципиальная позиция и так будет всегда.
Список разработчиков есть на этой странице, список участников — на этой. Проект не спонсирует никто, мы занимаемся им в свободное время.
По состоянию на лето 2020 г. проекту около 11 лет и он более-менее жив. В любой момент времени можно убедиться в этом, заглянув в список последних изменений в коде и в статистику разметки корпуса.
Главное — все наши данные доступны под открытой лицензией. Подробно мы описали свою мотивацию в этой статье.
Через сайт — никак, можно скачать дамп и искать в нём. А вообще наш корпус не очень предназначен для поиска, он скорее для обучения или тестирования лингвистических инструментов.
Это перевод словосочетания "открытые корпуса" на английский язык. Corpora — это множественное число от corpus.
По состоянию на лето 2020 г. данные у нас такие:
Всё это можно взять на странице Downloads.
В данный момент, к сожалению, процедура добавления текстов очень сложная и не очень интересная, поэтому мы пока приостановили добавление вовсе, а в будущем, вероятно, будем делать это сами. Если ваш текст подходит нам по лицензии, то напишите нам и мы его добавим.
На условиях лицензии Creative Commons Attribution-ShareAlike 3.0. То есть бесплатно, но при создании чего-либо на основе этих данных вы обязаны указать, что эти данные взяли у нас, а распространять их дальше можно только на этих же условиях.
Кстати, если вы будете использовать наши данные, напишите нам об этом, нам будет приятно.
Да, наш код находится здесь и лицензирован под GPLv2.
Это означает, в том числе, что если вы хотите использовать код в коммерческом проекте или в проекте с закрытым кодом, то мы не гарантируем, что это легально, поскольку некоторые компоненты, которые мы используем, могут быть лицензионно несовместимы с таким использованием. В случае сомнений спросите у нас.
Да, у нас сейчас есть модуль токенизации, написанный на Perl.
В будущем, предположительно, появится какой-то сегментатор более высокого уровня (для деления текста на предложения) и, возможно, POS-tagger. Следите за новостями.
Кроме того, на основе нашего морфологического словаря делается морфологический анализатор PyMorphy2.
Поэтапно:
Возьмём все слова, которые разметил данный участник и для которых получено требуемое количество ответов от разных людей (обычно 3). Теперь выберем из них те случаи, когда хотя бы один ответ в этой тройке отличается от других. Разделим количество вторых на количество первых, это и есть процент расхождений.
Этот показатель очень косвенно может указывать на точность разметки.
Это процент случаев, когда модератор не согласился с ответом участника. Предполагается, что модератор прав, и именно его ответ в итоге будет в корпусе.
Модераторы проверяют не каждое слово. Хотя если ответы участников не совпадают между собой, к модератору это слово наверняка попадёт.
Мы моделируем это примерно так. Участник может допустить ошибку либо по незнанию, либо случайно (по невнимательности). Поскольку крайне маловероятно, что несколько человек случайно одинаково ошибутся в одном и том же месте, мы показываем каждое слово нескольким участникам, что почти гарантированно защищает от случайных ошибок. Ошибки "по незнанию" случаются в сложных случаях, и эти случаи мы стараемся показывать модератору независимо от наличия разногласий.
В целом, естественно, мы стараемся достичь наибольшей эффективности без потери качества.
Несомненно, может. В будущем мы попробуем сделать инструмент для обнаружения "подозрительных" мест в размеченном корпусе. Можете нам помочь, если хотите.
Это не смертельно, потому что каждое слово размечает несколько человек. Но всё же мы просим вас читать инструкции, потому что там могут быть неочевидные случаи, в частности, не согласующиеся со школьными учебниками.
Зайти на страницу "Мои успехи" (в раскрывающемся меню справа сверху), там максимально полная статистика, в том числе ссылки на ошибки (они на розовом фоне).
Будем размечать синтаксические отношения. Или значения слов. Или особенные сущности (ФИО, географию и т.д.). Или всё вместе. Что-нибудь точно будет.
Напишите нам, пожалуйста, об этом сюда.
Напишите нам на opencorpora (at) opencorpora.org. Если раньше вы авторизовались через соцсеть, придётся создать новый аккаунт и привязать к старому, потому что вход через внешние сервисы сломался.
Напишите нам на opencorpora (at) opencorpora.org, мы их склеим.
Выбирайте! Если там не нашлось ничего подходящего — напишите нам.
Слепок базы данных регулярно выкладывается здесь.
Можно написать нам на [email protected], мы будем рады и обязательно вам ответим.