FAQ: различия между версиями

Материал из OpenCorpora
Перейти к навигации Перейти к поиску
(раздел про Процесс)
Строка 73: Строка 73:
Модераторы проверяют не каждое слово. Хотя если ответы участников не совпадают между собой, к модератору это слово наверняка попадёт.
Модераторы проверяют не каждое слово. Хотя если ответы участников не совпадают между собой, к модератору это слово наверняка попадёт.


Мы моделируем это примерно так. Участник может допустить ошибку либо по незнанию, либо случайно, по невнимательности. Поскольку крайне маловероятно, что несколько человек случайно одинаково ошибутся в одном и том же месте, раздача одного слова нескольким участникам почти гарантированно защищает от случайных ошибок. Ошибки "по незнанию" случаются в сложных случаях, и эти случаи, имея должную статистику, можно автоматически определять и как раз такие слова показывать ещё и модератору.
Мы моделируем это примерно так. Участник может допустить ошибку либо по незнанию, либо случайно (по невнимательности). Поскольку крайне маловероятно, что несколько человек случайно одинаково ошибутся в одном и том же месте, мы показываем каждое слово нескольким участникам, что почти гарантированно защищает от случайных ошибок. Ошибки "по незнанию" случаются в сложных случаях, и эти случаи мы стараемся показывать модератору независимо от наличия разногласий.


В целом, естественно, мы стараемся достичь наибольшей эффективности без потери качества.
В целом, естественно, мы стараемся достичь наибольшей эффективности без потери качества.
=== Но ведь модератор тоже может ошибиться? ===
=== Но ведь модератор тоже может ошибиться? ===
Несомненно, может. В будущем мы попробуем сделать инструмент для обнаружения "подозрительных" мест в размеченном корпусе. Можете нам помочь, если хотите.
Несомненно, может. В будущем мы попробуем сделать инструмент для обнаружения "подозрительных" мест в размеченном корпусе. Можете нам помочь, если хотите.

Версия от 17:18, 30 апреля 2013

Общие вопросы

В чём суть проекта?

Если в двух словах, то мы собираем большую базу данных, состоящую из текстов на русском языке и разнообразной информации, добавленной к текстам и отдельным словам. Такая база называется корпусом. Это нужно для создания, во-первых, инструментов анализа текста, во-вторых, разных производных продуктов и технологий. См. Компьютерная лингвистика, о проекте.

Всё, что мы делаем в рамках OpenCorpora, распространяется бесплатно и под свободными лицензиями. Это принципиальная позиция и так будет всегда.

Кто участники проекта? Кто его спонсирует?

Список разработчиков есть на этой странице, список участников — на этой. Проект не спонсирует никто, мы занимаемся им в свободное время.

Проект ещё жив?

По состоянию на весну 2013 г. проекту 3,5 года и он вполне жив. В любой момент времени можно убедиться в этом, заглянув в список последних изменений в коде и в статистику разметки корпуса.

Как быть в курсе ваших новостей?

  1. Подписаться на рассылку
  2. Зафолловить нас в Твиттере
  3. Подписаться на нашу страницу ВКонтакте

Есть другие корпуса, чем ваш лучше?

Главное — все наши данные доступны под открытой лицензией. Подробно мы описали свою мотивацию в этой статье и в этом видео.

Что означает слово OpenCorpora?

Это перевод словосочетания "открытые корпуса" на английский язык. Corpora — это множественное число от corpus.

Данные и их использование

Какие у вас есть данные?

По состоянию на март 2013 г. данные у нас такие:

  • морфологический словарь русского языка (основанный на словаре проекта АОТ), описание формата здесь;
  • непосредственно корпус с морфологической разметкой, актуальный объём можно посмотреть на странице статистики;
  • подкорпус со снятой грамматической неоднозначностью (объём небольшой, но постоянно растёт);
  • разные частотные списки слов, составленные по этому корпусу;
  • списки коллокаций по метрике MI.

Всё это можно взять на странице Downloads.

Какие ещё данные планируются?

  • неразмеченные тексты с метаинформацией,
  • n-граммы с лемматизацией,
  • коллокации по другим метрикам, кроме MI.

Как можно добавить в корпус ещё один или несколько текстов?

В данный момент, к сожалению, процедура добавления текстов очень сложная и не очень интересная, поэтому мы пока приостановили добавление вовсе, а в будущем, вероятно, будем делать это сами. Если ваш текст подходит нам по лицензии, то напишите нам и мы его добавим.

На каких условиях я могу использовать ваши данные?

На условиях лицензии Creative Commons Attribution-ShareAlike 3.0. То есть бесплатно, но при создании чего-либо на основе этих данных вы обязаны указать, что эти данные взяли у нас, а распространять их дальше можно только на этих же условиях.

Кстати, если вы будете использовать наши данные, напишите нам об этом, нам будет приятно.

Я нашёл в данных ошибку. Как мне сделать так, чтобы её исправили?

Код и его использование

Можно ли использовать ваш движок или его часть в своём проекте?

Да, наш код находится здесь и лицензирован под GPLv2.

Это означает, в том числе, что если вы хотите использовать код в коммерческом проекте или в проекте с закрытым кодом, то мы не гарантируем, что это легально, поскольку некоторые компоненты, которые мы используем, могут быть лицензионно несовместимы с таким использованием. В случае сомнений спросите у нас.

Вы делаете какой-то сопутствующий софт, кроме непосредственно корпуса?

Да, у нас сейчас есть модуль токенизации, написанный на Perl.

В будущем, предположительно, появится какой-то сегментатор более высокого уровня (для деления текста на предложения) и, возможно, POS-tagger. Следите за новостями.

Рабочий процесс

Как происходит разметка текста?

Поэтапно:

  • текст, если он устраивает нас лицензионно, добавляется в базу вместе с метаинформацией (дата публикации, автор и т.п.),
  • текст вручную разбивается на предложения и полуавтоматически на токены (довольно подробно мы об этом рассказываем здесь),
  • каждому слову приписываются все возможные разборы из словаря,
  • слова группируются в т.н. пулы в соответствии с типом омонимии и предлагаются на разметку сообществу (инструкция),
  • каждое неоднозначное слово размечается таким образом 3-4 разными людьми, при некоторых условиях также проверяется модератором,
  • в большинстве случаев омонимия со слова таким образом снимается.

На странице статистики есть какой-то % расхождений, что это такое?

Возьмём все слова, которые разметил данный участник и для которых получено требуемое количество ответов от разных людей (обычно 3). Теперь выберем из них те случаи, когда хотя бы один ответ в этой тройке отличается от других. Разделим количество вторых на количество первых, это и есть процент расхождений.

Этот показатель очень косвенно может указывать на точность разметки.

А % ошибок?

Это процент случаев, когда модератор не согласился с ответом участника. Предполагается, что модератор прав, и именно его ответ в итоге будет в корпусе.

Какой смысл собирать 3 ответа с участников, а после этого ещё и ответ модератора?

Модераторы проверяют не каждое слово. Хотя если ответы участников не совпадают между собой, к модератору это слово наверняка попадёт.

Мы моделируем это примерно так. Участник может допустить ошибку либо по незнанию, либо случайно (по невнимательности). Поскольку крайне маловероятно, что несколько человек случайно одинаково ошибутся в одном и том же месте, мы показываем каждое слово нескольким участникам, что почти гарантированно защищает от случайных ошибок. Ошибки "по незнанию" случаются в сложных случаях, и эти случаи мы стараемся показывать модератору независимо от наличия разногласий.

В целом, естественно, мы стараемся достичь наибольшей эффективности без потери качества.

Но ведь модератор тоже может ошибиться?

Несомненно, может. В будущем мы попробуем сделать инструмент для обнаружения "подозрительных" мест в размеченном корпусе. Можете нам помочь, если хотите.

Судя по статистике, у меня много ошибок, это плохо?

Это не смертельно, потому что каждое слово размечает несколько человек. Но всё же мы просим вас читать инструкции, потому что там могут быть неочевидные случаи, в частности, не согласующиеся со школьными учебниками.

Как посмотреть свои ошибки?

Пока никак. Мы думаем, как это лучше всего организовать.

Что будет, когда мы разметим таким образом все слова?

Будем размечать синтаксические отношения. Или значения слов. Или особенные сущности (ФИО, географию и т.д.). Или всё вместе. Что-нибудь точно будет.

Разное

На сайте что-то не работает или работает странно

Напишите нам, пожалуйста, об этом сюда.

Как помочь

Я программист, как вам помочь?

У нас про это есть целая страница. Если там не нашлось ничего подходящего — напишите нам.

Я не программист, как вам помочь?

  1. Примите участие в разметке корпуса (инструкция).
  2. В этом списке есть некоторые задачи, для которых не нужно уметь программировать.
  3. Расскажите о нас тем, кому это может быть интересно. Подпишитесь на наш твиттер и делайте ретвиты.
  4. Если вы знаете источник текстов под открытой лицензией (чей-то блог, новостной сайт или ещё что-нибудь), запишите его сюда.
  5. Придумайте, что можно было бы добавить в проект или улучшить, и расскажите нам.
  6. Если вы хорошо знаете русский язык (и особенно если вы лингвист), помогите нам с модерацией разметки (пишите).
  7. Если вы умеете рисовать, нарисуйте нам хороший логотип :)
  8. Если всё это не подходит, напишите нам и мы что-нибудь придумаем.

У меня остались вопросы

Можно написать нам на [email protected], мы будем рады и обязательно вам ответим.