Эта инструкция – о том, как принять участие в создании корпуса со снятой грамматической неоднозначностью. От участников не требуется никакой специальной подготовки в области лингвистики. Для выполнения большей части заданий достаточно того, что русский язык для вас родной.
Зарегистрируйтесь на OpenCorpora.org или войдите через вашу учётную запись в социальной сети (поддерживаются ВКонтакте, Twitter, Facebook и другие). Каждое задание мы показываем нескольким людям. Регистрация нужна для того, чтобы не показывать вам одно и то же задание несколько раз.
Выберите тип заданий из списка на странице opencorpora.org/tasks.php (список заданий на этой странице отображается только у зарегистрированных пользователей).
В каждом задании нужно определить грамматическую характеристику одного слова в одном предложении. Грамматическая характеристика - это, например, род (мужской, женский, средний), число (единственное, множественное), падеж (именительный, родительный, дательный, ...) и т.д.. Какую именно категорию нужно определить - указано в названии типа:
В заданиях "Существительное: единственное / множественное" нужно определить, в единственном или во множественном числе употреблено существительное.
В заданиях "Существительное, ед. ч.: родительный / винительный" нужно определить, в именительном или винительном падеже стоит существительное.
В заданиях "Существительное / Предлог" нужно определить, является ли данное слово существительным или предлогом.
Выбирайте те типы заданий, названия которых кажутся вам понятными.
Чтобы выбирать было проще, перед названием задания цветными звёздочками указана его сложность (см. таблицу). Если звёздочка серая, то это значит, что мы пока не выбрали нужный цвет. Если вы у нас в первый раз - выбирайте зелёные задания.
У некоторых заданий есть инструкция. Со временем она появится у всех типов заданий. Если инструкции нет, то следуйте только общим правилам разметки, перечисленным в этом руководстве.
Градации сложности заданий | |
Простые задания | |
Не очень простые задания | |
Сложные задания | |
Очень сложные задания | |
Сложность пока не определена. |
Итак, вы выбрали тип задания и прочитали инструкцию, если эта инструкция уже написана. Теперь нажмите "Взять на разметку".
Задания выдаются по 5 штук сразу (это число можно изменить в настройках пользователя). В каждом задании есть выделенное слово. Именно это слово мы размечаем, нажимая на одну из кнопок, расположенных под текстом задания. Вокруг выделенного слова есть его контекст. Мы показываем не более трёх слов контекста. Если для принятия решения нужно прочитать все слова от начала или до конца предложения, то нажмите на многоточие справа или слева от текста. Тогда вы увидите предложение целиком. При нажатии на "Прокомментировать" появится поле ввода комментария. Комментировать задание можно всегда, даже если вы не станете отвечать на него. Комментарий всегда попадает к модератору.
Для того, чтобы выполнить задание, нужно нажать на одну из кнопок-ответов. Если вы знаете ответ и уверены в нём - выбирайте одну из кнопок, на которых написаны грамматические характеристики ("единственное число", "именительный падеж", ...). Если вы видите, что ни одна из них не подходит, и вы уверены в этом - нажмите "Другое". Если вы сомневаетесь в ответе - нажмите "Пропустить". Разница между "Другое" и "Пропустить" в том, что в первом случае ваш ответ будет записан и отправлен к модератору, а во втором ("Пропустить") вы не даёте никакого ответа, а это задание покажут кому-то ещё. Пропуски не учитываются при определении согласованности и точности разметки. Комментарии сохраняются в любом случае.
Задания сгруппированы в пулы по несколько сотен штук (чаще всего по 200). На каждое задание отвечает несколько человек (чаще всего трое). Когда все задания в пуле выполнены заданным количеством участников, пул закрывается и перестаёт отображаться в списке доступных заданий. Закрытые пулы проверяют модераторы и принимают окончательные решения. После модерации ответы попадают в разметку корпуса и часть неоднозначности снимается.
На странице "Скачать" выложены ссылки на дампы корпуса целиком и подкорпуса, состоящего из предложений, в которых вся неоднозначность уже снята. Дампы перегенерируются раз в сутки.
Посмотрите статистику и найдите там себя. В таблице отображается ваше имя, общее количество ответов, количество ответов в полностью завершённых пулах, % расхождений, количество ответов в проверенных модераторами пулах, % ошибок, а также дата и время вашего последнего ответа.
Обратите внимание на % расхождений и % ошибок. Первое - это процент ваших ответов, которые не совпали с хотя бы одним из ответов других участников. % расхождений косвенно указывает на качество ваших ответов. Даже если вы делаете идеальную разметку (что невозможно, т.к. даже очень опытные люди делают случайные ошибки), ваши ответы могут не совпасть с кем-то, кто делает больше ошибок. Однако, если % расхождения существенным образом отличается от других участников, то, возможно, следует внимательно прочитать инструкцию по конкретному типу заданий. Другой причиной большого % расхождений может быть то, что вы часто нажимаете кнопку "Другое". Это, однако, не повод не нажимать её, если вы считаете нужным это делать.
% ошибок - это процент ваших ответов, не совпавших с ответами модератора. Он считается с большой задержкой (до нескольких недель), т.к. модераторы пока работают медленно.
Кроме индивидуального рейтинга участников составляется также и командный рейтинг. На странице статистики он идёт следующим. Чтобы присоединиться к команде или создать новую, зайдите в настройки и выберите команду из списка. Чтобы создать новую, выберите "Добавить новую..." и, в появившемся поле, введите название новой команды. После этого, нажмите "Сохранить". Создав новую команду, приглашайте в неё ваших друзей и знакомых.
На момент написания этой инструкции в корпусе 700 тысяч слов. С учётом того, что в среднем одно слово порождает несколько заданий, а каждое задание показывается троим участникам, то чтобы разметить весь корпус, нужно выполнить примерно 4 миллиона заданий.
Если в разметке будут участвовать 100 человек, то получается по 40 тысяч вопросов на человека (это много). Если 1000 человек, то по 4 тысячи (несколько часов работы). Если 10000, то по 400 заданий на человека (20-30 минут). Поскольку для участия в разметке никаких особенных лингвистических знаний не требуется, можно звать друзей, знакомых, однокурсников и коллег. Напишите об этом ВКонтакте, в Twitter, в Facebook, в ЖЖ. Тем, с кем вы часто встречаетесь, расскажите и покажите как пользоваться интерфейсом разметки.
Если каждый разметит по чуть-чуть, мы вместе сможем решить большую задачу создания морфологической разметки за несколько месяцев.
Подпишитесь на рассылку: форма находится внизу этой страницы. Присоединяйтесь к нам в социальных сетях: группа ВКонтакте, Twitter.