Инструкция по интерфейсу для снятия омонимии: различия между версиями

Материал из OpenCorpora
Перейти к навигации Перейти к поиску
(Новая страница: «1. Зарегистрируйтесь на [http://opencorpora.org OpenCorpora.org]. Каждое задание мы показываем нескольким лю...»)
 
 
(не показана 21 промежуточная версия 4 участников)
Строка 1: Строка 1:
1.
__NOTOC__
Зарегистрируйтесь на [http://opencorpora.org OpenCorpora.org]. Каждое задание мы показываем нескольким людям. Регистрация нужна для того, чтобы не показывать вам одно и то же задание несколько раз.
Эта инструкция – о том, как принять участие в создании корпуса со снятой грамматической неоднозначностью. От участников не требуется никакой специальной подготовки в области лингвистики. Для выполнения большей части заданий достаточно того, что русский язык для вас родной.


2.
==Шаг №1: Регистрация==
Выберите задание из списка на странице [http://opencorpora.org/tasks.php opencorpora.org/tasks.php] (список заданий на этой странице отображается только у зарегистрированных пользователей).
[http://opencorpora.org/login.php?act=register Зарегистрируйтесь] на  OpenCorpora.org или [http://opencorpora.org/login.php войдите] через вашу учётную запись в социальной сети (поддерживаются ВКонтакте, Twitter, Facebook и другие). Каждое задание мы показываем нескольким людям. Регистрация нужна для того, чтобы не показывать вам одно и то же задание несколько раз.


==Шаг №2: Выбор типа заданий==
Выберите тип заданий из списка на странице [http://opencorpora.org/tasks.php opencorpora.org/tasks.php] (список заданий на этой странице отображается только у зарегистрированных пользователей).


Сложность заданий отмечена звёздочками разного цвета. Зелёные - самые простые. Красные - самые сложные. Жёлтые и оранжевые находятся где-то между зелёными и красными. Если звёздочка серая, то это значит, что мы пока не выбрали нужный цвет.
[[Файл:Tasklist php.png]]


Выбрав задание, нажмите "Взять на разметку".
===Какие бывают задания?===
В каждом задании нужно определить грамматическую характеристику одного слова в одном предложении. Грамматическая характеристика - это, например, род (мужской, женский, средний), число (единственное, множественное), падеж (именительный, родительный, дательный, ...) и т.д.. Какую именно категорию нужно определить - указано в названии типа:


<img src="http://habrastorage.org/storage2/3f5/37b/86d/3f537b86d422262a9159d1dd05f6b370.png"/>
В заданиях "Существительное: единственное / множественное" нужно определить, в единственном или во множественном числе употреблено существительное.


3.
В заданиях "Существительное, ед. ч.: родительный / винительный" нужно определить, в именительном или винительном падеже стоит существительное.
Задания выдаются по 5 штук сразу (это можно изменить в настройках пользователя). В каждом задании есть выделенное слово, про которое задан вопрос.


В заданиях "Существительное / Предлог" нужно определить, является ли данное слово существительным или предлогом.


Выбирайте те типы заданий, названия которых кажутся вам понятными.


При нажатии на кнопки “Единственное число” или “Множественное число” происходит выбор варианта ответа. Кнопку “Другое” нужно нажимать в случае, если сам вопрос поставлен некорректно: например, в тексте опечатка или словарные гипотезы неверны (такое бывает, т.к. не все слова есть в словаре). Если у вас нет уверенности в правильном ответе, то нужно нажимать кнопку “Пропустить”. Бывают примеры, для разметки которых нужно вспоминать правила русской грамматики: например, в каком числе употребляются существительные после числительных. Мы считаем, что никто не обязан помнить все правила, поэтому для неочевидных случаев есть возможность пропустить пример. Его покажут кому-то другому, а пропуск не будет засчитан размечающему за ошибку.
Чтобы выбирать было проще, перед названием задания цветными звёздочками указана его сложность (см. таблицу). Если звёздочка серая, то это значит, что мы пока не выбрали нужный цвет. Если вы у нас в первый раз - выбирайте зелёные задания.


Выбирая вариант “Другое”, а также в случае, если хочется обратить внимание модератора на данный пример, можно (если “Другое”, то нужно) оставить комментарий. По ссылке “Прокомментировать” для комментария открывается текстовое поле. Если отображённого на экране контекста слова недостаточно, то нужно нажать на кнопки расширения контекста (многоточия слева и справа от примера). При этом откроются все слова с начала или до конца предложения. Если целого предложения всё равно не достаточно для правильного ответа, то нужно выбрать вариант “Другое” и оставить комментарий, что это “неснимаемая неоднозначность”. Модератор разберётся.
У некоторых заданий есть инструкция. Со временем она появится у всех типов заданий. Если инструкции нет, то следуйте только общим правилам разметки, перечисленным в этом руководстве.


По грубым подсчётам, чтобы снять неоднозначность в собранной на настоящий момент коллекции текстов, с учётом того, что вопросы задаются трижды, нужно ответить на 4 миллиона вопросов. Если в этом будут участвовать 100 человек, то по 40 тысяч вопросов на человека (это много). Если 1000 человек, то по 4 тысячи (несколько часов работы). Если 10000, то по 400 (20-30 минут). Поскольку никаких особенных лингвистических знаний не требуется, можно звать друзей, знакомых и коллег. Если каждый разметит по чуть-чуть, мы вместе создадим морфологический слой разметки корпуса. Разработку морфологических анализаторов для русского языка после этого будут задавать в качестве домашнего задания студентам второго курса, т. к. необходимая математика уже имеется.
{| class="table table-bordered"
|-
| colspan="2" | '''Градации сложности заданий'''


В интерфейсе доступны следующие кнопки:
|-
| [[Файл:Icon star green.png]]
| Простые задания
|-
| [[Файл:Icon star yellow.png]]
| Не очень простые задания
|-
| [[Файл:Icon star orange.png]]
| Сложные задания
|-
| [[Файл:Icon star red.png]]
| Очень сложные задания
|-
| [[Файл:Icon star gray.png]]
| Сложность пока не определена.
|}


* кнопки-ответы ("глагол", "существительное", "единственное число", "мужской род", ...) обозначают варианты ответа, в котором Вы уверены.
Итак, вы выбрали тип задания и прочитали инструкцию, если эта инструкция уже написана. Теперь нажмите "Взять на разметку".
* кнопку "другое" нужно нажать, если Вы уверены, что хорошо понимаете этот пример, и все варианты ответа неправильные (это случается, если у нас есть ошибка в словаре). При нажатии этой кнопки нужно будет также написать комментарий, объясняющий Вашу точку зрения. Писать комментарий также стоит, если Вы видите явную опечатку в самом примере. Они встречаются.
* кнопку "пропустить" нужно нажать, если Вы сомневаетесь в ответе. Тогда этот конкретный пример Вам больше не будут показывать. Это нормально. Никто не обязан знать всё.
* кнопки "..." слева и справа от примера нужно нажимать, если показанного контекста недостаточно для ответа на вопрос. Если после нажатия обеих кнопок с многоточием контекста всё ещё будет мало, то надо нажать кнопку "другое" и написать об этом в комментарии: не хватает контекста.
* кнопка "Хочу ещё примеров!" загружает следующие пять примеров.


Если Вы нажали какую-то из кнопок-ответов ошибочно, то просто нажмите правильную - новый ответ запишется поверх старого.
==Шаг №3==
Задания выдаются по 5 штук сразу (это число можно изменить в [http://opencorpora.org/options.php настройках пользователя]). В каждом задании есть выделенное слово. Именно это слово мы размечаем, нажимая на одну из кнопок, расположенных под текстом задания. Вокруг выделенного слова есть его контекст. Мы показываем не более трёх слов контекста. Если для принятия решения нужно прочитать все слова от начала или до конца предложения, то нажмите на многоточие справа или слева от текста. Тогда вы увидите предложение целиком. При нажатии на "Прокомментировать" появится поле ввода комментария. Комментировать задание можно всегда, даже если вы не станете отвечать на него. Комментарий всегда попадает к модератору.


= Основные правила =
[[Файл:Markup.png]]
== Правило 1 ==
На данном этапе разметки в корпусе не может быть слов, содержащих пробел. Таким образом, при разрешении неоднозначности составных предлогов (''в течение''), некоторых наречий (''в новинку'') и других слов, содержащих пробел, следует исходить из грамматических характеристик частей данных слов, а не из самого слова в целом:  ''в [ПРЕДЛОГ]  течение [СУЩ]'';  ''в [ПРЕДЛОГ] новинку [СУЩ]'';  ''к [ПРЕДЛОГ] счастью [СУЩ]''.


== Правило 2 ==
===Как выполнять задания?===
Если в процессе разметки вы заметили ошибку, непосредственно не связанную с выбранным заданием, напишите об этом комментарий и '''обязательно''' снимите неоднозначность.
Для того, чтобы выполнить задание, нужно нажать на одну из кнопок-ответов. Если вы знаете ответ и уверены в нём - выбирайте одну из кнопок, на которых написаны грамматические характеристики ("единственное число", "именительный падеж", ...). Если вы видите, что ни одна из них не подходит, и вы уверены в этом - нажмите "Другое". Если вы сомневаетесь в ответе - нажмите "Пропустить". Разница между "Другое" и "Пропустить" в том, что в первом случае ваш ответ будет записан и отправлен к модератору, а во втором ("Пропустить") вы не даёте никакого ответа, а это задание покажут кому-то ещё. Пропуски не учитываются при определении согласованности и точности разметки. Комментарии сохраняются в любом случае.


Например:  
{| class="table table-bordered"
:Задание: "Прилагательное мр/жр"
|-
:Контекст: ''разговаривать с больной было трудно''
| colspan="2" | '''Кнопки расширения контекста'''
В таком случае вы:
|-
| width="200px" align="center" | [[Файл:Leftcontextex.png]]
| Открывает все слова от начала предложения до выделенного слова, если они есть.
|-
| align="center" | [[Файл:Rightcontextex.png]]
| Открывает все слова от выделенного слова до конца предложения, если они есть.
|-
| colspan="2" | '''Кнопки-ответы''' - нужно нажать на одну из них, чтобы выполнить задание
|-
| align="center" | [[Файл:Buttonanswer.png]]
| Выбор правильной грамматической характеристики. Нажимайте на такие кнопки, когда вы уверены в ответе.
|-
| align="center" | [[Файл:Buttonother.png]]
| Ни одна из приведённых грамматических характеристик не подходит. Нажимайте на эту кнопку, чтобы модератор посмотрел этот пример.
|-
| align="center" | [[Файл:Buttonskip.png]]
| Вы не знаете правильного ответа или не понимаете этого примера. Нажимайте эту кнопку, чтобы на этот пример ответил кто-нибудь другой.
|-
| colspan="2" | '''Дополнительные действия'''
|-
| align="center" | [[Файл:Buttoncomment.png]]
| Добавить комментарий. Пожалуйста, делайте это, если в качестве ответа вы нажали "Другое"
|-
| colspan="2" | '''Кнопки внизу страницы'''
|-
| align="center" | [[Файл:Buttonwantmore.png]]
| Разметить ещё несколько заданий этого типа.
Кнопка станет доступной, когда все ответы запишутся в базу данных на сервере. Если она недоступна длительное время, проверьте, все ли кнопки-ответы нажаты. Кроме этого, проверьте соединение с Интернетом. Если всё в порядке, то перезагрузите страницу.
|-
| align="center" | [[Файл:Buttonnomore.png]]
| Закончить с этим типом заданий и начать делать что-нибудь другое.
|}


1) Пишете комментарий "больная - сущ"
==Дальнейшие действия==
Задания сгруппированы в пулы по несколько сотен штук (чаще всего по 200). На каждое задание отвечает несколько человек (чаще всего трое). Когда все задания в пуле выполнены заданным количеством участников, пул закрывается и перестаёт отображаться в списке доступных заданий. Закрытые пулы проверяют модераторы и принимают окончательные решения. После модерации ответы попадают в разметку корпуса и часть неоднозначности снимается.


2) Снимаете неоднозначность, выбирая ответ "жр"
На странице [http://opencorpora.org/?page=downloads "Скачать"] выложены ссылки на дампы корпуса целиком и подкорпуса, состоящего из предложений, в которых вся неоднозначность уже снята. Дампы перегенерируются раз в сутки.
 
===Посмотреть статистику===
Посмотрите [http://opencorpora.org/?page=stats статистику] и найдите там себя. В таблице отображается ваше имя, общее количество ответов, количество ответов в полностью завершённых пулах, % расхождений, количество ответов в проверенных модераторами пулах, % ошибок, а также дата и время вашего последнего ответа.
 
Обратите внимание на % расхождений и % ошибок. Первое - это процент ваших ответов, которые не совпали с хотя бы одним из ответов других участников. % расхождений косвенно указывает на качество ваших ответов. Даже если вы делаете идеальную разметку (что невозможно, т.к. даже очень опытные люди делают случайные ошибки), ваши ответы могут не совпасть с кем-то, кто делает больше ошибок. Однако, если % расхождения существенным образом отличается от других участников, то, возможно, следует внимательно прочитать инструкцию по конкретному типу заданий. Другой причиной большого % расхождений может быть то, что вы часто нажимаете кнопку "Другое". Это, однако, не повод не нажимать её, если вы считаете нужным это делать.
 
% ошибок - это процент ваших ответов, не совпавших с ответами модератора. Он считается с большой задержкой (до нескольких недель), т.к. модераторы пока работают медленно.
 
===Присоединиться к команде===
Кроме индивидуального рейтинга участников составляется также и командный рейтинг. На странице статистики он идёт следующим. Чтобы присоединиться к команде или создать новую, зайдите в [http://opencorpora.org/options.php настройки] и выберите команду из списка. Чтобы создать новую, выберите "Добавить новую..." и, в появившемся поле, введите название новой команды. После этого, нажмите "Сохранить". Создав новую команду, приглашайте в неё ваших друзей и знакомых.
 
===Позвать друзей присоединиться к разметке===
На момент написания этой инструкции в корпусе 700 тысяч слов. С учётом того, что в среднем одно слово порождает несколько заданий, а каждое задание показывается троим участникам, то чтобы разметить весь корпус, нужно выполнить примерно 4 миллиона заданий.
 
Если в разметке будут участвовать 100 человек, то получается по 40 тысяч вопросов на человека (это много). Если 1000 человек, то по 4 тысячи (несколько часов работы). Если 10000, то по 400 заданий на человека (20-30 минут). Поскольку для участия в разметке никаких особенных лингвистических знаний не требуется, можно звать друзей, знакомых, однокурсников и коллег. Напишите об этом ВКонтакте, в Twitter, в Facebook, в ЖЖ. Тем, с кем вы часто встречаетесь, расскажите и покажите как пользоваться интерфейсом разметки.
 
Если каждый разметит по чуть-чуть, мы вместе сможем решить большую задачу создания морфологической разметки за несколько месяцев.
 
===Получать новости проекта===
Подпишитесь на рассылку: форма находится внизу [http://opencorpora.org/?page=about этой страницы]. Присоединяйтесь к нам в социальных сетях: [http://vk.com/opencorpora группа ВКонтакте], [http://twitter.com/opencorpora Twitter].
 
==Спасибо, что вы помогаете нам!==
 
[[Категория:Инструкции]]

Текущая версия от 10:13, 7 февраля 2013

Эта инструкция – о том, как принять участие в создании корпуса со снятой грамматической неоднозначностью. От участников не требуется никакой специальной подготовки в области лингвистики. Для выполнения большей части заданий достаточно того, что русский язык для вас родной.

Шаг №1: Регистрация

Зарегистрируйтесь на OpenCorpora.org или войдите через вашу учётную запись в социальной сети (поддерживаются ВКонтакте, Twitter, Facebook и другие). Каждое задание мы показываем нескольким людям. Регистрация нужна для того, чтобы не показывать вам одно и то же задание несколько раз.

Шаг №2: Выбор типа заданий

Выберите тип заданий из списка на странице opencorpora.org/tasks.php (список заданий на этой странице отображается только у зарегистрированных пользователей).

Tasklist php.png

Какие бывают задания?

В каждом задании нужно определить грамматическую характеристику одного слова в одном предложении. Грамматическая характеристика - это, например, род (мужской, женский, средний), число (единственное, множественное), падеж (именительный, родительный, дательный, ...) и т.д.. Какую именно категорию нужно определить - указано в названии типа:

В заданиях "Существительное: единственное / множественное" нужно определить, в единственном или во множественном числе употреблено существительное.

В заданиях "Существительное, ед. ч.: родительный / винительный" нужно определить, в именительном или винительном падеже стоит существительное.

В заданиях "Существительное / Предлог" нужно определить, является ли данное слово существительным или предлогом.

Выбирайте те типы заданий, названия которых кажутся вам понятными.

Чтобы выбирать было проще, перед названием задания цветными звёздочками указана его сложность (см. таблицу). Если звёздочка серая, то это значит, что мы пока не выбрали нужный цвет. Если вы у нас в первый раз - выбирайте зелёные задания.

У некоторых заданий есть инструкция. Со временем она появится у всех типов заданий. Если инструкции нет, то следуйте только общим правилам разметки, перечисленным в этом руководстве.

Градации сложности заданий
Icon star green.png Простые задания
Icon star yellow.png Не очень простые задания
Icon star orange.png Сложные задания
Icon star red.png Очень сложные задания
Icon star gray.png Сложность пока не определена.

Итак, вы выбрали тип задания и прочитали инструкцию, если эта инструкция уже написана. Теперь нажмите "Взять на разметку".

Шаг №3

Задания выдаются по 5 штук сразу (это число можно изменить в настройках пользователя). В каждом задании есть выделенное слово. Именно это слово мы размечаем, нажимая на одну из кнопок, расположенных под текстом задания. Вокруг выделенного слова есть его контекст. Мы показываем не более трёх слов контекста. Если для принятия решения нужно прочитать все слова от начала или до конца предложения, то нажмите на многоточие справа или слева от текста. Тогда вы увидите предложение целиком. При нажатии на "Прокомментировать" появится поле ввода комментария. Комментировать задание можно всегда, даже если вы не станете отвечать на него. Комментарий всегда попадает к модератору.

Markup.png

Как выполнять задания?

Для того, чтобы выполнить задание, нужно нажать на одну из кнопок-ответов. Если вы знаете ответ и уверены в нём - выбирайте одну из кнопок, на которых написаны грамматические характеристики ("единственное число", "именительный падеж", ...). Если вы видите, что ни одна из них не подходит, и вы уверены в этом - нажмите "Другое". Если вы сомневаетесь в ответе - нажмите "Пропустить". Разница между "Другое" и "Пропустить" в том, что в первом случае ваш ответ будет записан и отправлен к модератору, а во втором ("Пропустить") вы не даёте никакого ответа, а это задание покажут кому-то ещё. Пропуски не учитываются при определении согласованности и точности разметки. Комментарии сохраняются в любом случае.

Кнопки расширения контекста
Leftcontextex.png Открывает все слова от начала предложения до выделенного слова, если они есть.
Rightcontextex.png Открывает все слова от выделенного слова до конца предложения, если они есть.
Кнопки-ответы - нужно нажать на одну из них, чтобы выполнить задание
Buttonanswer.png Выбор правильной грамматической характеристики. Нажимайте на такие кнопки, когда вы уверены в ответе.
Buttonother.png Ни одна из приведённых грамматических характеристик не подходит. Нажимайте на эту кнопку, чтобы модератор посмотрел этот пример.
Buttonskip.png Вы не знаете правильного ответа или не понимаете этого примера. Нажимайте эту кнопку, чтобы на этот пример ответил кто-нибудь другой.
Дополнительные действия
Buttoncomment.png Добавить комментарий. Пожалуйста, делайте это, если в качестве ответа вы нажали "Другое"
Кнопки внизу страницы
Buttonwantmore.png Разметить ещё несколько заданий этого типа.

Кнопка станет доступной, когда все ответы запишутся в базу данных на сервере. Если она недоступна длительное время, проверьте, все ли кнопки-ответы нажаты. Кроме этого, проверьте соединение с Интернетом. Если всё в порядке, то перезагрузите страницу.

Buttonnomore.png Закончить с этим типом заданий и начать делать что-нибудь другое.

Дальнейшие действия

Задания сгруппированы в пулы по несколько сотен штук (чаще всего по 200). На каждое задание отвечает несколько человек (чаще всего трое). Когда все задания в пуле выполнены заданным количеством участников, пул закрывается и перестаёт отображаться в списке доступных заданий. Закрытые пулы проверяют модераторы и принимают окончательные решения. После модерации ответы попадают в разметку корпуса и часть неоднозначности снимается.

На странице "Скачать" выложены ссылки на дампы корпуса целиком и подкорпуса, состоящего из предложений, в которых вся неоднозначность уже снята. Дампы перегенерируются раз в сутки.

Посмотреть статистику

Посмотрите статистику и найдите там себя. В таблице отображается ваше имя, общее количество ответов, количество ответов в полностью завершённых пулах, % расхождений, количество ответов в проверенных модераторами пулах, % ошибок, а также дата и время вашего последнего ответа.

Обратите внимание на % расхождений и % ошибок. Первое - это процент ваших ответов, которые не совпали с хотя бы одним из ответов других участников. % расхождений косвенно указывает на качество ваших ответов. Даже если вы делаете идеальную разметку (что невозможно, т.к. даже очень опытные люди делают случайные ошибки), ваши ответы могут не совпасть с кем-то, кто делает больше ошибок. Однако, если % расхождения существенным образом отличается от других участников, то, возможно, следует внимательно прочитать инструкцию по конкретному типу заданий. Другой причиной большого % расхождений может быть то, что вы часто нажимаете кнопку "Другое". Это, однако, не повод не нажимать её, если вы считаете нужным это делать.

% ошибок - это процент ваших ответов, не совпавших с ответами модератора. Он считается с большой задержкой (до нескольких недель), т.к. модераторы пока работают медленно.

Присоединиться к команде

Кроме индивидуального рейтинга участников составляется также и командный рейтинг. На странице статистики он идёт следующим. Чтобы присоединиться к команде или создать новую, зайдите в настройки и выберите команду из списка. Чтобы создать новую, выберите "Добавить новую..." и, в появившемся поле, введите название новой команды. После этого, нажмите "Сохранить". Создав новую команду, приглашайте в неё ваших друзей и знакомых.

Позвать друзей присоединиться к разметке

На момент написания этой инструкции в корпусе 700 тысяч слов. С учётом того, что в среднем одно слово порождает несколько заданий, а каждое задание показывается троим участникам, то чтобы разметить весь корпус, нужно выполнить примерно 4 миллиона заданий.

Если в разметке будут участвовать 100 человек, то получается по 40 тысяч вопросов на человека (это много). Если 1000 человек, то по 4 тысячи (несколько часов работы). Если 10000, то по 400 заданий на человека (20-30 минут). Поскольку для участия в разметке никаких особенных лингвистических знаний не требуется, можно звать друзей, знакомых, однокурсников и коллег. Напишите об этом ВКонтакте, в Twitter, в Facebook, в ЖЖ. Тем, с кем вы часто встречаетесь, расскажите и покажите как пользоваться интерфейсом разметки.

Если каждый разметит по чуть-чуть, мы вместе сможем решить большую задачу создания морфологической разметки за несколько месяцев.

Получать новости проекта

Подпишитесь на рассылку: форма находится внизу этой страницы. Присоединяйтесь к нам в социальных сетях: группа ВКонтакте, Twitter.

Спасибо, что вы помогаете нам!