Инструкция по интерфейсу для снятия омонимии

Материал из OpenCorpora
Версия от 14:33, 18 октября 2012; Bocharov (обсуждение | вклад) (Новая страница: «1. Зарегистрируйтесь на [http://opencorpora.org OpenCorpora.org]. Каждое задание мы показываем нескольким лю...»)
(разн.) ← Предыдущая версия | Текущая версия (разн.) | Следующая версия → (разн.)
Перейти к навигации Перейти к поиску

1. Зарегистрируйтесь на OpenCorpora.org. Каждое задание мы показываем нескольким людям. Регистрация нужна для того, чтобы не показывать вам одно и то же задание несколько раз.

2. Выберите задание из списка на странице opencorpora.org/tasks.php (список заданий на этой странице отображается только у зарегистрированных пользователей).


Сложность заданий отмечена звёздочками разного цвета. Зелёные - самые простые. Красные - самые сложные. Жёлтые и оранжевые находятся где-то между зелёными и красными. Если звёздочка серая, то это значит, что мы пока не выбрали нужный цвет.

Выбрав задание, нажмите "Взять на разметку".

<img src="http://habrastorage.org/storage2/3f5/37b/86d/3f537b86d422262a9159d1dd05f6b370.png"/>

3. Задания выдаются по 5 штук сразу (это можно изменить в настройках пользователя). В каждом задании есть выделенное слово, про которое задан вопрос.


При нажатии на кнопки “Единственное число” или “Множественное число” происходит выбор варианта ответа. Кнопку “Другое” нужно нажимать в случае, если сам вопрос поставлен некорректно: например, в тексте опечатка или словарные гипотезы неверны (такое бывает, т.к. не все слова есть в словаре). Если у вас нет уверенности в правильном ответе, то нужно нажимать кнопку “Пропустить”. Бывают примеры, для разметки которых нужно вспоминать правила русской грамматики: например, в каком числе употребляются существительные после числительных. Мы считаем, что никто не обязан помнить все правила, поэтому для неочевидных случаев есть возможность пропустить пример. Его покажут кому-то другому, а пропуск не будет засчитан размечающему за ошибку.

Выбирая вариант “Другое”, а также в случае, если хочется обратить внимание модератора на данный пример, можно (если “Другое”, то нужно) оставить комментарий. По ссылке “Прокомментировать” для комментария открывается текстовое поле. Если отображённого на экране контекста слова недостаточно, то нужно нажать на кнопки расширения контекста (многоточия слева и справа от примера). При этом откроются все слова с начала или до конца предложения. Если целого предложения всё равно не достаточно для правильного ответа, то нужно выбрать вариант “Другое” и оставить комментарий, что это “неснимаемая неоднозначность”. Модератор разберётся.

По грубым подсчётам, чтобы снять неоднозначность в собранной на настоящий момент коллекции текстов, с учётом того, что вопросы задаются трижды, нужно ответить на 4 миллиона вопросов. Если в этом будут участвовать 100 человек, то по 40 тысяч вопросов на человека (это много). Если 1000 человек, то по 4 тысячи (несколько часов работы). Если 10000, то по 400 (20-30 минут). Поскольку никаких особенных лингвистических знаний не требуется, можно звать друзей, знакомых и коллег. Если каждый разметит по чуть-чуть, мы вместе создадим морфологический слой разметки корпуса. Разработку морфологических анализаторов для русского языка после этого будут задавать в качестве домашнего задания студентам второго курса, т. к. необходимая математика уже имеется.

В интерфейсе доступны следующие кнопки:

  • кнопки-ответы ("глагол", "существительное", "единственное число", "мужской род", ...) обозначают варианты ответа, в котором Вы уверены.
  • кнопку "другое" нужно нажать, если Вы уверены, что хорошо понимаете этот пример, и все варианты ответа неправильные (это случается, если у нас есть ошибка в словаре). При нажатии этой кнопки нужно будет также написать комментарий, объясняющий Вашу точку зрения. Писать комментарий также стоит, если Вы видите явную опечатку в самом примере. Они встречаются.
  • кнопку "пропустить" нужно нажать, если Вы сомневаетесь в ответе. Тогда этот конкретный пример Вам больше не будут показывать. Это нормально. Никто не обязан знать всё.
  • кнопки "..." слева и справа от примера нужно нажимать, если показанного контекста недостаточно для ответа на вопрос. Если после нажатия обеих кнопок с многоточием контекста всё ещё будет мало, то надо нажать кнопку "другое" и написать об этом в комментарии: не хватает контекста.
  • кнопка "Хочу ещё примеров!" загружает следующие пять примеров.

Если Вы нажали какую-то из кнопок-ответов ошибочно, то просто нажмите правильную - новый ответ запишется поверх старого.

Основные правила

Правило 1

На данном этапе разметки в корпусе не может быть слов, содержащих пробел. Таким образом, при разрешении неоднозначности составных предлогов (в течение), некоторых наречий (в новинку) и других слов, содержащих пробел, следует исходить из грамматических характеристик частей данных слов, а не из самого слова в целом: в [ПРЕДЛОГ] течение [СУЩ]; в [ПРЕДЛОГ] новинку [СУЩ]; к [ПРЕДЛОГ] счастью [СУЩ].

Правило 2

Если в процессе разметки вы заметили ошибку, непосредственно не связанную с выбранным заданием, напишите об этом комментарий и обязательно снимите неоднозначность.

Например:

Задание: "Прилагательное мр/жр"
Контекст: разговаривать с больной было трудно

В таком случае вы:

1) Пишете комментарий "больная - сущ"

2) Снимаете неоднозначность, выбирая ответ "жр"