Участник:Andrey Kruglov/Разметка на уровне хардкор
Знаете те ли вы, что если при выполнении задания на разметку нажать на кнопку "пропустить" -- то оно вам больше никогда уже будет показано?
Не знаю, кому что интересно -- вполне возможно, что многим будет интересно получить количество баллов повыше (самый очевидный способ максимизации числа баллов: быстро сделать много заданий полегче, не тратить много времени на сложные примеры: они очень долгие).
Лично я прохожу опенкорпору на уровне 'hardcore': не нажимаю на кнопку пропустить.
Вот так это выглядит:
На этом скриншоте -- то, как выглядят у меня в интерфейсе пулы заданий на именительный/винительный падеж. Я не жму на кнопку "пропустить пример" -- я просто перехожу к следующему примеру, а когда дохожу до низа страницы -- то жму всегда кнопку "достаточно", а не на кнопку "закончить". Либо нажимаю "F5", чтобы ещё раз окинуть примеры, которые отложил в сторону, не нажав никакую кнопку.
Сделал 50 примеров -- один-два остались несделанными (это вот как раз те самые "доступно сто пятьдесят плюс один" на скриншоте) -- переходишь к следующему пулу, размечаешь его. (И там тоже остаётся один-два отложенных задания -- и снова идёшь к следующему).
И подобным образом идёшь и идёшь по примерам пула на именительный/винительный: их много, очень много -- хватит на неделю-две-три (зависит от количества свободного времени). Самое интересное начинается, когда не останется ни одного пула, который бы можно было разметить: пока ты не доделаешь эти недостающие один-два примера -- невозможно будет взять ещё по пятьдесят. Тогда я беру и пробегаюсь быстро по всем таким примерам и пытаюсь найти что-то общее в примерах. Например, вижу, что много примеров на слово "в течение" -- и пробую разобраться, как делать такие примеры. Разбираюсь, делаю: после выполнения таких заданий как правило открывается ещё 10-20 пулов, в которых можно черпать по полтинничку -- и ещё на неделю-две делаю понятные задания.
Все те непонятные случаи, которые я описываю в рассылке -- это как раз те самые 1-2 непонятных примера из пятидесяти.
А вообще. Из 1500 примеров в новых (по 50 примеров) заданиях им/вин сущ ед. ч. я разметил 1046 штук ни разу не нажав кнопки раскрытия контекста. Это 70%. Таково количество совсем простых заданий.
Как подсмотреть в контекст
При разметке на уровне "хардкор" постоянно сталкиваешься с необходимостью посмотреть в контекст.
Два самых типичных случая: нужно посмотреть предыдущее предложение и нужно посмотреть весь список целиком (когда он разбит на отдельные предложения).
Примеры на предыдущее предложения описаны в инструкции именительный/винительный мн. ч. и ед. ч. (см. подраздел "назывные предложения), дополнительные примеры я оставлял на странице обсуждения (мн. ч., ед. ч.)
Примеры на списки:
2) сведения о документе, подтверждающем ...
Без контекста вы не знаете как правильно: либо "Необходимо собирать: 1) девочку 2) сведения" (винительный падеж), либо "В реестре указывается: 1) девочка 2) сведения" (именительный падеж).
Либо ты должен ставить ответ "другое" и писать комментарий "не хватает контекста".
Как всё же посмотреть контекст? Очень просто.
Допустим вы размечаете пул #91, его ID=3268 (т.е. вы находитесь на странице http://opencorpora.org/tasks.php?act=annot&pool_id=3268 ).
В непонятном примере, где нужно посмотреть в контекст - нажмите кнопку "Другое".
А после этого откройте в другой вкладке браузера страницу http://opencorpora.org/pools.php?act=samples&pool_id=3268&ext&filter=disagreed - так наиболее быстро найти свой пример, потому что ответы "другое" всегда попадают в фильтр несогласованных ответов.
В примере есть линк "контекст". Открываем, смотрим, принимаем решение какой ответ правильный - после чего возвращаемся на вкладку, где мы редактируем пул и вместо кнопки "другое" выбираем уже ответ, который считаем правильным.
Вот и вся магия.
Поиск в корпусе
Для тех, у кого notepad++ не справляется с открытием больших xml-файлов (а поиск в них - отдельная боль).
Ищем предложения, которые содержат слово "кодеин". Второй командой выводим 10 строк файла во временный файл, который уже и смотрим текстовым редактором (ну или сразу на консоль).
[root@dhcppc9 corp]# grep -i -n '<source>.*кодеин.*<\/source>' ./annot.opcorpora.xml 1868541: <source>Из скупленного в Афганистане опиума предлагается производить болеутоляющие средства: морфий и кодеин.</source> [root@dhcppc9 corp]# cat ./annot.opcorpora.xml | tail -n +1868540 | head -n 10 > temp.xml
В предыдущей строке указан номер предложения:
<sentence id="77658"> <source>Из скупленного в Афганистане опиума предлагается производить болеутоляющие средства: морфий и кодеин.</source>
После чего можно рассматривать предложение на сайте корпоры: http://opencorpora.org/sentence.php?id=77658