Участник:Andrey Kruglov/Разметка на уровне хардкор

Материал из OpenCorpora
< Участник:Andrey Kruglov
Версия от 15:44, 4 июля 2015; Andrey Kruglov (обсуждение | вклад)
(разн.) ← Предыдущая версия | Текущая версия (разн.) | Следующая версия → (разн.)
Перейти к навигации Перейти к поиску

Знаете те ли вы, что если при выполнении задания на разметку нажать на кнопку "пропустить" -- то оно вам больше никогда уже будет показано?

Не знаю, кому что интересно -- вполне возможно, что многим будет интересно получить количество баллов повыше (самый очевидный способ максимизации числа баллов: быстро сделать много заданий полегче, не тратить много времени на сложные примеры: они очень долгие).

Лично я прохожу опенкорпору на уровне 'hardcore': не нажимаю на кнопку пропустить.

Вот так это выглядит:

OpenCorporaLevelHardcore.png

На этом скриншоте -- то, как выглядят у меня в интерфейсе пулы заданий на именительный/винительный падеж. Я не жму на кнопку "пропустить пример" -- я просто перехожу к следующему примеру, а когда дохожу до низа страницы -- то жму всегда кнопку "достаточно", а не на кнопку "закончить". Либо нажимаю "F5", чтобы ещё раз окинуть примеры, которые отложил в сторону, не нажав никакую кнопку.

Сделал 50 примеров -- один-два остались несделанными (это вот как раз те самые "доступно сто пятьдесят плюс один" на скриншоте) -- переходишь к следующему пулу, размечаешь его. (И там тоже остаётся один-два отложенных задания -- и снова идёшь к следующему).

И подобным образом идёшь и идёшь по примерам пула на именительный/винительный: их много, очень много -- хватит на неделю-две-три (зависит от количества свободного времени). Самое интересное начинается, когда не останется ни одного пула, который бы можно было разметить: пока ты не доделаешь эти недостающие один-два примера -- невозможно будет взять ещё по пятьдесят. Тогда я беру и пробегаюсь быстро по всем таким примерам и пытаюсь найти что-то общее в примерах. Например, вижу, что много примеров на слово "в течение" -- и пробую разобраться, как делать такие примеры. Разбираюсь, делаю: после выполнения таких заданий как правило открывается ещё 10-20 пулов, в которых можно черпать по полтинничку -- и ещё на неделю-две делаю понятные задания.

Все те непонятные случаи, которые я описываю в рассылке -- это как раз те самые 1-2 непонятных примера из пятидесяти.

А вообще. Из 1500 примеров в новых (по 50 примеров) заданиях им/вин сущ ед. ч. я разметил 1046 штук ни разу не нажав кнопки раскрытия контекста. Это 70%. Таково количество совсем простых заданий.

Как подсмотреть в контекст

При разметке на уровне "хардкор" постоянно сталкиваешься с необходимостью посмотреть в контекст.

Два самых типичных случая: нужно посмотреть предыдущее предложение и нужно посмотреть весь список целиком (когда он разбит на отдельные предложения).

Примеры на предыдущее предложения описаны в инструкции именительный/винительный мн. ч. и ед. ч. (см. подраздел "назывные предложения), дополнительные примеры я оставлял на странице обсуждения (мн. ч., ед. ч.)

Примеры на списки:

2) сведения о документе, подтверждающем ...

Без контекста вы не знаете как правильно: либо "Необходимо собирать: 1) девочку 2) сведения" (винительный падеж), либо "В реестре указывается: 1) девочка 2) сведения" (именительный падеж).

Либо ты должен ставить ответ "другое" и писать комментарий "не хватает контекста".

Как всё же посмотреть контекст? Очень просто.

Допустим вы размечаете пул #91, его ID=3268 (т.е. вы находитесь на странице http://opencorpora.org/tasks.php?act=annot&pool_id=3268 ).

В непонятном примере, где нужно посмотреть в контекст - нажмите кнопку "Другое".

А после этого откройте в другой вкладке браузера страницу http://opencorpora.org/pools.php?act=samples&pool_id=3268&ext&filter=disagreed - так наиболее быстро найти свой пример, потому что ответы "другое" всегда попадают в фильтр несогласованных ответов.

В примере есть линк "контекст". Открываем, смотрим, принимаем решение какой ответ правильный - после чего возвращаемся на вкладку, где мы редактируем пул и вместо кнопки "другое" выбираем уже ответ, который считаем правильным.

Вот и вся магия.

Поиск в корпусе

Для тех, у кого notepad++ не справляется с открытием больших xml-файлов (а поиск в них - отдельная боль).

Ищем предложения, которые содержат слово "кодеин". Второй командой выводим 10 строк файла во временный файл, который уже и смотрим текстовым редактором (ну или сразу на консоль).

[root@dhcppc9 corp]# grep -i -n '<source>.*кодеин.*<\/source>' ./annot.opcorpora.xml
1868541:        <source>Из скупленного в Афганистане опиума предлагается производить болеутоляющие средства: морфий и кодеин.</source>
[root@dhcppc9 corp]# cat ./annot.opcorpora.xml | tail -n +1868540 | head -n 10 > temp.xml

В предыдущей строке указан номер предложения:

<sentence id="77658">
   <source>Из скупленного в Афганистане опиума предлагается производить болеутоляющие средства: морфий и кодеин.</source>

После чего можно рассматривать предложение на сайте корпоры: http://opencorpora.org/sentence.php?id=77658