Участник:Andrey Kruglov/Учёт опечаток в opencorpora

Материал из OpenCorpora
Перейти к навигации Перейти к поиску


Серым цветом в статье выделены фрагменты, которые можно оставить для полной версии статьи (краткий -- публикуем во вконтакте, полный -- у нас на сайте, заодно и увидят правильное оформление примеры)

Учёт опечаток в opencorpora

Каждый размечающий сталкивается периодически с тем, что видит в корпусе явные опечатки в тексте и хочет помочь модераторам.

Как раз на эту тему я и подготовил небольшой пост: как построена работа модераторов с опечатками, думаю, что прочитав его у вас улучшится понимание как мы работаем и вы сможете сами совершать меньше ошибок и лишних действий.

Все примеры статьи если отдельно не оговаривается иное взяты из пулов заданий на снятие неоднозначности между именительным и винительным числом.

Пример 1. Опечатка в слове, в котором снимается неоднозначность

Первый пунктом будет Сибирь .

Очевидно, что здесь опечатка на слове "первый" (правильно -- "первым", творительный падеж). При разметке нажимаем кнопку "другое", также можно оставить комментарий "опечатка".

Пример 2. Опечатка НЕ в слове, в котором снимается неоднозначность

Редактор шахматного отдела в газеты « Советское Зауралье » .

Очевидно, что здесь в слове "газеты" опечатка (правильно -- "в газете"). Однако мы снимаем неоднозначность в слове "советское", поэтому достаточно выбрать правильный падеж. Комментарий, что рядом в соседних словах есть какие-то опечатки ставить не нужно, модератор их всё равно проигнорирует, так как он также сконцентрирован только на том слове, в котором снимается неоднозначность.

Слово "газеты" здесь также имеет неоднозначность и оно также рано или поздно попадёт на разметку и затем к модератору, поэтому беспокоиться о том, что где-то есть опечатки НЕ на проверяемом слове -- лишняя трата собственного времени.

И да, часто бывают такие случаи, когда опечатка имеет шанс не попасть ни в один пул, потому что опечатка такова, что слово полностью автоматически разобралось и никакой неоднозначности в нём нет. Мы планируем отдельно проверить все подобные случаи.

Пример 3. Несогласованность

Несогласованность в корпусе также расценивается как опечатка. Примеры несогласованности: "красный роза" (корректно: "красная роза").

Как и в предыдущих двух примерах -- нужно в первую очередь понять, опечатка будет на слове, в котором снимается неоднозначность или в другом слове (других словах) и в зависимости от этого выбирать, поступим ли мы как в примере 1 или как в примере 2 (не будем обращать внимание на другие опечатки).

Чтобы понять -- нужно мысленно восстановить корректность предложения.

Велик могучий русский языка

Могучий -- именительный падеж. На опечатку в слове "языка" не обращаем внимания.

МАГАТЭ ячитает , что обогащение урана должно быть запрещено , вместо этого должна быть одна международное предприятие , которое занималась бы этим .

Международное -- именительный падеж. На опечатку в слове "ячитает" не обращаем внимания; также опечатка будет поставлена впоследствии на словах "должна" (корректно: должно) и "одна" (правильно: одно)

Заготовки в статью

токенизация

Пример из пула именительный/винительный http://opencorpora.org/tasks.php?act=annot&pool_id=2238#

Но кое что мы все же смогли обсудить.

Здесь правильная токенизация это "кое-что" (слитно). Модератор не будет здесь ставить ошибку, а поставит именительный + частично правильно.