Участник:Andrey Kruglov/Учёт опечаток в opencorpora
Серым цветом в статье выделены фрагменты, которые можно оставить для полной версии статьи (краткий -- публикуем во вконтакте, полный -- у нас на сайте, заодно и увидят правильное оформление примеры)
Учёт опечаток в opencorpora
Каждый размечающий сталкивается периодически с тем, что видит в корпусе явные опечатки в тексте и хочет помочь модераторам.
Как раз на эту тему я и подготовил небольшой пост: как построена работа модераторов с опечатками, думаю, что прочитав его у вас улучшится понимание как мы работаем и вы сможете сами совершать меньше ошибок и лишних действий.
Все примеры статьи если отдельно не оговаривается иное взяты из пулов заданий на снятие неоднозначности между именительным и винительным числом.
Пример 1. Опечатка в слове, в котором снимается неоднозначность
Первый пунктом будет Сибирь .
Очевидно, что здесь опечатка на слове "первый" (правильно -- "первым", творительный падеж). При разметке нажимаем кнопку "другое", также можно оставить комментарий "опечатка".
Пример 2. Опечатка НЕ в слове, в котором снимается неоднозначность
Редактор шахматного отдела в газеты « Советское Зауралье » .
Очевидно, что здесь в слове "газеты" опечатка (правильно -- "в газете"). Однако мы снимаем неоднозначность в слове "советское", поэтому достаточно выбрать правильный падеж. Комментарий, что рядом в соседних словах есть какие-то опечатки ставить не нужно, модератор их всё равно проигнорирует, так как он также сконцентрирован только на том слове, в котором снимается неоднозначность.
Слово "газеты" здесь также имеет неоднозначность и оно также рано или поздно попадёт на разметку и затем к модератору, поэтому беспокоиться о том, что где-то есть опечатки НЕ на проверяемом слове -- лишняя трата собственного времени.
И да, часто бывают такие случаи, когда опечатка имеет шанс не попасть ни в один пул, потому что опечатка такова, что слово полностью автоматически разобралось и никакой неоднозначности в нём нет. Мы планируем отдельно проверить все подобные случаи.
Пример 3. Несогласованность
Несогласованность в корпусе также расценивается как опечатка. Примеры несогласованности: "красный роза" (корректно: "красная роза").
Как и в предыдущих двух примерах -- нужно в первую очередь понять, опечатка будет на слове, в котором снимается неоднозначность или в другом слове (других словах) и в зависимости от этого выбирать, поступим ли мы как в примере 1 или как в примере 2 (не будем обращать внимание на другие опечатки).
Чтобы понять -- нужно мысленно восстановить корректность предложения.
Велик могучий русский языка
Могучий -- именительный падеж. На опечатку в слове "языка" не обращаем внимания.
МАГАТЭ ячитает , что обогащение урана должно быть запрещено , вместо этого должна быть одна международное предприятие , которое занималась бы этим .
Международное -- именительный падеж. На опечатку в слове "ячитает" не обращаем внимания; также опечатка будет поставлена впоследствии на словах "должна" (корректно: должно) и "одна" (правильно: одно)
Заготовки в статью
токенизация
Пример из пула именительный/винительный http://opencorpora.org/tasks.php?act=annot&pool_id=2238#
Но кое что мы все же смогли обсудить.
Здесь правильная токенизация это "кое-что" (слитно). Модератор не будет здесь ставить ошибку, а поставит именительный + частично правильно.