Участник:Andrey Kruglov/Учёт опечаток в opencorpora

Материал из OpenCorpora
Перейти к навигации Перейти к поиску

Серым цветом в статье выделены фрагменты, которые можно оставить для полной версии статьи (краткий -- публикуем во вконтакте, полный -- у нас на сайте, заодно и увидят правильное оформление примеры)

Учёт опечаток в opencorpora

Каждый размечающий сталкивается периодически с тем, что видит в корпусе явные опечатки в тексте и хочет помочь модераторам.

Как раз на эту тему я и подготовил небольшой пост: как построена работа модераторов с опечатками, думаю, что прочитав его у вас улучшится понимание как мы работаем и вы сможете сами совершать меньше ошибок и лишних действий.

Все примеры статьи если отдельно не оговаривается иное взяты из пулов заданий на снятие неоднозначности между именительным и винительным числом.

Пример 1. Опечатка в слове, в котором снимается неоднозначность

Первый пунктом будет Сибирь .

Очевидно, что здесь опечатка на слове "первый" (правильно -- "первым", творительный падеж). При разметке нажимаем кнопку "другое", также можно оставить комментарий "опечатка".

Пример 2. Опечатка НЕ в слове, в котором снимается неоднозначность

Редактор шахматного отдела в газеты « Советское Зауралье » .

Очевидно, что здесь в слове "газеты" опечатка (правильно -- "в газете"). Однако мы снимаем неоднозначность в слове "советское", поэтому достаточно выбрать правильный падеж. Комментарий, что рядом в соседних словах есть какие-то опечатки ставить не нужно, модератор их всё равно проигнорирует, так как он также сконцентрирован только на том слове, в котором снимается неоднозначность.

Слово "газеты" здесь также имеет неоднозначность и оно также рано или поздно попадёт на разметку и затем к модератору, поэтому беспокоиться о том, что где-то есть опечатки НЕ на проверяемом слове -- лишняя трата собственного времени.

И да, часто бывают такие случаи, когда опечатка имеет шанс не попасть ни в один пул, потому что опечатка такова, что слово полностью автоматически разобралось и никакой неоднозначности в нём нет. Мы планируем отдельно проверить все подобные случаи.


Первое.

(Найти пример, где размечается существительное -- я рядом глагол написан в неправильной форме). Ну очень хочется порой пометить комментарием, что тут рядом опечатка - но пояснить, что модератор сконцентрирован на текущем элементе и вероятнее всего комментарий просто пропадёт вхолостую. (Хотя я при модерировании стараюсь на подобные случаи обращать внимание и создаю комментарии к предложению (тоже зря, их там тоже никто не читает).

Второе. Найти пример, где нужно понять, опечатка на проверяемом слове или на соседнем. Предполагается (в отличие от предыдущего примера), что тут уже есть выбор, где находится опечатка: на проверяемом слове или на соседнем. Пример на "Велик могучий русский языка" очень удобен: проверяется слово "могучий" -- а опечатка на языка.


Заготовки в статью

токенизация

Пример из пула именительный/винительный http://opencorpora.org/tasks.php?act=annot&pool_id=2238#

Но кое что мы все же смогли обсудить.

Здесь правильная токенизация это "кое-что" (слитно). Модератор не будет здесь ставить ошибку, а поставит именительный + частично правильно.