Участник:Andrey Kruglov/Учёт опечаток в opencorpora: различия между версиями

Материал из OpenCorpora
Перейти к навигации Перейти к поиску
мНет описания правки
Строка 4: Строка 4:


Как раз на эту тему я и подготовил небольшой пост: как построена работа модераторов с опечатками, думаю, что прочитав его у вас улучшится понимание как мы работаем и вы сможете сами совершать меньше ошибок и лишних действий.
Как раз на эту тему я и подготовил небольшой пост: как построена работа модераторов с опечатками, думаю, что прочитав его у вас улучшится понимание как мы работаем и вы сможете сами совершать меньше ошибок и лишних действий.
Все примеры статьи если отдельно не оговаривается иное взяты из пулов заданий на снятие неоднозначности между именительным и винительным числом.
Пример 1. Опечатка в слове, в котором снимается неоднозначность
{{ПримерЗадания||Первый| пунктом будет Сибирь . |}}
Очевидно, что здесь опечатка на слове "первый" (правильно -- "первым", творительный падеж). При разметке нажимаем кнопку "другое", также можно оставить комментарий "опечатка".


Первое.
Первое.

Версия от 14:01, 7 ноября 2015

Учёт опечаток в opencorpora

Каждый размечающий сталкивается периодически с тем, что видит в корпусе явные опечатки в тексте и хочет помочь модераторам.

Как раз на эту тему я и подготовил небольшой пост: как построена работа модераторов с опечатками, думаю, что прочитав его у вас улучшится понимание как мы работаем и вы сможете сами совершать меньше ошибок и лишних действий.

Все примеры статьи если отдельно не оговаривается иное взяты из пулов заданий на снятие неоднозначности между именительным и винительным числом.

Пример 1. Опечатка в слове, в котором снимается неоднозначность

Первый пунктом будет Сибирь .

Очевидно, что здесь опечатка на слове "первый" (правильно -- "первым", творительный падеж). При разметке нажимаем кнопку "другое", также можно оставить комментарий "опечатка".


Первое.

(Найти пример, где размечается существительное -- я рядом глагол написан в неправильной форме). Ну очень хочется порой пометить комментарием, что тут рядом опечатка - но пояснить, что модератор сконцентрирован на текущем элементе и вероятнее всего комментарий просто пропадёт вхолостую. (Хотя я при модерировании стараюсь на подобные случаи обращать внимание и создаю комментарии к предложению (тоже зря, их там тоже никто не читает).

Второе. Найти пример, где нужно понять, опечатка на проверяемом слове или на соседнем. Предполагается (в отличие от предыдущего примера), что тут уже есть выбор, где находится опечатка: на проверяемом слове или на соседнем. Пример на "Велик могучий русский языка" очень удобен: проверяется слово "могучий" -- а опечатка на языка.


Заготовки в статью

токенизация

Пример из пула именительный/винительный http://opencorpora.org/tasks.php?act=annot&pool_id=2238#

Но кое что мы все же смогли обсудить.

Здесь правильная токенизация это "кое-что" (слитно). Модератор не будет здесь ставить ошибку, а поставит именительный + частично правильно.