Участник:Andrey Kruglov/Учёт опечаток в opencorpora: различия между версиями

Материал из OpenCorpora
Перейти к навигации Перейти к поиску
мНет описания правки
Строка 16: Строка 16:
===Заготовки в статью===
===Заготовки в статью===
==== токенизация ====
==== токенизация ====
http://opencorpora.org/tasks.php?act=annot&pool_id=2238# Но кое что мы все же смогли обсудить .
Пример из пула именительный/винительный http://opencorpora.org/tasks.php?act=annot&pool_id=2238#  
 
{{ПримерЗадания|Но |кое| что мы все же смогли обсудить.|}}
 
Здесь правильная токенизация это "кое-что" (слитно). Модератор не будет здесь ставить ошибку, а поставит именительный + частично правильно.

Версия от 13:53, 7 ноября 2015

Учёт опечаток в opencorpora

Каждый размечающий сталкивается периодически с тем, что видит в корпусе явные опечатки в тексте и хочет помочь модераторам.

Как раз на эту тему я и подготовил небольшой пост: как построена работа модераторов с опечатками, думаю, что прочитав его у вас улучшится понимание как мы работаем и вы сможете сами совершать меньше ошибок и лишних действий.

Первое.

(Найти пример, где размечается существительное -- я рядом глагол написан в неправильной форме). Ну очень хочется порой пометить комментарием, что тут рядом опечатка - но пояснить, что модератор сконцентрирован на текущем элементе и вероятнее всего комментарий просто пропадёт вхолостую. (Хотя я при модерировании стараюсь на подобные случаи обращать внимание и создаю комментарии к предложению (тоже зря, их там тоже никто не читает).

Второе. Найти пример, где нужно понять, опечатка на проверяемом слове или на соседнем. Предполагается (в отличие от предыдущего примера), что тут уже есть выбор, где находится опечатка: на проверяемом слове или на соседнем. Пример на "Велик могучий русский языка" очень удобен: проверяется слово "могучий" -- а опечатка на языка.


Заготовки в статью

токенизация

Пример из пула именительный/винительный http://opencorpora.org/tasks.php?act=annot&pool_id=2238#

Но кое что мы все же смогли обсудить.

Здесь правильная токенизация это "кое-что" (слитно). Модератор не будет здесь ставить ошибку, а поставит именительный + частично правильно.