Участник:Andrey Kruglov/Чтобы не запутаться в OpenCorpora Разные советы
Может показаться (новому человеку, при первом взгляде), что OpenCorpora - это сложно. На самом деле OpenCorpora - это достаточно просто, а если вам кажется, что я ошибаюсь -- попробуйте прочитать текст ниже, вполне возможно, что некоторые вещи, которые поначалу казались сложными станут более понятны.
Обещали, что будет просто
В инструкциях обещали, что "не требуется никакой специальной подготовки в области лингвистики". А примеры очень сложные!
Это вовсе не так. Если посмотреть ВСЕ задания, которые только были -- окажется, что 90% заданий не просто лёгкие, а очень лёгкие для любого человека даже без всякой лингвистической подготовки. Откройте например профиль Стаси и посмотрите: у неё же десятки тысяч примеров разобраны -- но это настолько лёгкие примеры, что не нужно никакой специальной подготовки, нужна лишь внимание и аккуратность.
Но если кто-то подключился к проекту только недавно -- то да, впечатление, что остались только сложные задания. Мы работаем над этим в нескольких направлениях, стараясь понизить субъективную сложность примеров и порог вхождения в проект.
В инструкции к заданию нет и половины нужных вещей!
Одна из причин, почему OpenCorpora кажется сложной: кажется, что в инструкциях к заданию нет и половины того, что нужно для выполнения задания.
На деле не всё так сложно, как кажется на первый взгляд. Я заметил, что в инструкциях к заданию максимально кратко отражено то, что нужно для выполнения данного конкретного типа заданий -- но есть весьма много моментов, которые одинаковы для заданий разных типов. Такой инструкции нет (пока?), поэтому часто приходится искать нужную информацию по всему сайту, либо спрашивать.
Строительные леса
Так для себя я называю ещё одну причину, из-за которой кажется, что OpenCorpora -- это что-то очень запутанное. То тут то там натыкаешься на комментарии вида "Пропущенные знаки препинания на конце предложения: не восстанавливаем. Но считаем ошибкой. Пока непонятно, как её отметить явно" (со временем хочется научить токенизатор самостоятельно находить подобные ошибки), "мы пока не придумали, как размечасть сложные предлоги типа "в течение", потому что в токенизаторе не предусмотрен пробел в середине" и т.д. и т.п. - и многие строительные леса не первый год стоят без движения.
Что я могу сказать по этому поводу? Проект активно развивается, поэтому подобный эффект действительно есть: да, порой OpenCorpora немного сумбурна и непонятна. Лично для меня как только я сказал себе "эгей, да тут просто постоянно движуха идёт, активное строительство - поэтому немного хаотично" сразу всё стало понятно и просто. ;) Сначала ходил по тем местам, где всё просто, понятно и никаких вопросов нет; по мере как осваиваешься начинаешь залезать даже в те места, где вовсю кипит работа и полно строительных лесов -- но ты уже хорошо ориентируешься в проекте.
Аксиомы -- как воздух: их сложно заметить
Знаете ли вы, что в Открытом корпусе принято, что "случаи типа веб-сайт надо рассматривать как один токен, а случаи типа Жан-Поль – как три)"? Что в других проектах может быть по-другому? А что в проекте нет порядковых числительных (например, слово "второй"), а такие слова считаются прилагательными (с пометкой 'anum')? А зачем и почему так сделано? В каждом проекте есть свои аксиомы и изначальные договорённости, при этом их весьма полезно знать, но они разбросаны по всему сайту.
В принципе, я как-то хотел выписать отдельно все те вводные, которые приняты в проекте, но похоже, что я скоро просто привыкну и перестану их замечать.