Участник:Andrey Kruglov/Чтобы не запутаться в OpenCorpora Разные советы

Материал из OpenCorpora
Перейти к навигации Перейти к поиску

Может показаться (новому человеку, при первом взгляде), что OpenCorpora - это сложно. На самом деле OpenCorpora - это достаточно просто, а если вам кажется, что я ошибаюсь -- попробуйте прочитать текст ниже, вполне возможно, что некоторые вещи, которые поначалу казались сложными станут более понятны.

Обещали, что будет просто

В инструкциях обещали, что "не требуется никакой специальной подготовки в области лингвистики". А примеры очень сложные!

Это вовсе не так. Если посмотреть ВСЕ задания, которые только были -- окажется, что 90% заданий не просто лёгкие, а очень лёгкие для любого человека даже без всякой лингвистической подготовки. Откройте например профиль Стаси и посмотрите: у неё же десятки тысяч примеров разобраны -- но это настолько лёгкие примеры, что не нужно никакой специальной подготовки, нужна лишь внимание и аккуратность.

Но если кто-то подключился к проекту только недавно -- то да, впечатление, что остались только сложные задания. Мы работаем над этим в нескольких направлениях, стараясь понизить субъективную сложность примеров и порог вхождения в проект.

В инструкции к заданию нет и половины нужных вещей!

Одна из причин, почему OpenCorpora кажется сложной: кажется, что в инструкциях к заданию нет и половины того, что нужно для выполнения задания.

На деле не всё так сложно, как кажется на первый взгляд. Я заметил, что в инструкциях к заданию максимально кратко отражено то, что нужно для выполнения данного конкретного типа заданий -- но есть весьма много моментов, которые одинаковы для заданий разных типов. Такой инструкции нет (пока?), поэтому часто приходится искать нужную информацию по всему сайту, либо спрашивать.

Строительные леса

Так для себя я называю ещё одну причину, из-за которой кажется, что OpenCorpora -- это что-то очень запутанное. То тут то там натыкаешься на комментарии вида "Пропущенные знаки препинания на конце предложения: не восстанавливаем. Но считаем ошибкой. Пока непонятно, как её отметить явно" (со временем хочется научить токенизатор самостоятельно находить подобные ошибки), "мы пока не придумали, как размечасть сложные предлоги типа "в течение", потому что в токенизаторе не предусмотрен пробел в середине" и т.д. и т.п. - и многие строительные леса не первый год стоят без движения.

Что я могу сказать по этому поводу? Проект активно развивается, поэтому подобный эффект действительно есть: да, порой OpenCorpora немного сумбурна и непонятна. Лично для меня как только я сказал себе "эгей, да тут просто постоянно движуха идёт, активное строительство - поэтому немного хаотично" сразу всё стало понятно и просто. ;) Сначала ходил по тем местам, где всё просто, понятно и никаких вопросов нет; по мере как осваиваешься начинаешь залезать даже в те места, где вовсю кипит работа и полно строительных лесов -- но ты уже хорошо ориентируешься в проекте.

Аксиомы -- как воздух: их сложно заметить

Знаете ли вы, что в Открытом корпусе принято, что "случаи типа веб-сайт надо рассматривать как один токен, а случаи типа Жан-Поль – как три)"? Что в других проектах может быть по-другому? А что в проекте нет порядковых числительных (например, слово "второй"), а такие слова считаются прилагательными (с пометкой 'anum')? А зачем и почему так сделано? В каждом проекте есть свои аксиомы и изначальные договорённости, при этом их весьма полезно знать, но они разбросаны по всему сайту.

В принципе, я как-то хотел выписать отдельно все те вводные, которые приняты в проекте, но похоже, что я скоро просто привыкну и перестану их замечать.