Обсуждение:Nermanual/2: различия между версиями

Материал из OpenCorpora
Перейти к навигации Перейти к поиску
м (это важно - сделаем плашкой)
Строка 2: Строка 2:
Для того, чтобы создать новый вопрос, нажмите кнопку "Добавить тему" вверху страницы.
Для того, чтобы создать новый вопрос, нажмите кнопку "Добавить тему" вверху страницы.


Если вы начали размечать и поняли, что не понимаете как это делать, а инструкция не даёт ответа на ваши вопросы, то не нажимайте пока на кнопку "Закончить разметку абзаца". Вместо этого задайте вопрос на этой странице (обязательно скопируйте предложение) и дождитесь ответа. Торопиться не нужно.
{{Плашка
 
| title = Внимание! <span style="color:red;">Если вы начали размечать абзац и не понимаете, как его разметить</span>
| text = ...то не нажимайте пока на кнопку "Закончить разметку абзаца".<br>Вместо этого задайте вопрос на этой странице (обязательно скопируйте предложение) и дождитесь ответа. Торопиться не нужно.
}}


== Можно ли размечать постепенно? Можно ли возвращаться к ранее размеченным примерам? ==
== Можно ли размечать постепенно? Можно ли возвращаться к ранее размеченным примерам? ==

Версия от 10:41, 24 ноября 2015

Сюда нужно писать комментарии и вопросы. Для того, чтобы создать новый вопрос, нажмите кнопку "Добавить тему" вверху страницы.

Внимание! Если вы начали размечать абзац и не понимаете, как его разметить
...то не нажимайте пока на кнопку "Закончить разметку абзаца".
Вместо этого задайте вопрос на этой странице (обязательно скопируйте предложение) и дождитесь ответа. Торопиться не нужно.


Можно ли размечать постепенно? Можно ли возвращаться к ранее размеченным примерам?

Допустим, начиная размечать сущности прочитал фрагмент инструкции про персоны, более-менее их понял -- и решил начать размечать только персоны, не обращая внимания на другие именованные сущности, даже если они попадутся в предложении. И поехали: открыл абзац, нашёл все персоны, видишь, что есть ещё другие именованные сущности, но закрыл абзац и пошёл дальше к следующему абзацу. Потом следующий, потом следующий... Внимание вопрос: можно ли будет потом пройтись по всем "своим предложениям" и размечать уже не персон, а организации? Andrey Kruglov (обсуждение) 20:46, 14 ноября 2015 (MSK)

В данный момент так не получится: нельзя вернуться к абзацу после его закрытия. Лучше медленно, но размечать все сущности. --Bocharov (обсуждение) 14:33, 15 ноября 2015 (MSK)

Ну и как это размечать? Стою туплю над самым простым предложением

Я уже писал, что это не инструкция размечающего, это краткий реферат по теории именованных сущностей. Инструкцию нужно писать отдельно от этого документа, инструкция должна быть простой и понятной как автомат Калашникова. Я вот сейчас сижу и смотрю на предложение, в котором ясно вижу именованную сущность и не могу понять, что нужно сделать с ней, потому что мне приходится перечитывать всю инструкцию целиком, снова вовращаться туда-сюда по тексту, пытаться собрать воедино смысл в непротиворечивую картину.

Итак, собственно вопрос. Есть предложение с именованной сущностью типа персона (допустим, я разобрался как войти в режим разметки и у меня появилось предложение для разметки с панелькой):

конкурс « Новая волна - 2009 » в этом году может пройти без Раймонда Паулса .

Ner simplest 01.png

Хочу разметить "Раймонда" и "Паулса" как именованую сущность и не понимаю, что с ней нужно делать.

В одном месте инструкции мне говорят, что СНАЧАЛА я должен выделить все отдельные слова сущности и пометить её типом Person. (Ага, щас: во всплывающей панельке нет Person, там есть отдельные составляющие - Name, Surname. И я могу выделить хоть одно слово, хоть N слов НЕПРЕРЫВНО -- всё равно Person нет).

В другом месте инструкции мне говорят, что сначала я должен накликать каждой отдельной части её тип ("Раймонда" - Name, "Паулса" - Surname), а потом предлагают "После этого нужно объединить их в одно упоминание объекта с типом Person". Блин, а КАК ОБЬЕДИНИТЬ?? Можно это место как-то расписать подробнее?!

Ner simplest 02.png

В этом месте я как размечающий зверею, потому что ИНСТРУКЦИЯ размечающего должна была описать мне этот простой пример, а потом уже какие-то более сложные случаи описывать. А так я сижу читаю инструкцию, пытаюсь тыкать в разные места интерфейса и методом тыка хоть что-нибудь понять.

Andrey Kruglov (обсуждение) 21:05, 14 ноября 2015 (MSK)

Судя по скриншотам вы поняли ответы на ваши вопросы, хотя и не слышали устного объяснения. Это хорошо. Но, впрочем, не отменяет того, что инструкцию нужно переделывать. По поводу конкретных замечаний: "СНАЧАЛА я должен выделить все отдельные слова сущности и пометить её типом Person." - где именно этот кусок в инструкции? -- Bocharov (обсуждение) 14:44, 15 ноября 2015 (MSK)
Где-то есть видео? Я вообще да, недавно звонил, хотел устно задать кучу вопросов, чтобы не вникать в эту длинную инструкцию. ;) Остаюсь при своём мнении: не нужно эту инструкцию менять, пусть останется такой подробной теорией, в которую можно заглянуть при случае. А инструкция полагаю нужно делать отдельно. Вот именно что сразу дать простое предложение с одной фамилией -- и показать подробно. Потом написать "Сложные случаи" и перечислить всё, что бывает сложного в персонах. (По факту: общая фамилия у двух персон и неконкретные люди "у многих Татьян"). А теорию по уровням разметки оставить в теории. Я может даже на днях, когда у меня сложится полная картинка и я пережую эту длинную инструкцию покажу, как я вижу инструкцию для размечающего -- сделаю свой вариант в своём пространстве статей. Andrey Kruglov (обсуждение) 23:35, 16 ноября 2015 (MSK)
Переписал предложение про создание упоминания объекта. На всякий случай: чтобы создать упоминание нужно щёлкать на уже выделенные спаны не в тексте, а в таблице. Т.е. спаны в этот момент уже созданы. --Bocharov (обсуждение) 14:44, 15 ноября 2015 (MSK)
Посмотрел, что и где поменялось. Да, так стало НАМНОГО понятнее. Сразу совет: нужно ввести термины, что и где в интерфейсе находится. Фраза "нужно в таблице спанов щёлкнуть" в принципе понятна, но если бы изначально была картинка, было бы визуально нагляднее. Andrey Kruglov (обсуждение) 23:35, 16 ноября 2015 (MSK)

Расценивать ли как упоминание персон следующие случаи

Я не буду ставить подпись под каждым примером -- но прошу при ответе подписываться, чтобы было видно кто отвечающий ;) А примеры можете доспрашивать свои, здесь список. Итак:

  • В своей поездке Владимир Путин посетил...
Владимир - Name, Путин - Surname. Вместе -- персона Andrey Kruglov (обсуждение) 23:46, 16 ноября 2015 (MSK)
  • После церемонии освящения митрополит Кирилл ответил на вопросы журналистов.
митрополит - job, Кирилл - Name. Вместе - персона. Andrey Kruglov (обсуждение) 23:46, 16 ноября 2015 (MSK)
А, нет. " Должности и виды занятий выделяются спанами типа job. Для спанов типа job не нужно создавать упоминаний. Кроме этого, не нужно включать спаны типа job в упоминания объектов типа Person". Тогда получается есть два спана в панели спанов: а) митрополит - job б) Кирилл - Name. А в панели упоминаний будет одно упоминание: Person = Кирилл. Andrey Kruglov (обсуждение) 00:04, 17 ноября 2015 (MSK)
Да. --Bocharov (обсуждение) 18:27, 23 ноября 2015 (MSK)
  • После церемонии освящения митрополит ответил на вопросы журналистов.
Спан: митрополит - job, упоминаний - нет. Andrey Kruglov (обсуждение) 00:04, 17 ноября 2015 (MSK)
Да. --Bocharov (обсуждение) 18:27, 23 ноября 2015 (MSK)
  • Известность диджея Грува стала расти после...
диджей - job, Грув - никнейм. Вместе - персона. Andrey Kruglov (обсуждение) 23:46, 16 ноября 2015 (MSK)
Спаны: диджей - job, Грув - никнейм. Упомининия: Person Грув. Andrey Kruglov (обсуждение) 00:05, 17 ноября 2015 (MSK)
Да. --Bocharov (обсуждение) 18:27, 23 ноября 2015 (MSK)
  • На совещании министр экономики Алексей Улюкаев высказал...
министр - job, экономики - job, Алексей - Name, Улюкаев - Surname. Вместе - Person. Andrey Kruglov (обсуждение) 23:46, 16 ноября 2015 (MSK)
Спаны: а) министр - job б) экономики job в) Алексей - Name г) Улюкаев - Surname Упоминания: Person Алексей+Улюкаев. Andrey Kruglov (обсуждение) 00:07, 17 ноября 2015 (MSK)
Спаны: а) министр экономики - job б) Алексей - Name в) Улюкаев - Surname Упоминания: Person Алексей+Улюкаев. --Bocharov (обсуждение) 18:27, 23 ноября 2015 (MSK)
  • На совещании министр иностранных дел России Сергей Лавров высказал...
министр - job, иностранных - job, дел - job, России - job, Сергей - Name, Лавров - Surname. Вместе - Person. Andrey Kruglov (обсуждение) 23:46, 16 ноября 2015 (MSK)
Спаны: а) министр - job б) иностранных - job в) дел - job г) России - loc_name д) Сергей - Name е) Лавров - Surname. Упоминания: Person Сергей+Лавров Andrey Kruglov (обсуждение) 00:13, 17 ноября 2015 (MSK)
Спаны: а) министр иностранных дел - job б) России - loc_name в) Сергей - Name г) Лавров - Surname. Упоминания: Person Сергей+Лавров, России - loc_org

Для персон не нужно отмечать дескриптор.

В тексте встретилось: "Для персон не нужно отмечать дескриптор." Что такое дескриптор? Какие бывают дескрипторы для персон? Andrey Kruglov (обсуждение) 23:57, 16 ноября 2015 (MSK)

У меня сложилось впечатление, что дескрипторы -- это то же самое, что и "родовое понятие". Ну скажем, "Девочка Таня" - это дескриптор + Name. И есть дескрипторы, которые описывают должность -- и про них тут же сказано: "Должности и виды занятий выделяются спанами типа job". Как-то так я понял. Верно? Andrey Kruglov (обсуждение) 23:57, 16 ноября 2015 (MSK)
Да, родовое понятие. В случае "девочка Таня" мы дескриптор не выделяем. Должности и виды занятий нужно выделять спаном job, т.к. они потом понадобятся при сборке факта "Работа". --Bocharov (обсуждение) 23:04, 23 ноября 2015 (MSK)

Локации в "профессиональном" контексте

Не знаю, как даже сказать. Вот есть "организационный контекст" ("Локации в организационном контексте"), например "коммунистическая партия Кубы" - это организация + локация. А если профессия + локация -- это как называется и как размечать?

  • Там он встретился с заместителем министра иностранных дел Грузии, который специальным рейсом...
  • На встрече чрезвычайный и полномочный посол Италии в Грузии рассказал...
Считаем (чтобы упростить себе жизнь), что у локации как таковой не может быть связанных с нею должностей: нельзя быть руководителем поляны, но можно быть руководителем организации, расположившейся на поляне. У локации есть местоположение. А должности есть у организаций. Поэтому, если речь идёт о том, что кто-то является в Х министром или послом, то контекст, в котором употреблён этот Х - это организационный контекст. В случае, когда сам Х является локацией, получается "локация в организационном контексте". Упоминания таких объектов мы отмечаем как LocOrg. --Bocharov (обсуждение) 23:22, 23 ноября 2015 (MSK)
"на встрече чрезвычайный и полномочный посол Италии в Грузии рассказал ..." - "Италия" должна войти в упоминание типа LocOrg. Вопрос про то, какого типа должно быть упоминание для "Грузии" кажется мне не очевидным. С одной стороны речь идёт о государстве, а не о его территории (государство - это организация), с другой, в похожем примере "специальный представитель Президента Российской Федерации по международному сотрудничеству в Арктике и Антарктике" - тут "Арктика" и "Антарктика" являются, очевидно, локациями. Чтобы не думать об этом долго, предлагаю "Грузию" в данном случае тоже включать в LocOrg. --Bocharov (обсуждение) 23:22, 23 ноября 2015 (MSK)

В тексте инструкции не хватает простого примера на локации

Вот, подобрал из существующего текста предложение, предлагаю вставить в качестве затравки:

  • С космодрома Байконур планируется запуск...
Спаны: а) космодром - loc_descr б) Байконур - loc_name. Упоминания: а) Loc космодром+Байконур. Andrey Kruglov (обсуждение) 00:23, 17 ноября 2015 (MSK)
Да. Всё так. --Bocharov (обсуждение) 23:23, 23 ноября 2015 (MSK)

Порядок примеров: от простых к сложным (на примере Организаций)

Читаю раздел про организации, понимаю, что порядок изложения выбран сложный для усваивания: сначала какой-то непростой пример, в котором красиво описан спан "организация ICAAN" внутри спана "международная организация ICAAN" и я на нём голову сломал, зачем так, почему так, как сделать так... А потом вдруг примеры резко стали упрощаться. Вот в каком логическом порядке я хотел бы видеть примеры в инструкции:

  • Новый скандал вокруг дела Викиликс поднялся после...
  • Газета "Ведомости" пишет, что...
  • Международная организация ICAAN.

Простая инструкци (концепт)

Черкнул пару строк: Инструкция по разметке именованных сущностей (вариант Andrey Kruglov).

Здесь оставлено только описание интерейса (а его один раз прочитать и забыть, поэтому было бы здорово выкинуть его на отдельную страницу) + простые примеры на разметку каждого типа именованных сущностей. (Неявно предполагается, что сложные случаи будут на странице с подробной теорией - ту, что Виктор писал)

Можно на три части разбить: интерфейс + простые примеры + сложные примеры. И отдельно -- страница с теорией, где написано про конкурс, про какие-то уровни и т.п.

Вообще, я бы как раз хотел бы в инструкции размечающего оставить именно саму шпаргалку (список примеров с описанием, что и как размечать, сложность по нарастающей). Или рядом с теорией положить. В общем, как не крути -- NER - это весьма большая тема и я считаю, что нет смысла составлять из неё ОДИН ГРОМАДНЫЙ документ. Я предлагаю разбивать на отдельные логические модули.

Форматирование примеров

Красивый документ - это документ с красивым оформлением. Пора сказать пару слов о шаблонах.

Вот неформатированный пример, как сейчас в инструкции:

  • Александр Пушкин
    • "Александр" - name
    • "Пушкин" - surname
      • "Александр" + "Пушкин" - Person

Предлагаю двигаться в сторону чего-то наподобие (больше примеров и подробностей смотри в моих черновиках):

Пример


В 1817 Александр Пушкин оканчивает лицей, получает ...

Спаны:

  • "Александр" - name
  • "Пушкин" - surname

Упоминания:

  • "Александр" + "Пушкин" - Person

Что здесь было сделано:

  • Выделен шаблон как логическая структура документа и как шаблон движка mediawiki
  • Сделано визуальное оформление (его можно будет менять в шаблоне)
  • Скорректированы отступы. (В исходном примере двухуровневый список и персона относится только к элементу Пушкин. Правильная структура: два списка (спаны и упоминания), внутри каждого списка свои элементы)
  • Использован реальный кусок предложения, а не гипотетический NER в вакууме. Моё мнение - это намного более наглядно. Надо как и в обычных инструкциях искать в корпусе подходящие короткие фразы.

Порядок выделения в спане: справа налево?

Критично, если непрерывный спан выделяется не слево направо (Александр, потом Пушкин) - а справа налево (сначала кликнули на Пушкин, потом на Александр)? Нечасто, но бывает, что уже начал размечать абзац, а потом воспомнил, что нужно добавить другое слово. Ну или просто по незнанию не подумал, что это критично. Код корпоры корректно отработает такую ситуацию? Если ли требование на конкурсе, что спаны выделяются слева направо в тексте? Andrey Kruglov (обсуждение) 13:33, 24 ноября 2015 (MSK)