Обсуждение:Nermanual/2

Материал из OpenCorpora
Перейти к навигации Перейти к поиску

Сюда нужно писать комментарии и вопросы.

Для того, чтобы создать новый вопрос, нажмите кнопку "Добавить тему" вверху страницы. Если вы не видите этой кнопки, то вам нужно залогиниться на этой вики. Логины и пароли не синхронизированы с opencorpora.org. Чтобы писать на вики нужен отдельный логин.

Внимание! Если вы начали размечать абзац и не понимаете, как его разметить
...то не нажимайте пока на кнопку "Закончить разметку абзаца".
Вместо этого задайте вопрос на этой странице (обязательно скопируйте предложение) и дождитесь ответа. Торопиться не нужно.


Можно ли размечать постепенно? Можно ли возвращаться к ранее размеченным примерам?

Допустим, начиная размечать сущности прочитал фрагмент инструкции про персоны, более-менее их понял -- и решил начать размечать только персоны, не обращая внимания на другие именованные сущности, даже если они попадутся в предложении. И поехали: открыл абзац, нашёл все персоны, видишь, что есть ещё другие именованные сущности, но закрыл абзац и пошёл дальше к следующему абзацу. Потом следующий, потом следующий... Внимание вопрос: можно ли будет потом пройтись по всем "своим предложениям" и размечать уже не персон, а организации? Andrey Kruglov (обсуждение) 20:46, 14 ноября 2015 (MSK)

В данный момент так не получится: нельзя вернуться к абзацу после его закрытия. Лучше медленно, но размечать все сущности. --Bocharov (обсуждение) 14:33, 15 ноября 2015 (MSK)

Ну и как это размечать? Стою туплю над самым простым предложением

Я уже писал, что это не инструкция размечающего, это краткий реферат по теории именованных сущностей. Инструкцию нужно писать отдельно от этого документа, инструкция должна быть простой и понятной как автомат Калашникова. Я вот сейчас сижу и смотрю на предложение, в котором ясно вижу именованную сущность и не могу понять, что нужно сделать с ней, потому что мне приходится перечитывать всю инструкцию целиком, снова вовращаться туда-сюда по тексту, пытаться собрать воедино смысл в непротиворечивую картину.

Итак, собственно вопрос. Есть предложение с именованной сущностью типа персона (допустим, я разобрался как войти в режим разметки и у меня появилось предложение для разметки с панелькой):

конкурс « Новая волна - 2009 » в этом году может пройти без Раймонда Паулса .

Ner simplest 01.png

Хочу разметить "Раймонда" и "Паулса" как именованую сущность и не понимаю, что с ней нужно делать.

В одном месте инструкции мне говорят, что СНАЧАЛА я должен выделить все отдельные слова сущности и пометить её типом Person. (Ага, щас: во всплывающей панельке нет Person, там есть отдельные составляющие - Name, Surname. И я могу выделить хоть одно слово, хоть N слов НЕПРЕРЫВНО -- всё равно Person нет).

В другом месте инструкции мне говорят, что сначала я должен накликать каждой отдельной части её тип ("Раймонда" - Name, "Паулса" - Surname), а потом предлагают "После этого нужно объединить их в одно упоминание объекта с типом Person". Блин, а КАК ОБЬЕДИНИТЬ?? Можно это место как-то расписать подробнее?!

Ner simplest 02.png

В этом месте я как размечающий зверею, потому что ИНСТРУКЦИЯ размечающего должна была описать мне этот простой пример, а потом уже какие-то более сложные случаи описывать. А так я сижу читаю инструкцию, пытаюсь тыкать в разные места интерфейса и методом тыка хоть что-нибудь понять.

Andrey Kruglov (обсуждение) 21:05, 14 ноября 2015 (MSK)

Судя по скриншотам вы поняли ответы на ваши вопросы, хотя и не слышали устного объяснения. Это хорошо. Но, впрочем, не отменяет того, что инструкцию нужно переделывать. По поводу конкретных замечаний: "СНАЧАЛА я должен выделить все отдельные слова сущности и пометить её типом Person." - где именно этот кусок в инструкции? -- Bocharov (обсуждение) 14:44, 15 ноября 2015 (MSK)
Где-то есть видео? Я вообще да, недавно звонил, хотел устно задать кучу вопросов, чтобы не вникать в эту длинную инструкцию. ;) Остаюсь при своём мнении: не нужно эту инструкцию менять, пусть останется такой подробной теорией, в которую можно заглянуть при случае. А инструкция полагаю нужно делать отдельно. Вот именно что сразу дать простое предложение с одной фамилией -- и показать подробно. Потом написать "Сложные случаи" и перечислить всё, что бывает сложного в персонах. (По факту: общая фамилия у двух персон и неконкретные люди "у многих Татьян"). А теорию по уровням разметки оставить в теории. Я может даже на днях, когда у меня сложится полная картинка и я пережую эту длинную инструкцию покажу, как я вижу инструкцию для размечающего -- сделаю свой вариант в своём пространстве статей. Andrey Kruglov (обсуждение) 23:35, 16 ноября 2015 (MSK)
Переписал предложение про создание упоминания объекта. На всякий случай: чтобы создать упоминание нужно щёлкать на уже выделенные спаны не в тексте, а в таблице. Т.е. спаны в этот момент уже созданы. --Bocharov (обсуждение) 14:44, 15 ноября 2015 (MSK)
Посмотрел, что и где поменялось. Да, так стало НАМНОГО понятнее. Сразу совет: нужно ввести термины, что и где в интерфейсе находится. Фраза "нужно в таблице спанов щёлкнуть" в принципе понятна, но если бы изначально была картинка, было бы визуально нагляднее. Andrey Kruglov (обсуждение) 23:35, 16 ноября 2015 (MSK)

Расценивать ли как упоминание персон следующие случаи

Я не буду ставить подпись под каждым примером -- но прошу при ответе подписываться, чтобы было видно кто отвечающий ;) А примеры можете доспрашивать свои, здесь список. Итак:

  • В своей поездке Владимир Путин посетил...
Владимир - Name, Путин - Surname. Вместе -- персона Andrey Kruglov (обсуждение) 23:46, 16 ноября 2015 (MSK)
  • После церемонии освящения митрополит Кирилл ответил на вопросы журналистов.
митрополит - job, Кирилл - Name. Вместе - персона. Andrey Kruglov (обсуждение) 23:46, 16 ноября 2015 (MSK)
А, нет. " Должности и виды занятий выделяются спанами типа job. Для спанов типа job не нужно создавать упоминаний. Кроме этого, не нужно включать спаны типа job в упоминания объектов типа Person". Тогда получается есть два спана в панели спанов: а) митрополит - job б) Кирилл - Name. А в панели упоминаний будет одно упоминание: Person = Кирилл. Andrey Kruglov (обсуждение) 00:04, 17 ноября 2015 (MSK)
Да. --Bocharov (обсуждение) 18:27, 23 ноября 2015 (MSK)
  • После церемонии освящения митрополит ответил на вопросы журналистов.
Спан: митрополит - job, упоминаний - нет. Andrey Kruglov (обсуждение) 00:04, 17 ноября 2015 (MSK)
Да. --Bocharov (обсуждение) 18:27, 23 ноября 2015 (MSK)
  • Известность диджея Грува стала расти после...
диджей - job, Грув - никнейм. Вместе - персона. Andrey Kruglov (обсуждение) 23:46, 16 ноября 2015 (MSK)
Спаны: диджей - job, Грув - никнейм. Упомининия: Person Грув. Andrey Kruglov (обсуждение) 00:05, 17 ноября 2015 (MSK)
Да. --Bocharov (обсуждение) 18:27, 23 ноября 2015 (MSK)
  • На совещании министр экономики Алексей Улюкаев высказал...
министр - job, экономики - job, Алексей - Name, Улюкаев - Surname. Вместе - Person. Andrey Kruglov (обсуждение) 23:46, 16 ноября 2015 (MSK)
Спаны: а) министр - job б) экономики job в) Алексей - Name г) Улюкаев - Surname Упоминания: Person Алексей+Улюкаев. Andrey Kruglov (обсуждение) 00:07, 17 ноября 2015 (MSK)
Спаны: а) министр экономики - job б) Алексей - Name в) Улюкаев - Surname Упоминания: Person Алексей+Улюкаев. --Bocharov (обсуждение) 18:27, 23 ноября 2015 (MSK)
  • На совещании министр иностранных дел России Сергей Лавров высказал...
министр - job, иностранных - job, дел - job, России - job, Сергей - Name, Лавров - Surname. Вместе - Person. Andrey Kruglov (обсуждение) 23:46, 16 ноября 2015 (MSK)
Спаны: а) министр - job б) иностранных - job в) дел - job г) России - loc_name д) Сергей - Name е) Лавров - Surname. Упоминания: Person Сергей+Лавров Andrey Kruglov (обсуждение) 00:13, 17 ноября 2015 (MSK)
Спаны: а) министр иностранных дел - job б) России - loc_name в) Сергей - Name г) Лавров - Surname. Упоминания: Person Сергей+Лавров, России - loc_org

Для персон не нужно отмечать дескриптор.

В тексте встретилось: "Для персон не нужно отмечать дескриптор." Что такое дескриптор? Какие бывают дескрипторы для персон? Andrey Kruglov (обсуждение) 23:57, 16 ноября 2015 (MSK)

У меня сложилось впечатление, что дескрипторы -- это то же самое, что и "родовое понятие". Ну скажем, "Девочка Таня" - это дескриптор + Name. И есть дескрипторы, которые описывают должность -- и про них тут же сказано: "Должности и виды занятий выделяются спанами типа job". Как-то так я понял. Верно? Andrey Kruglov (обсуждение) 23:57, 16 ноября 2015 (MSK)
Да, родовое понятие. В случае "девочка Таня" мы дескриптор не выделяем. Должности и виды занятий нужно выделять спаном job, т.к. они потом понадобятся при сборке факта "Работа". --Bocharov (обсуждение) 23:04, 23 ноября 2015 (MSK)

Локации в "профессиональном" контексте

Не знаю, как даже сказать. Вот есть "организационный контекст" ("Локации в организационном контексте"), например "коммунистическая партия Кубы" - это организация + локация. А если профессия + локация -- это как называется и как размечать?

  • Там он встретился с заместителем министра иностранных дел Грузии, который специальным рейсом...
  • На встрече чрезвычайный и полномочный посол Италии в Грузии рассказал...
Считаем (чтобы упростить себе жизнь), что у локации как таковой не может быть связанных с нею должностей: нельзя быть руководителем поляны, но можно быть руководителем организации, расположившейся на поляне. У локации есть местоположение. А должности есть у организаций. Поэтому, если речь идёт о том, что кто-то является в Х министром или послом, то контекст, в котором употреблён этот Х - это организационный контекст. В случае, когда сам Х является локацией, получается "локация в организационном контексте". Упоминания таких объектов мы отмечаем как LocOrg. --Bocharov (обсуждение) 23:22, 23 ноября 2015 (MSK)
"на встрече чрезвычайный и полномочный посол Италии в Грузии рассказал ..." - "Италия" должна войти в упоминание типа LocOrg. Вопрос про то, какого типа должно быть упоминание для "Грузии" кажется мне не очевидным. С одной стороны речь идёт о государстве, а не о его территории (государство - это организация), с другой, в похожем примере "специальный представитель Президента Российской Федерации по международному сотрудничеству в Арктике и Антарктике" - тут "Арктика" и "Антарктика" являются, очевидно, локациями. Чтобы не думать об этом долго, предлагаю "Грузию" в данном случае тоже включать в LocOrg. --Bocharov (обсуждение) 23:22, 23 ноября 2015 (MSK)

В тексте инструкции не хватает простого примера на локации

Вот, подобрал из существующего текста предложение, предлагаю вставить в качестве затравки:

  • С космодрома Байконур планируется запуск...
Спаны: а) космодром - loc_descr б) Байконур - loc_name. Упоминания: а) Loc космодром+Байконур. Andrey Kruglov (обсуждение) 00:23, 17 ноября 2015 (MSK)
Да. Всё так. --Bocharov (обсуждение) 23:23, 23 ноября 2015 (MSK)

Порядок примеров: от простых к сложным (на примере Организаций)

Читаю раздел про организации, понимаю, что порядок изложения выбран сложный для усваивания: сначала какой-то непростой пример, в котором красиво описан спан "организация ICAAN" внутри спана "международная организация ICAAN" и я на нём голову сломал, зачем так, почему так, как сделать так... А потом вдруг примеры резко стали упрощаться. Вот в каком логическом порядке я хотел бы видеть примеры в инструкции:

  • Новый скандал вокруг дела Викиликс поднялся после...
  • Газета "Ведомости" пишет, что...
  • Международная организация ICAAN.

Простая инструкци (концепт)

Черкнул пару строк: Инструкция по разметке именованных сущностей (вариант Andrey Kruglov).

Здесь оставлено только описание интерейса (а его один раз прочитать и забыть, поэтому было бы здорово выкинуть его на отдельную страницу) + простые примеры на разметку каждого типа именованных сущностей. (Неявно предполагается, что сложные случаи будут на странице с подробной теорией - ту, что Виктор писал)

Можно на три части разбить: интерфейс + простые примеры + сложные примеры. И отдельно -- страница с теорией, где написано про конкурс, про какие-то уровни и т.п.

Вообще, я бы как раз хотел бы в инструкции размечающего оставить именно саму шпаргалку (список примеров с описанием, что и как размечать, сложность по нарастающей). Или рядом с теорией положить. В общем, как не крути -- NER - это весьма большая тема и я считаю, что нет смысла составлять из неё ОДИН ГРОМАДНЫЙ документ. Я предлагаю разбивать на отдельные логические модули.

Форматирование примеров

Красивый документ - это документ с красивым оформлением. Пора сказать пару слов о шаблонах.

Вот неформатированный пример, как сейчас в инструкции:

  • Александр Пушкин
    • "Александр" - name
    • "Пушкин" - surname
      • "Александр" + "Пушкин" - Person

Предлагаю двигаться в сторону чего-то наподобие (больше примеров и подробностей смотри в моих черновиках):

Пример


В 1817 Александр Пушкин оканчивает лицей, получает ...

Спаны:

  • "Александр" - name
  • "Пушкин" - surname

Упоминания:

  • "Александр" + "Пушкин" - Person

Что здесь было сделано:

  • Выделен шаблон как логическая структура документа и как шаблон движка mediawiki
  • Сделано визуальное оформление (его можно будет менять в шаблоне)
  • Скорректированы отступы. (В исходном примере двухуровневый список и персона относится только к элементу Пушкин. Правильная структура: два списка (спаны и упоминания), внутри каждого списка свои элементы)
  • Использован реальный кусок предложения, а не гипотетический NER в вакууме. Моё мнение - это намного более наглядно. Надо как и в обычных инструкциях искать в корпусе подходящие короткие фразы.

Порядок выделения в спане: справа налево?

Критично, если непрерывный спан выделяется не слево направо (Александр, потом Пушкин) - а справа налево (сначала кликнули на Пушкин, потом на Александр)? Нечасто, но бывает, что уже начал размечать абзац, а потом воспомнил, что нужно добавить другое слово. Ну или просто по незнанию не подумал, что это критично. Код корпоры корректно отработает такую ситуацию? Если ли требование на конкурсе, что спаны выделяются слева направо в тексте? Andrey Kruglov (обсуждение) 13:33, 24 ноября 2015 (MSK)

Порядок токенов в спане не имеет значения. Они выстроятся в нужном при необходимости. --Bocharov (обсуждение) 18:45, 24 ноября 2015 (MSK)

job + организация без имени + name + surname

в семье владельца сахарной плантации Анхеля Кастро-и-Аргиса

Владелец кафе Йохен Шарф не только принял под своё крыло необычных посетителей ...

Вариант разметки:

Пример


в семье владельца сахарной плантации Анхеля Кастро-и-Аргиса ...
Спаны:
  • владелец — job
  • сахарной плантации — org_descr
  • Анхеля — name
  • Кастро-и-Аргиса — surname
Упоминания:
  • Анхеля + Кастро-и-Аргиса — Person
  • сахарной плантации — Org
  • название компании внутри должности

    Пример


    со ссылкой на исполнительного директора компании Google по развивающимся рынкам ( Европа , Ближний Восток и Африка ) Мохамада Гавдата ...
    Спаны:
    • исполнительного директора — job
    • исполнительного директора компании Google по развивающимся рынкам — job
    • компании — org_descr
    • Google — org_name
    • Европа — loc_name
    • Ближний Восток — loc_name
    • Африка — loc_name
    • Мохамада — name
    • Гавдата — surname
    Упоминания:
  • Мохамада + Гавдата — Person
  • компании + Google — Org
  • Европа — Location
  • Ближний Восток — Location
  • Африка — Location
  • имеет ли смысл выделять дескриптор "представительство" без уточняющего слова, когда оно есть в тексте?

    Пример


    украинское представительство Google ...
    Спаны:
    • украинское представительство — org_descr
    • Google — org_name
    Упоминания:
  • украинское представительство + Google — Org
  • Google — Org
  • Кажется, что добавлять спан org_descr( представительство ) не нужно, т.к. он малоинформативен.

    Какие виды спанов возможны

    После разделения документа появилась вот какая проблема. Мы смотрим на документ уже испахав тему вдоль и поперёк. Но если смотрит неподготовленный человек, то он не найдёт некоторых вещей, если не посмотрит в другие (необязательные) документы. Например, в моём варианте инструкции (старый черновичок) был такой пассаж:

    Необходимо в каждом абзаце выделить следующие именованные сущности:

    • Персоны (Владимир Ленин, министр финансов Алексей Улюкаев и т.п.)
    • Организации (Викиликс, газета Ведомости, международный фонд ICAAN)
    • Локации (Италия, Москва и т.п.)
    • Локация в организационном контексте (президент Америки)

    А в текущей версии документа по конкурсу есть подобный (см. предложение "Возможны следующие типы спанов") фрагмент. Оба по-своему хороши: один краткий (это хорошо в сжатых инструкциях), другой перечисляет все подтипы спанов; в одном есть примеры, чтобы было на пальцах понятно.

    Самое идеальное место для вставки - около "Как выделить сущность?" и "Вначале выделите спаны". Подробности о том, какие бывают спаны у каждой именованной сущности можно один раз перечислить или наоборот - распихать по разделам.

    Раздел "Потом объедините спаны в упоминания объектов" перегружен

    В нём слишком много примеров, достаточно оставить один - самый первый, потому что он самый простой.

    Когда в этот момент человек читает инструкцию в первый раз не надо забивать ему башку лишней инфой.

    Я писал, что нужно добавить, какие спаны бывают (см. предыдущую тему), потом кратко показать один самый простой пример на объединение спана в упоминание - и следом опять идёт "интерфейсный" раздел "как удалить именованную сущность.

    И вот только потом начинается основная часть шпаргалки: крупные 4 раздела Персоны - Локации - Организации - ЛокОрги.

    И вот там нужно пример за примером давать, описывать сложные случаи.

    А в этом разделе "объедините спаны в упоминания" достаточно одного примера.

    Полное и сокращённое наименование организации

    Если я правильно понял такой пример:

    Пример


    ... которая предоставлена Международным телекоммуникационным союзом ( International Telecommunications Union ( ITU ) ) для ...
    Спаны:
    • Международным телекоммуникационным союзом — org_name
    • International Telecommunications Union — org_name
    • ITU — org_name
    Упоминания:
  • Международным телекоммуникационным союзом — Org
  • International Telecommunications Union — Org
  • ITU — Org
  • то случай когда после полного наименования организации в скобках упоминается сокращённое, аббревиатура -- то нужно скобки прерывают спан, верно?

    Ну то есть, можно либо сделать непрерывный спан из ПолногоИмени+СокращённогоИмени, либо засчитать два упоминания (одной и той же организации, но это пока не учитываем) - полное упоминание (из одного спана в три слова) и сокращённое наименование (из одного односложного спана).

    Руководитель Роскосмоса

    В тексте не хватает примера на должность + организация: сначала слишком долго мусолятся простые примеры, потом резко очень сложные долго идут, а среднего уровня примеров очень не хватает.

    Я вот такой подобрал:

    Пример


    По словам руководителя Роскосмоса Анатолия Николаевича Перминова , уже идёт подготовка к ...
    Спаны:
    • руководителя — job
    • Роскосмоса — org_name
    • Анатолия — name
    • Николаевича — patronymic
    • Перминова — surname
    Упоминания:
  • Роскосмоса — LocOrg
  • Анатолия + Николаевича + Перминова — Person
  • (можно убрать ФИО для простоты, но я полагаю, что как раз это некритично, пусть потихоньку привыкает держать всё более реальные примеры (т.к. некоторые примеры, которые Виктор привёл в обсуждениях сложно понять с непривычки)

    Когда Россия - это Loc, а когда - LocOrg

    Интуитивно думаю, что в первом примере Loc, а во втором - LocOrg. Но хочу более ясные критерии, помимо "революционного чутья".

    • Спутник AMOS-5 изготовлен в России, его вес — 600
    • По словам руководителя Роскосмоса Анатолия Николаевича Перминова , Россия готовит соглашения

    Сначала я понял, что LocOrg - это когда должность+страна (президент РФ, посол Италии); потом понял, что LocOrg - это когда "организации, управляющей указанной территорией" (первый случай: Россия - это чисто страна, во втором случае это и страна и организация, которая управляет территорией Россия); потом я запутался.

    Зачем нужна кнопка "Завершить всё"

    Если и так всё сохраняется?