Обсуждение:Nermanual/2/Архив

Материал из OpenCorpora
Перейти к навигации Перейти к поиску

Это завершившиеся обсуждения статьи Nermanual/2.

Вопросы по интерфейсу разметки

Порядок выделения в спане: справа налево?

Критично, если непрерывный спан выделяется не слево направо (Александр, потом Пушкин) - а справа налево (сначала кликнули на Пушкин, потом на Александр)? Нечасто, но бывает, что уже начал размечать абзац, а потом воспомнил, что нужно добавить другое слово. Ну или просто по незнанию не подумал, что это критично. Код корпоры корректно отработает такую ситуацию? Если ли требование на конкурсе, что спаны выделяются слева направо в тексте? Andrey Kruglov (обсуждение) 13:33, 24 ноября 2015 (MSK)

Порядок токенов в спане не имеет значения. Они выстроятся в нужном при необходимости. --Bocharov (обсуждение) 18:45, 24 ноября 2015 (MSK)

Зачем нужна кнопка "Завершить всё"

Если и так всё сохраняется?

После этой кнопки может начать работать модератор. --Bocharov (обсуждение) 01:24, 27 ноября 2015 (MSK)

Можно ли размечать постепенно? Можно ли возвращаться к ранее размеченным примерам?

Допустим, начиная размечать сущности прочитал фрагмент инструкции про персоны, более-менее их понял -- и решил начать размечать только персоны, не обращая внимания на другие именованные сущности, даже если они попадутся в предложении. И поехали: открыл абзац, нашёл все персоны, видишь, что есть ещё другие именованные сущности, но закрыл абзац и пошёл дальше к следующему абзацу. Потом следующий, потом следующий... Внимание вопрос: можно ли будет потом пройтись по всем "своим предложениям" и размечать уже не персон, а организации? Andrey Kruglov (обсуждение) 20:46, 14 ноября 2015 (MSK)

В данный момент так не получится: нельзя вернуться к абзацу после его закрытия. Лучше медленно, но размечать все сущности. --Bocharov (обсуждение) 14:33, 15 ноября 2015 (MSK)

Ну и как это размечать? Стою туплю над самым простым предложением

Я уже писал, что это не инструкция размечающего, это краткий реферат по теории именованных сущностей. Инструкцию нужно писать отдельно от этого документа, инструкция должна быть простой и понятной как автомат Калашникова. Я вот сейчас сижу и смотрю на предложение, в котором ясно вижу именованную сущность и не могу понять, что нужно сделать с ней, потому что мне приходится перечитывать всю инструкцию целиком, снова вовращаться туда-сюда по тексту, пытаться собрать воедино смысл в непротиворечивую картину.

Итак, собственно вопрос. Есть предложение с именованной сущностью типа персона (допустим, я разобрался как войти в режим разметки и у меня появилось предложение для разметки с панелькой):

конкурс « Новая волна - 2009 » в этом году может пройти без Раймонда Паулса .

Ner simplest 01.png

Хочу разметить "Раймонда" и "Паулса" как именованую сущность и не понимаю, что с ней нужно делать.

В одном месте инструкции мне говорят, что СНАЧАЛА я должен выделить все отдельные слова сущности и пометить её типом Person. (Ага, щас: во всплывающей панельке нет Person, там есть отдельные составляющие - Name, Surname. И я могу выделить хоть одно слово, хоть N слов НЕПРЕРЫВНО -- всё равно Person нет).

В другом месте инструкции мне говорят, что сначала я должен накликать каждой отдельной части её тип ("Раймонда" - Name, "Паулса" - Surname), а потом предлагают "После этого нужно объединить их в одно упоминание объекта с типом Person". Блин, а КАК ОБЬЕДИНИТЬ?? Можно это место как-то расписать подробнее?!

Ner simplest 02.png

В этом месте я как размечающий зверею, потому что ИНСТРУКЦИЯ размечающего должна была описать мне этот простой пример, а потом уже какие-то более сложные случаи описывать. А так я сижу читаю инструкцию, пытаюсь тыкать в разные места интерфейса и методом тыка хоть что-нибудь понять.

Andrey Kruglov (обсуждение) 21:05, 14 ноября 2015 (MSK)

Судя по скриншотам вы поняли ответы на ваши вопросы, хотя и не слышали устного объяснения. Это хорошо. Но, впрочем, не отменяет того, что инструкцию нужно переделывать. По поводу конкретных замечаний: "СНАЧАЛА я должен выделить все отдельные слова сущности и пометить её типом Person." - где именно этот кусок в инструкции? -- Bocharov (обсуждение) 14:44, 15 ноября 2015 (MSK)
Где-то есть видео? Я вообще да, недавно звонил, хотел устно задать кучу вопросов, чтобы не вникать в эту длинную инструкцию. ;) Остаюсь при своём мнении: не нужно эту инструкцию менять, пусть останется такой подробной теорией, в которую можно заглянуть при случае. А инструкция полагаю нужно делать отдельно. Вот именно что сразу дать простое предложение с одной фамилией -- и показать подробно. Потом написать "Сложные случаи" и перечислить всё, что бывает сложного в персонах. (По факту: общая фамилия у двух персон и неконкретные люди "у многих Татьян"). А теорию по уровням разметки оставить в теории. Я может даже на днях, когда у меня сложится полная картинка и я пережую эту длинную инструкцию покажу, как я вижу инструкцию для размечающего -- сделаю свой вариант в своём пространстве статей. Andrey Kruglov (обсуждение) 23:35, 16 ноября 2015 (MSK)
Переписал предложение про создание упоминания объекта. На всякий случай: чтобы создать упоминание нужно щёлкать на уже выделенные спаны не в тексте, а в таблице. Т.е. спаны в этот момент уже созданы. --Bocharov (обсуждение) 14:44, 15 ноября 2015 (MSK)
Посмотрел, что и где поменялось. Да, так стало НАМНОГО понятнее. Сразу совет: нужно ввести термины, что и где в интерфейсе находится. Фраза "нужно в таблице спанов щёлкнуть" в принципе понятна, но если бы изначально была картинка, было бы визуально нагляднее. Andrey Kruglov (обсуждение) 23:35, 16 ноября 2015 (MSK)

Баги интерфейса

После сохранения текста можно менять типы спанов

То есть всё-таки частично можно поменять свой ответ, когда закончил редактировать абзац. Глюк или фича? ;)

Скорее глюк. Напиши, пожалуйста, issue на гитхаб, скажи там, что за бразузер и что именно происходит. --Bocharov (обсуждение) 01:24, 27 ноября 2015 (MSK)

Любой набор спанов перечисленных типов достаточен для создания упоминания

Во-первых, каких конкретно? Непонятно.

Для Персоны достаточно и отчества. --Bocharov (обсуждение) 01:24, 27 ноября 2015 (MSK)

Во-вторых, я пробую создать упоминание из никнейма (пример на zlyatt) -- и не хватает. Баг, фича?

  • Хм, после перезагрузки страницы само пропало и дало создать только из ника упоминание. Этот вопрос снят.
Только из никнейма можно. Там вообще нет проверки типов. Технически можно из никнейма создать орг. Но это не имеет смысла. --Bocharov (обсуждение) 01:24, 27 ноября 2015 (MSK)

Вопросы по разметке упоминаний типа Person

Профессии: Пользователь ЖЖ zlyatt сообщает...

Что считать профессией? Блоггер Петров - это профессия или неинтересное родовое понятие, которое мы не учитываем при разметке? Или вот Сергей Калугин -- по профессии музыкант, есть своя рок-группа - но если в тексте будет написано "Известный мистик Сергей Калугин" (а его причисляют к мистикам, да) то "мистик + Сергей Калугин" считается как род деятельности, профессия или не размечать?

пользователь ЖЖ, блоггер и прочие можно игнорировать. Из них факт "Работа" не соберёшь. Если ты их выделил - хуже не станет, т.к. в сущностях они не участвуют. Только в фактах как значения поля "должность". А вот если "оркестр нанял музыканта Сергея Калугина" - тут "музыкант" будет нужен, т.к. там будет факт "Работа" и должность "музыкант". --Bocharov (обсуждение) 01:24, 27 ноября 2015 (MSK)


Расценивать ли как упоминание персон следующие случаи

Я не буду ставить подпись под каждым примером -- но прошу при ответе подписываться, чтобы было видно кто отвечающий ;) А примеры можете доспрашивать свои, здесь список. Итак:

  • В своей поездке Владимир Путин посетил...
Владимир - Name, Путин - Surname. Вместе -- персона Andrey Kruglov (обсуждение) 23:46, 16 ноября 2015 (MSK)
  • После церемонии освящения митрополит Кирилл ответил на вопросы журналистов.
митрополит - job, Кирилл - Name. Вместе - персона. Andrey Kruglov (обсуждение) 23:46, 16 ноября 2015 (MSK)
А, нет. " Должности и виды занятий выделяются спанами типа job. Для спанов типа job не нужно создавать упоминаний. Кроме этого, не нужно включать спаны типа job в упоминания объектов типа Person". Тогда получается есть два спана в панели спанов: а) митрополит - job б) Кирилл - Name. А в панели упоминаний будет одно упоминание: Person = Кирилл. Andrey Kruglov (обсуждение) 00:04, 17 ноября 2015 (MSK)
Да. --Bocharov (обсуждение) 18:27, 23 ноября 2015 (MSK)
  • После церемонии освящения митрополит ответил на вопросы журналистов.
Спан: митрополит - job, упоминаний - нет. Andrey Kruglov (обсуждение) 00:04, 17 ноября 2015 (MSK)
Да. --Bocharov (обсуждение) 18:27, 23 ноября 2015 (MSK)
  • Известность диджея Грува стала расти после...
диджей - job, Грув - никнейм. Вместе - персона. Andrey Kruglov (обсуждение) 23:46, 16 ноября 2015 (MSK)
Спаны: диджей - job, Грув - никнейм. Упомининия: Person Грув. Andrey Kruglov (обсуждение) 00:05, 17 ноября 2015 (MSK)
Да. --Bocharov (обсуждение) 18:27, 23 ноября 2015 (MSK)
  • На совещании министр экономики Алексей Улюкаев высказал...
министр - job, экономики - job, Алексей - Name, Улюкаев - Surname. Вместе - Person. Andrey Kruglov (обсуждение) 23:46, 16 ноября 2015 (MSK)
Спаны: а) министр - job б) экономики job в) Алексей - Name г) Улюкаев - Surname Упоминания: Person Алексей+Улюкаев. Andrey Kruglov (обсуждение) 00:07, 17 ноября 2015 (MSK)
Спаны: а) министр экономики - job б) Алексей - Name в) Улюкаев - Surname Упоминания: Person Алексей+Улюкаев. --Bocharov (обсуждение) 18:27, 23 ноября 2015 (MSK)
  • На совещании министр иностранных дел России Сергей Лавров высказал...
министр - job, иностранных - job, дел - job, России - job, Сергей - Name, Лавров - Surname. Вместе - Person. Andrey Kruglov (обсуждение) 23:46, 16 ноября 2015 (MSK)
Спаны: а) министр - job б) иностранных - job в) дел - job г) России - loc_name д) Сергей - Name е) Лавров - Surname. Упоминания: Person Сергей+Лавров Andrey Kruglov (обсуждение) 00:13, 17 ноября 2015 (MSK)
Спаны: а) министр иностранных дел - job б) России - loc_name в) Сергей - Name г) Лавров - Surname. Упоминания: Person Сергей+Лавров, России - loc_org

Для персон не нужно отмечать дескриптор.

В тексте встретилось: "Для персон не нужно отмечать дескриптор." Что такое дескриптор? Какие бывают дескрипторы для персон? Andrey Kruglov (обсуждение) 23:57, 16 ноября 2015 (MSK)

У меня сложилось впечатление, что дескрипторы -- это то же самое, что и "родовое понятие". Ну скажем, "Девочка Таня" - это дескриптор + Name. И есть дескрипторы, которые описывают должность -- и про них тут же сказано: "Должности и виды занятий выделяются спанами типа job". Как-то так я понял. Верно? Andrey Kruglov (обсуждение) 23:57, 16 ноября 2015 (MSK)
Да, родовое понятие. В случае "девочка Таня" мы дескриптор не выделяем. Должности и виды занятий нужно выделять спаном job, т.к. они потом понадобятся при сборке факта "Работа". --Bocharov (обсуждение) 23:04, 23 ноября 2015 (MSK)

Союзы в должности: Чрезвычайный и полномочный посол

На всякий случай уточню глупый вопрос: "чрезвычайный и полномочный посол" - все 4 слова важны, никакое выбрасывать не надо? Andrey Kruglov (обсуждение) 00:59, 26 ноября 2015 (MSK)

Я исхожу из того, что это название дипломатического ранга, и его подстроки сами по себе названиями рангов не являются. Поэтому целиком его точно нужно выделить. Рядом нужно выделить отдельно ещё и "посол". Будет два накладывающихся спана. --Bocharov (обсуждение) 01:24, 27 ноября 2015 (MSK)

Вопросы по разметке упоминаний типа Location

Локации в "профессиональном" контексте

Не знаю, как даже сказать. Вот есть "организационный контекст" ("Локации в организационном контексте"), например "коммунистическая партия Кубы" - это организация + локация. А если профессия + локация -- это как называется и как размечать?

  • Там он встретился с заместителем министра иностранных дел Грузии, который специальным рейсом...
  • На встрече чрезвычайный и полномочный посол Италии в Грузии рассказал...
Считаем (чтобы упростить себе жизнь), что у локации как таковой не может быть связанных с нею должностей: нельзя быть руководителем поляны, но можно быть руководителем организации, расположившейся на поляне. У локации есть местоположение. А должности есть у организаций. Поэтому, если речь идёт о том, что кто-то является в Х министром или послом, то контекст, в котором употреблён этот Х - это организационный контекст. В случае, когда сам Х является локацией, получается "локация в организационном контексте". Упоминания таких объектов мы отмечаем как LocOrg. --Bocharov (обсуждение) 23:22, 23 ноября 2015 (MSK)
"на встрече чрезвычайный и полномочный посол Италии в Грузии рассказал ..." - "Италия" должна войти в упоминание типа LocOrg. Вопрос про то, какого типа должно быть упоминание для "Грузии" кажется мне не очевидным. С одной стороны речь идёт о государстве, а не о его территории (государство - это организация), с другой, в похожем примере "специальный представитель Президента Российской Федерации по международному сотрудничеству в Арктике и Антарктике" - тут "Арктика" и "Антарктика" являются, очевидно, локациями. Чтобы не думать об этом долго, предлагаю "Грузию" в данном случае тоже включать в LocOrg. --Bocharov (обсуждение) 23:22, 23 ноября 2015 (MSK)

В тексте инструкции не хватает простого примера на локации

Вот, подобрал из существующего текста предложение, предлагаю вставить в качестве затравки:

  • С космодрома Байконур планируется запуск...
Спаны: а) космодром - loc_descr б) Байконур - loc_name. Упоминания: а) Loc космодром+Байконур. Andrey Kruglov (обсуждение) 00:23, 17 ноября 2015 (MSK)
Да. Всё так. --Bocharov (обсуждение) 23:23, 23 ноября 2015 (MSK)

Вопросы по разметке упоминаний типа Organization

Полное и сокращённое наименование организации

Если я правильно понял такой пример:

Пример


... которая предоставлена Международным телекоммуникационным союзом ( International Telecommunications Union ( ITU ) ) для ...
Спаны:
  • Международным телекоммуникационным союзом — org_name
  • International Telecommunications Union — org_name
  • ITU — org_name
Упоминания:
  • Международным телекоммуникационным союзом — Org
  • International Telecommunications Union — Org
  • ITU — Org
  • то случай когда после полного наименования организации в скобках упоминается сокращённое, аббревиатура -- то нужно скобки прерывают спан, верно?

    Ну то есть, можно либо сделать непрерывный спан из ПолногоИмени+СокращённогоИмени, либо засчитать два упоминания (одной и той же организации, но это пока не учитываем) - полное упоминание (из одного спана в три слова) и сокращённое наименование (из одного односложного спана).

    Название латиницей и аббревиатура в сбоках - это отдельные упоминания. Не нужно делать непрерывного спана, перекрывающего скобки. Картинка верна (но текст под ней я не смог однозначно понять, поэтому говорю только про картинку). --Bocharov (обсуждение) 01:24, 27 ноября 2015 (MSK)


    Вопросы по разметке упоминаний типа LocOrg

    Вопросы, замечания, предложения по переработке/исправлению самой инструкции

    Какие виды спанов возможны

    После разделения документа появилась вот какая проблема. Мы смотрим на документ уже испахав тему вдоль и поперёк. Но если смотрит неподготовленный человек, то он не найдёт некоторых вещей, если не посмотрит в другие (необязательные) документы. Например, в моём варианте инструкции (старый черновичок) был такой пассаж:

    Необходимо в каждом абзаце выделить следующие именованные сущности:

    • Персоны (Владимир Ленин, министр финансов Алексей Улюкаев и т.п.)
    • Организации (Викиликс, газета Ведомости, международный фонд ICAAN)
    • Локации (Италия, Москва и т.п.)
    • Локация в организационном контексте (президент Америки)

    А в текущей версии документа по конкурсу есть подобный (см. предложение "Возможны следующие типы спанов") фрагмент. Оба по-своему хороши: один краткий (это хорошо в сжатых инструкциях), другой перечисляет все подтипы спанов; в одном есть примеры, чтобы было на пальцах понятно.

    Самое идеальное место для вставки - около "Как выделить сущность?" и "Вначале выделите спаны". Подробности о том, какие бывают спаны у каждой именованной сущности можно один раз перечислить или наоборот - распихать по разделам.

    Раздел "Потом объедините спаны в упоминания объектов" перегружен

    В нём слишком много примеров, достаточно оставить один - самый первый, потому что он самый простой.

    Когда в этот момент человек читает инструкцию в первый раз не надо забивать ему башку лишней инфой.

    Я писал, что нужно добавить, какие спаны бывают (см. предыдущую тему), потом кратко показать один самый простой пример на объединение спана в упоминание - и следом опять идёт "интерфейсный" раздел "как удалить именованную сущность.

    И вот только потом начинается основная часть шпаргалки: крупные 4 раздела Персоны - Локации - Организации - ЛокОрги.

    И вот там нужно пример за примером давать, описывать сложные случаи.

    А в этом разделе "объедините спаны в упоминания" достаточно одного примера.


    Страница обсуждения разрастается... Надо бы часть в архив убрать

    Совершенно очевидно, что потихоньку можно создать несколько архивов: под разные вопросы неактуальные (если что-то предложил в статью поправить, типа как я заметил опечатку что loc_name куда-то съелось _name -- это ж сразу после багфикса станет не нужно держать в статье. В архив, в архив этот вопрос).

    С другой стороны и разные вопросы можно распихать по архивам "Персоны", "Организации" и т.п.

    Неделю вопрос провисел - и в архив его ;) 01:34, 26 ноября 2015 (MSK)

    Поддерживаю. --Bocharov (обсуждение) 01:24, 27 ноября 2015 (MSK)


    Порядок примеров: от простых к сложным (на примере Организаций)

    Читаю раздел про организации, понимаю, что порядок изложения выбран сложный для усваивания: сначала какой-то непростой пример, в котором красиво описан спан "организация ICAAN" внутри спана "международная организация ICAAN" и я на нём голову сломал, зачем так, почему так, как сделать так... А потом вдруг примеры резко стали упрощаться. Вот в каком логическом порядке я хотел бы видеть примеры в инструкции:

    • Новый скандал вокруг дела Викиликс поднялся после...
    • Газета "Ведомости" пишет, что...
    • Международная организация ICAAN.

    Простая инструкци (концепт)

    Черкнул пару строк: Инструкция по разметке именованных сущностей (вариант Andrey Kruglov).

    Здесь оставлено только описание интерейса (а его один раз прочитать и забыть, поэтому было бы здорово выкинуть его на отдельную страницу) + простые примеры на разметку каждого типа именованных сущностей. (Неявно предполагается, что сложные случаи будут на странице с подробной теорией - ту, что Виктор писал)

    Можно на три части разбить: интерфейс + простые примеры + сложные примеры. И отдельно -- страница с теорией, где написано про конкурс, про какие-то уровни и т.п.

    Вообще, я бы как раз хотел бы в инструкции размечающего оставить именно саму шпаргалку (список примеров с описанием, что и как размечать, сложность по нарастающей). Или рядом с теорией положить. В общем, как не крути -- NER - это весьма большая тема и я считаю, что нет смысла составлять из неё ОДИН ГРОМАДНЫЙ документ. Я предлагаю разбивать на отдельные логические модули.

    Форматирование примеров

    Красивый документ - это документ с красивым оформлением. Пора сказать пару слов о шаблонах.

    Вот неформатированный пример, как сейчас в инструкции:

    • Александр Пушкин
      • "Александр" - name
      • "Пушкин" - surname
        • "Александр" + "Пушкин" - Person

    Предлагаю двигаться в сторону чего-то наподобие (больше примеров и подробностей смотри в моих черновиках):

    Пример


    В 1817 Александр Пушкин оканчивает лицей, получает ...

    Спаны:

    • "Александр" - name
    • "Пушкин" - surname

    Упоминания:

    • "Александр" + "Пушкин" - Person

    Что здесь было сделано:

    • Выделен шаблон как логическая структура документа и как шаблон движка mediawiki
    • Сделано визуальное оформление (его можно будет менять в шаблоне)
    • Скорректированы отступы. (В исходном примере двухуровневый список и персона относится только к элементу Пушкин. Правильная структура: два списка (спаны и упоминания), внутри каждого списка свои элементы)
    • Использован реальный кусок предложения, а не гипотетический NER в вакууме. Моё мнение - это намного более наглядно. Надо как и в обычных инструкциях искать в корпусе подходящие короткие фразы.


    Опечатка: Спаны: loc( Лос-Анджелеса ) - видимо loc_name?

    По мелочи. Тут Loc - а такое есть только как упоминание, а тут видимо loc_name раз это спан.

    да, loc_name --Bocharov (обсуждение) 01:24, 27 ноября 2015 (MSK)