Обсуждение:Nermanual/2/Архив: различия между версиями

Материал из OpenCorpora
Перейти к навигации Перейти к поиску
мНет описания правки
мНет описания правки
Строка 179: Строка 179:


: Поддерживаю. --[[Участник:Bocharov|Bocharov]] ([[Обсуждение участника:Bocharov|обсуждение]]) 01:24, 27 ноября 2015 (MSK)
: Поддерживаю. --[[Участник:Bocharov|Bocharov]] ([[Обсуждение участника:Bocharov|обсуждение]]) 01:24, 27 ноября 2015 (MSK)
== Порядок примеров: от простых к сложным (на примере Организаций) ==
Читаю раздел про организации, понимаю, что порядок изложения выбран сложный для усваивания: сначала какой-то непростой пример, в котором красиво описан спан "организация ICAAN" внутри спана "международная организация ICAAN" и я на нём голову сломал, зачем так, почему так, как сделать так... А потом вдруг примеры резко стали упрощаться. Вот в каком логическом порядке я хотел бы видеть примеры в инструкции:
* Новый скандал вокруг дела Викиликс поднялся после...
* Газета "Ведомости" пишет, что...
* Международная организация ICAAN.
== Простая инструкци (концепт) ==
Черкнул пару строк: [[User:Andrey_Kruglov/Инструкция по разметке NER|Инструкция по разметке  именованных сущностей (вариант Andrey Kruglov)]].
Здесь оставлено только описание интерейса (а его один раз прочитать и забыть, поэтому было бы здорово выкинуть его на отдельную страницу) + простые примеры на разметку каждого типа именованных сущностей. (Неявно предполагается, что сложные случаи будут на странице с подробной теорией - ту, что Виктор писал)
Можно на три части разбить: интерфейс + простые примеры + сложные примеры. И отдельно -- страница с теорией, где написано про конкурс, про какие-то уровни и т.п.
Вообще, я бы как раз хотел бы в инструкции размечающего оставить именно саму шпаргалку (список примеров с описанием, что и как размечать, сложность по нарастающей). Или рядом с теорией положить. В общем, как не крути -- NER - это весьма большая тема и я считаю, что нет смысла составлять из неё ОДИН ГРОМАДНЫЙ документ. Я предлагаю разбивать на отдельные логические модули.
== Форматирование примеров ==
Красивый документ - это документ с красивым оформлением. Пора сказать пару слов о шаблонах.
Вот неформатированный пример, как сейчас в инструкции:
* Александр Пушкин
** "Александр" - name
** "Пушкин" - surname
*** "Александр" + "Пушкин" - Person
Предлагаю двигаться в сторону чего-то наподобие (больше примеров и подробностей смотри в [[Участник:Andrey Kruglov/Инструкция по разметке NER|моих черновиках]]):
<div style="background:#F0F8FF;border:1px dotted #8BCBFF;padding:10px;margin-top:10px;clear:both;">__NOEDITSECTION__
<span style="font-size:11pt;line-height:11pt;">Пример</span>
----
{{ПримерЗадания|В 1817 Александр Пушкин оканчивает лицей, получает {{КнопкаРасширенияКонтекста}} |}}
Спаны:
* "Александр" - name
* "Пушкин" - surname
Упоминания:
* "Александр" + "Пушкин" - Person
</div>
Что здесь было сделано:
* Выделен шаблон как логическая структура документа и как шаблон движка mediawiki
* Сделано визуальное оформление (его можно будет менять в шаблоне)
* Скорректированы отступы. (В исходном примере двухуровневый список и персона относится только к элементу Пушкин. Правильная структура: два списка (спаны и упоминания), внутри каждого списка свои элементы)
* Использован реальный кусок предложения, а не гипотетический NER в вакууме. Моё мнение - это намного более наглядно. Надо как и в обычных инструкциях искать в корпусе подходящие короткие фразы.


== Опечатка: Спаны: loc( Лос-Анджелеса ) - видимо loc_name? ==
== Опечатка: Спаны: loc( Лос-Анджелеса ) - видимо loc_name? ==

Версия от 21:07, 27 ноября 2015

Это завершившиеся обсуждения статьи Nermanual/2.

Вопросы по интерфейсу разметки

Зачем нужна кнопка "Завершить всё"

Если и так всё сохраняется?

После этой кнопки может начать работать модератор. --Bocharov (обсуждение) 01:24, 27 ноября 2015 (MSK)

Можно ли размечать постепенно? Можно ли возвращаться к ранее размеченным примерам?

Допустим, начиная размечать сущности прочитал фрагмент инструкции про персоны, более-менее их понял -- и решил начать размечать только персоны, не обращая внимания на другие именованные сущности, даже если они попадутся в предложении. И поехали: открыл абзац, нашёл все персоны, видишь, что есть ещё другие именованные сущности, но закрыл абзац и пошёл дальше к следующему абзацу. Потом следующий, потом следующий... Внимание вопрос: можно ли будет потом пройтись по всем "своим предложениям" и размечать уже не персон, а организации? Andrey Kruglov (обсуждение) 20:46, 14 ноября 2015 (MSK)

В данный момент так не получится: нельзя вернуться к абзацу после его закрытия. Лучше медленно, но размечать все сущности. --Bocharov (обсуждение) 14:33, 15 ноября 2015 (MSK)

Ну и как это размечать? Стою туплю над самым простым предложением

Я уже писал, что это не инструкция размечающего, это краткий реферат по теории именованных сущностей. Инструкцию нужно писать отдельно от этого документа, инструкция должна быть простой и понятной как автомат Калашникова. Я вот сейчас сижу и смотрю на предложение, в котором ясно вижу именованную сущность и не могу понять, что нужно сделать с ней, потому что мне приходится перечитывать всю инструкцию целиком, снова вовращаться туда-сюда по тексту, пытаться собрать воедино смысл в непротиворечивую картину.

Итак, собственно вопрос. Есть предложение с именованной сущностью типа персона (допустим, я разобрался как войти в режим разметки и у меня появилось предложение для разметки с панелькой):

конкурс « Новая волна - 2009 » в этом году может пройти без Раймонда Паулса .

Ner simplest 01.png

Хочу разметить "Раймонда" и "Паулса" как именованую сущность и не понимаю, что с ней нужно делать.

В одном месте инструкции мне говорят, что СНАЧАЛА я должен выделить все отдельные слова сущности и пометить её типом Person. (Ага, щас: во всплывающей панельке нет Person, там есть отдельные составляющие - Name, Surname. И я могу выделить хоть одно слово, хоть N слов НЕПРЕРЫВНО -- всё равно Person нет).

В другом месте инструкции мне говорят, что сначала я должен накликать каждой отдельной части её тип ("Раймонда" - Name, "Паулса" - Surname), а потом предлагают "После этого нужно объединить их в одно упоминание объекта с типом Person". Блин, а КАК ОБЬЕДИНИТЬ?? Можно это место как-то расписать подробнее?!

Ner simplest 02.png

В этом месте я как размечающий зверею, потому что ИНСТРУКЦИЯ размечающего должна была описать мне этот простой пример, а потом уже какие-то более сложные случаи описывать. А так я сижу читаю инструкцию, пытаюсь тыкать в разные места интерфейса и методом тыка хоть что-нибудь понять.

Andrey Kruglov (обсуждение) 21:05, 14 ноября 2015 (MSK)

Судя по скриншотам вы поняли ответы на ваши вопросы, хотя и не слышали устного объяснения. Это хорошо. Но, впрочем, не отменяет того, что инструкцию нужно переделывать. По поводу конкретных замечаний: "СНАЧАЛА я должен выделить все отдельные слова сущности и пометить её типом Person." - где именно этот кусок в инструкции? -- Bocharov (обсуждение) 14:44, 15 ноября 2015 (MSK)
Где-то есть видео? Я вообще да, недавно звонил, хотел устно задать кучу вопросов, чтобы не вникать в эту длинную инструкцию. ;) Остаюсь при своём мнении: не нужно эту инструкцию менять, пусть останется такой подробной теорией, в которую можно заглянуть при случае. А инструкция полагаю нужно делать отдельно. Вот именно что сразу дать простое предложение с одной фамилией -- и показать подробно. Потом написать "Сложные случаи" и перечислить всё, что бывает сложного в персонах. (По факту: общая фамилия у двух персон и неконкретные люди "у многих Татьян"). А теорию по уровням разметки оставить в теории. Я может даже на днях, когда у меня сложится полная картинка и я пережую эту длинную инструкцию покажу, как я вижу инструкцию для размечающего -- сделаю свой вариант в своём пространстве статей. Andrey Kruglov (обсуждение) 23:35, 16 ноября 2015 (MSK)
Переписал предложение про создание упоминания объекта. На всякий случай: чтобы создать упоминание нужно щёлкать на уже выделенные спаны не в тексте, а в таблице. Т.е. спаны в этот момент уже созданы. --Bocharov (обсуждение) 14:44, 15 ноября 2015 (MSK)
Посмотрел, что и где поменялось. Да, так стало НАМНОГО понятнее. Сразу совет: нужно ввести термины, что и где в интерфейсе находится. Фраза "нужно в таблице спанов щёлкнуть" в принципе понятна, но если бы изначально была картинка, было бы визуально нагляднее. Andrey Kruglov (обсуждение) 23:35, 16 ноября 2015 (MSK)

Баги интерфейса

После сохранения текста можно менять типы спанов

То есть всё-таки частично можно поменять свой ответ, когда закончил редактировать абзац. Глюк или фича? ;)

Скорее глюк. Напиши, пожалуйста, issue на гитхаб, скажи там, что за бразузер и что именно происходит. --Bocharov (обсуждение) 01:24, 27 ноября 2015 (MSK)

Любой набор спанов перечисленных типов достаточен для создания упоминания

Во-первых, каких конкретно? Непонятно.

Для Персоны достаточно и отчества. --Bocharov (обсуждение) 01:24, 27 ноября 2015 (MSK)

Во-вторых, я пробую создать упоминание из никнейма (пример на zlyatt) -- и не хватает. Баг, фича?

  • Хм, после перезагрузки страницы само пропало и дало создать только из ника упоминание. Этот вопрос снят.
Только из никнейма можно. Там вообще нет проверки типов. Технически можно из никнейма создать орг. Но это не имеет смысла. --Bocharov (обсуждение) 01:24, 27 ноября 2015 (MSK)

Вопросы по разметке упоминаний типа Person

Расценивать ли как упоминание персон следующие случаи

Я не буду ставить подпись под каждым примером -- но прошу при ответе подписываться, чтобы было видно кто отвечающий ;) А примеры можете доспрашивать свои, здесь список. Итак:

  • В своей поездке Владимир Путин посетил...
Владимир - Name, Путин - Surname. Вместе -- персона Andrey Kruglov (обсуждение) 23:46, 16 ноября 2015 (MSK)
  • После церемонии освящения митрополит Кирилл ответил на вопросы журналистов.
митрополит - job, Кирилл - Name. Вместе - персона. Andrey Kruglov (обсуждение) 23:46, 16 ноября 2015 (MSK)
А, нет. " Должности и виды занятий выделяются спанами типа job. Для спанов типа job не нужно создавать упоминаний. Кроме этого, не нужно включать спаны типа job в упоминания объектов типа Person". Тогда получается есть два спана в панели спанов: а) митрополит - job б) Кирилл - Name. А в панели упоминаний будет одно упоминание: Person = Кирилл. Andrey Kruglov (обсуждение) 00:04, 17 ноября 2015 (MSK)
Да. --Bocharov (обсуждение) 18:27, 23 ноября 2015 (MSK)
  • После церемонии освящения митрополит ответил на вопросы журналистов.
Спан: митрополит - job, упоминаний - нет. Andrey Kruglov (обсуждение) 00:04, 17 ноября 2015 (MSK)
Да. --Bocharov (обсуждение) 18:27, 23 ноября 2015 (MSK)
  • Известность диджея Грува стала расти после...
диджей - job, Грув - никнейм. Вместе - персона. Andrey Kruglov (обсуждение) 23:46, 16 ноября 2015 (MSK)
Спаны: диджей - job, Грув - никнейм. Упомининия: Person Грув. Andrey Kruglov (обсуждение) 00:05, 17 ноября 2015 (MSK)
Да. --Bocharov (обсуждение) 18:27, 23 ноября 2015 (MSK)
  • На совещании министр экономики Алексей Улюкаев высказал...
министр - job, экономики - job, Алексей - Name, Улюкаев - Surname. Вместе - Person. Andrey Kruglov (обсуждение) 23:46, 16 ноября 2015 (MSK)
Спаны: а) министр - job б) экономики job в) Алексей - Name г) Улюкаев - Surname Упоминания: Person Алексей+Улюкаев. Andrey Kruglov (обсуждение) 00:07, 17 ноября 2015 (MSK)
Спаны: а) министр экономики - job б) Алексей - Name в) Улюкаев - Surname Упоминания: Person Алексей+Улюкаев. --Bocharov (обсуждение) 18:27, 23 ноября 2015 (MSK)
  • На совещании министр иностранных дел России Сергей Лавров высказал...
министр - job, иностранных - job, дел - job, России - job, Сергей - Name, Лавров - Surname. Вместе - Person. Andrey Kruglov (обсуждение) 23:46, 16 ноября 2015 (MSK)
Спаны: а) министр - job б) иностранных - job в) дел - job г) России - loc_name д) Сергей - Name е) Лавров - Surname. Упоминания: Person Сергей+Лавров Andrey Kruglov (обсуждение) 00:13, 17 ноября 2015 (MSK)
Спаны: а) министр иностранных дел - job б) России - loc_name в) Сергей - Name г) Лавров - Surname. Упоминания: Person Сергей+Лавров, России - loc_org

Для персон не нужно отмечать дескриптор.

В тексте встретилось: "Для персон не нужно отмечать дескриптор." Что такое дескриптор? Какие бывают дескрипторы для персон? Andrey Kruglov (обсуждение) 23:57, 16 ноября 2015 (MSK)

У меня сложилось впечатление, что дескрипторы -- это то же самое, что и "родовое понятие". Ну скажем, "Девочка Таня" - это дескриптор + Name. И есть дескрипторы, которые описывают должность -- и про них тут же сказано: "Должности и виды занятий выделяются спанами типа job". Как-то так я понял. Верно? Andrey Kruglov (обсуждение) 23:57, 16 ноября 2015 (MSK)
Да, родовое понятие. В случае "девочка Таня" мы дескриптор не выделяем. Должности и виды занятий нужно выделять спаном job, т.к. они потом понадобятся при сборке факта "Работа". --Bocharov (обсуждение) 23:04, 23 ноября 2015 (MSK)

Союзы в должности: Чрезвычайный и полномочный посол

На всякий случай уточню глупый вопрос: "чрезвычайный и полномочный посол" - все 4 слова важны, никакое выбрасывать не надо? Andrey Kruglov (обсуждение) 00:59, 26 ноября 2015 (MSK)

Я исхожу из того, что это название дипломатического ранга, и его подстроки сами по себе названиями рангов не являются. Поэтому целиком его точно нужно выделить. Рядом нужно выделить отдельно ещё и "посол". Будет два накладывающихся спана. --Bocharov (обсуждение) 01:24, 27 ноября 2015 (MSK)

Вопросы по разметке упоминаний типа Location

Локации в "профессиональном" контексте

Не знаю, как даже сказать. Вот есть "организационный контекст" ("Локации в организационном контексте"), например "коммунистическая партия Кубы" - это организация + локация. А если профессия + локация -- это как называется и как размечать?

  • Там он встретился с заместителем министра иностранных дел Грузии, который специальным рейсом...
  • На встрече чрезвычайный и полномочный посол Италии в Грузии рассказал...
Считаем (чтобы упростить себе жизнь), что у локации как таковой не может быть связанных с нею должностей: нельзя быть руководителем поляны, но можно быть руководителем организации, расположившейся на поляне. У локации есть местоположение. А должности есть у организаций. Поэтому, если речь идёт о том, что кто-то является в Х министром или послом, то контекст, в котором употреблён этот Х - это организационный контекст. В случае, когда сам Х является локацией, получается "локация в организационном контексте". Упоминания таких объектов мы отмечаем как LocOrg. --Bocharov (обсуждение) 23:22, 23 ноября 2015 (MSK)
"на встрече чрезвычайный и полномочный посол Италии в Грузии рассказал ..." - "Италия" должна войти в упоминание типа LocOrg. Вопрос про то, какого типа должно быть упоминание для "Грузии" кажется мне не очевидным. С одной стороны речь идёт о государстве, а не о его территории (государство - это организация), с другой, в похожем примере "специальный представитель Президента Российской Федерации по международному сотрудничеству в Арктике и Антарктике" - тут "Арктика" и "Антарктика" являются, очевидно, локациями. Чтобы не думать об этом долго, предлагаю "Грузию" в данном случае тоже включать в LocOrg. --Bocharov (обсуждение) 23:22, 23 ноября 2015 (MSK)

В тексте инструкции не хватает простого примера на локации

Вот, подобрал из существующего текста предложение, предлагаю вставить в качестве затравки:

  • С космодрома Байконур планируется запуск...
Спаны: а) космодром - loc_descr б) Байконур - loc_name. Упоминания: а) Loc космодром+Байконур. Andrey Kruglov (обсуждение) 00:23, 17 ноября 2015 (MSK)
Да. Всё так. --Bocharov (обсуждение) 23:23, 23 ноября 2015 (MSK)

Вопросы по разметке упоминаний типа Organization

Вопросы по разметке упоминаний типа LocOrg

Вопросы, замечания, предложения по переработке/исправлению самой инструкции

Какие виды спанов возможны

После разделения документа появилась вот какая проблема. Мы смотрим на документ уже испахав тему вдоль и поперёк. Но если смотрит неподготовленный человек, то он не найдёт некоторых вещей, если не посмотрит в другие (необязательные) документы. Например, в моём варианте инструкции (старый черновичок) был такой пассаж:

Необходимо в каждом абзаце выделить следующие именованные сущности:

  • Персоны (Владимир Ленин, министр финансов Алексей Улюкаев и т.п.)
  • Организации (Викиликс, газета Ведомости, международный фонд ICAAN)
  • Локации (Италия, Москва и т.п.)
  • Локация в организационном контексте (президент Америки)

А в текущей версии документа по конкурсу есть подобный (см. предложение "Возможны следующие типы спанов") фрагмент. Оба по-своему хороши: один краткий (это хорошо в сжатых инструкциях), другой перечисляет все подтипы спанов; в одном есть примеры, чтобы было на пальцах понятно.

Самое идеальное место для вставки - около "Как выделить сущность?" и "Вначале выделите спаны". Подробности о том, какие бывают спаны у каждой именованной сущности можно один раз перечислить или наоборот - распихать по разделам.

Раздел "Потом объедините спаны в упоминания объектов" перегружен

В нём слишком много примеров, достаточно оставить один - самый первый, потому что он самый простой.

Когда в этот момент человек читает инструкцию в первый раз не надо забивать ему башку лишней инфой.

Я писал, что нужно добавить, какие спаны бывают (см. предыдущую тему), потом кратко показать один самый простой пример на объединение спана в упоминание - и следом опять идёт "интерфейсный" раздел "как удалить именованную сущность.

И вот только потом начинается основная часть шпаргалки: крупные 4 раздела Персоны - Локации - Организации - ЛокОрги.

И вот там нужно пример за примером давать, описывать сложные случаи.

А в этом разделе "объедините спаны в упоминания" достаточно одного примера.


Страница обсуждения разрастается... Надо бы часть в архив убрать

Совершенно очевидно, что потихоньку можно создать несколько архивов: под разные вопросы неактуальные (если что-то предложил в статью поправить, типа как я заметил опечатку что loc_name куда-то съелось _name -- это ж сразу после багфикса станет не нужно держать в статье. В архив, в архив этот вопрос).

С другой стороны и разные вопросы можно распихать по архивам "Персоны", "Организации" и т.п.

Неделю вопрос провисел - и в архив его ;) 01:34, 26 ноября 2015 (MSK)

Поддерживаю. --Bocharov (обсуждение) 01:24, 27 ноября 2015 (MSK)


Порядок примеров: от простых к сложным (на примере Организаций)

Читаю раздел про организации, понимаю, что порядок изложения выбран сложный для усваивания: сначала какой-то непростой пример, в котором красиво описан спан "организация ICAAN" внутри спана "международная организация ICAAN" и я на нём голову сломал, зачем так, почему так, как сделать так... А потом вдруг примеры резко стали упрощаться. Вот в каком логическом порядке я хотел бы видеть примеры в инструкции:

  • Новый скандал вокруг дела Викиликс поднялся после...
  • Газета "Ведомости" пишет, что...
  • Международная организация ICAAN.

Простая инструкци (концепт)

Черкнул пару строк: Инструкция по разметке именованных сущностей (вариант Andrey Kruglov).

Здесь оставлено только описание интерейса (а его один раз прочитать и забыть, поэтому было бы здорово выкинуть его на отдельную страницу) + простые примеры на разметку каждого типа именованных сущностей. (Неявно предполагается, что сложные случаи будут на странице с подробной теорией - ту, что Виктор писал)

Можно на три части разбить: интерфейс + простые примеры + сложные примеры. И отдельно -- страница с теорией, где написано про конкурс, про какие-то уровни и т.п.

Вообще, я бы как раз хотел бы в инструкции размечающего оставить именно саму шпаргалку (список примеров с описанием, что и как размечать, сложность по нарастающей). Или рядом с теорией положить. В общем, как не крути -- NER - это весьма большая тема и я считаю, что нет смысла составлять из неё ОДИН ГРОМАДНЫЙ документ. Я предлагаю разбивать на отдельные логические модули.

Форматирование примеров

Красивый документ - это документ с красивым оформлением. Пора сказать пару слов о шаблонах.

Вот неформатированный пример, как сейчас в инструкции:

  • Александр Пушкин
    • "Александр" - name
    • "Пушкин" - surname
      • "Александр" + "Пушкин" - Person

Предлагаю двигаться в сторону чего-то наподобие (больше примеров и подробностей смотри в моих черновиках):

Пример


В 1817 Александр Пушкин оканчивает лицей, получает ...

Спаны:

  • "Александр" - name
  • "Пушкин" - surname

Упоминания:

  • "Александр" + "Пушкин" - Person

Что здесь было сделано:

  • Выделен шаблон как логическая структура документа и как шаблон движка mediawiki
  • Сделано визуальное оформление (его можно будет менять в шаблоне)
  • Скорректированы отступы. (В исходном примере двухуровневый список и персона относится только к элементу Пушкин. Правильная структура: два списка (спаны и упоминания), внутри каждого списка свои элементы)
  • Использован реальный кусок предложения, а не гипотетический NER в вакууме. Моё мнение - это намного более наглядно. Надо как и в обычных инструкциях искать в корпусе подходящие короткие фразы.


Опечатка: Спаны: loc( Лос-Анджелеса ) - видимо loc_name?

По мелочи. Тут Loc - а такое есть только как упоминание, а тут видимо loc_name раз это спан.

да, loc_name --Bocharov (обсуждение) 01:24, 27 ноября 2015 (MSK)