Обсуждение:Nermanual/2: различия между версиями
Bocharov (обсуждение | вклад) |
(→Форматирование примеров: новая тема) |
||
Строка 117: | Строка 117: | ||
Вообще, я бы как раз хотел бы в инструкции размечающего оставить именно саму шпаргалку (список примеров с описанием, что и как размечать, сложность по нарастающей). Или рядом с теорией положить. В общем, как не крути -- NER - это весьма большая тема и я считаю, что нет смысла составлять из неё ОДИН ГРОМАДНЫЙ документ. Я предлагаю разбивать на отдельные логические модули. | Вообще, я бы как раз хотел бы в инструкции размечающего оставить именно саму шпаргалку (список примеров с описанием, что и как размечать, сложность по нарастающей). Или рядом с теорией положить. В общем, как не крути -- NER - это весьма большая тема и я считаю, что нет смысла составлять из неё ОДИН ГРОМАДНЫЙ документ. Я предлагаю разбивать на отдельные логические модули. | ||
== Форматирование примеров == | |||
Красивый документ - это документ с красивым оформлением. Пора сказать пару слов о шаблонах. | |||
Вот неформатированный пример, как сейчас в инструкции: | |||
* Александр Пушкин | |||
** "Александр" - name | |||
** "Пушкин" - surname | |||
*** "Александр" + "Пушкин" - Person | |||
Предлагаю двигаться в сторону чего-то наподобие (больше примеров и подробностей смотри в [[Участник:Andrey Kruglov/Инструкция по разметке NER|моих черновиках]]): | |||
<div style="background:#F0F8FF;border:1px dotted #8BCBFF;padding:10px;margin-top:10px;clear:both;">__NOEDITSECTION__ | |||
<span style="font-size:11pt;line-height:11pt;">Пример</span> | |||
---- | |||
{{ПримерЗадания|В 1817 Александр Пушкин оканчивает лицей, получает {{КнопкаРасширенияКонтекста}} |}} | |||
Спаны: | |||
* "Александр" - name | |||
* "Пушкин" - surname | |||
Упоминания: | |||
* "Александр" + "Пушкин" - Person | |||
</div> | |||
Что здесь было сделано: | |||
* Выделен шаблон как логическая структура документа и как шаблон движка mediawiki | |||
* Сделано визуальное оформление (его можно будет менять в шаблоне) | |||
* Скорректированы отступы. (В исходном примере двухуровневый список и персона относится только к элементу Пушкин. Правильная структура: два списка (спаны и упоминания), внутри каждого списка свои элементы) | |||
* Использован реальный кусок предложения, а не гипотетический NER в вакууме. Моё мнение - это намного более наглядно. Надо как и в обычных инструкциях искать в корпусе подходящие короткие фразы. |
Версия от 08:16, 24 ноября 2015
Сюда нужно писать комментарии и вопросы. Для того, чтобы создать новый вопрос, нажмите кнопку "Добавить тему" вверху страницы.
Если вы начали размечать и поняли, что не понимаете как это делать, а инструкция не даёт ответа на ваши вопросы, то не нажимайте пока на кнопку "Закончить разметку абзаца". Вместо этого задайте вопрос на этой странице (обязательно скопируйте предложение) и дождитесь ответа. Торопиться не нужно.
Можно ли размечать постепенно? Можно ли возвращаться к ранее размеченным примерам?
Допустим, начиная размечать сущности прочитал фрагмент инструкции про персоны, более-менее их понял -- и решил начать размечать только персоны, не обращая внимания на другие именованные сущности, даже если они попадутся в предложении. И поехали: открыл абзац, нашёл все персоны, видишь, что есть ещё другие именованные сущности, но закрыл абзац и пошёл дальше к следующему абзацу. Потом следующий, потом следующий... Внимание вопрос: можно ли будет потом пройтись по всем "своим предложениям" и размечать уже не персон, а организации? Andrey Kruglov (обсуждение) 20:46, 14 ноября 2015 (MSK)
- В данный момент так не получится: нельзя вернуться к абзацу после его закрытия. Лучше медленно, но размечать все сущности. --Bocharov (обсуждение) 14:33, 15 ноября 2015 (MSK)
Ну и как это размечать? Стою туплю над самым простым предложением
Я уже писал, что это не инструкция размечающего, это краткий реферат по теории именованных сущностей. Инструкцию нужно писать отдельно от этого документа, инструкция должна быть простой и понятной как автомат Калашникова. Я вот сейчас сижу и смотрю на предложение, в котором ясно вижу именованную сущность и не могу понять, что нужно сделать с ней, потому что мне приходится перечитывать всю инструкцию целиком, снова вовращаться туда-сюда по тексту, пытаться собрать воедино смысл в непротиворечивую картину.
Итак, собственно вопрос. Есть предложение с именованной сущностью типа персона (допустим, я разобрался как войти в режим разметки и у меня появилось предложение для разметки с панелькой):
конкурс « Новая волна - 2009 » в этом году может пройти без Раймонда Паулса .
Хочу разметить "Раймонда" и "Паулса" как именованую сущность и не понимаю, что с ней нужно делать.
В одном месте инструкции мне говорят, что СНАЧАЛА я должен выделить все отдельные слова сущности и пометить её типом Person. (Ага, щас: во всплывающей панельке нет Person, там есть отдельные составляющие - Name, Surname. И я могу выделить хоть одно слово, хоть N слов НЕПРЕРЫВНО -- всё равно Person нет).
В другом месте инструкции мне говорят, что сначала я должен накликать каждой отдельной части её тип ("Раймонда" - Name, "Паулса" - Surname), а потом предлагают "После этого нужно объединить их в одно упоминание объекта с типом Person". Блин, а КАК ОБЬЕДИНИТЬ?? Можно это место как-то расписать подробнее?!
В этом месте я как размечающий зверею, потому что ИНСТРУКЦИЯ размечающего должна была описать мне этот простой пример, а потом уже какие-то более сложные случаи описывать. А так я сижу читаю инструкцию, пытаюсь тыкать в разные места интерфейса и методом тыка хоть что-нибудь понять.
Andrey Kruglov (обсуждение) 21:05, 14 ноября 2015 (MSK)
- Судя по скриншотам вы поняли ответы на ваши вопросы, хотя и не слышали устного объяснения. Это хорошо. Но, впрочем, не отменяет того, что инструкцию нужно переделывать. По поводу конкретных замечаний: "СНАЧАЛА я должен выделить все отдельные слова сущности и пометить её типом Person." - где именно этот кусок в инструкции? -- Bocharov (обсуждение) 14:44, 15 ноября 2015 (MSK)
- Где-то есть видео? Я вообще да, недавно звонил, хотел устно задать кучу вопросов, чтобы не вникать в эту длинную инструкцию. ;) Остаюсь при своём мнении: не нужно эту инструкцию менять, пусть останется такой подробной теорией, в которую можно заглянуть при случае. А инструкция полагаю нужно делать отдельно. Вот именно что сразу дать простое предложение с одной фамилией -- и показать подробно. Потом написать "Сложные случаи" и перечислить всё, что бывает сложного в персонах. (По факту: общая фамилия у двух персон и неконкретные люди "у многих Татьян"). А теорию по уровням разметки оставить в теории. Я может даже на днях, когда у меня сложится полная картинка и я пережую эту длинную инструкцию покажу, как я вижу инструкцию для размечающего -- сделаю свой вариант в своём пространстве статей. Andrey Kruglov (обсуждение) 23:35, 16 ноября 2015 (MSK)
- Переписал предложение про создание упоминания объекта. На всякий случай: чтобы создать упоминание нужно щёлкать на уже выделенные спаны не в тексте, а в таблице. Т.е. спаны в этот момент уже созданы. --Bocharov (обсуждение) 14:44, 15 ноября 2015 (MSK)
- Посмотрел, что и где поменялось. Да, так стало НАМНОГО понятнее. Сразу совет: нужно ввести термины, что и где в интерфейсе находится. Фраза "нужно в таблице спанов щёлкнуть" в принципе понятна, но если бы изначально была картинка, было бы визуально нагляднее. Andrey Kruglov (обсуждение) 23:35, 16 ноября 2015 (MSK)
Расценивать ли как упоминание персон следующие случаи
Я не буду ставить подпись под каждым примером -- но прошу при ответе подписываться, чтобы было видно кто отвечающий ;) А примеры можете доспрашивать свои, здесь список. Итак:
- В своей поездке Владимир Путин посетил...
- Владимир - Name, Путин - Surname. Вместе -- персона Andrey Kruglov (обсуждение) 23:46, 16 ноября 2015 (MSK)
- После церемонии освящения митрополит Кирилл ответил на вопросы журналистов.
- митрополит - job, Кирилл - Name. Вместе - персона. Andrey Kruglov (обсуждение) 23:46, 16 ноября 2015 (MSK)
- А, нет. " Должности и виды занятий выделяются спанами типа job. Для спанов типа job не нужно создавать упоминаний. Кроме этого, не нужно включать спаны типа job в упоминания объектов типа Person". Тогда получается есть два спана в панели спанов: а) митрополит - job б) Кирилл - Name. А в панели упоминаний будет одно упоминание: Person = Кирилл. Andrey Kruglov (обсуждение) 00:04, 17 ноября 2015 (MSK)
- Да. --Bocharov (обсуждение) 18:27, 23 ноября 2015 (MSK)
- А, нет. " Должности и виды занятий выделяются спанами типа job. Для спанов типа job не нужно создавать упоминаний. Кроме этого, не нужно включать спаны типа job в упоминания объектов типа Person". Тогда получается есть два спана в панели спанов: а) митрополит - job б) Кирилл - Name. А в панели упоминаний будет одно упоминание: Person = Кирилл. Andrey Kruglov (обсуждение) 00:04, 17 ноября 2015 (MSK)
- митрополит - job, Кирилл - Name. Вместе - персона. Andrey Kruglov (обсуждение) 23:46, 16 ноября 2015 (MSK)
- После церемонии освящения митрополит ответил на вопросы журналистов.
- Спан: митрополит - job, упоминаний - нет. Andrey Kruglov (обсуждение) 00:04, 17 ноября 2015 (MSK)
- Да. --Bocharov (обсуждение) 18:27, 23 ноября 2015 (MSK)
- Спан: митрополит - job, упоминаний - нет. Andrey Kruglov (обсуждение) 00:04, 17 ноября 2015 (MSK)
- Известность диджея Грува стала расти после...
- диджей - job, Грув - никнейм. Вместе - персона. Andrey Kruglov (обсуждение) 23:46, 16 ноября 2015 (MSK)
- Спаны: диджей - job, Грув - никнейм. Упомининия: Person Грув. Andrey Kruglov (обсуждение) 00:05, 17 ноября 2015 (MSK)
- Да. --Bocharov (обсуждение) 18:27, 23 ноября 2015 (MSK)
- Спаны: диджей - job, Грув - никнейм. Упомининия: Person Грув. Andrey Kruglov (обсуждение) 00:05, 17 ноября 2015 (MSK)
- диджей - job, Грув - никнейм. Вместе - персона. Andrey Kruglov (обсуждение) 23:46, 16 ноября 2015 (MSK)
- На совещании министр экономики Алексей Улюкаев высказал...
- министр - job, экономики - job, Алексей - Name, Улюкаев - Surname. Вместе - Person. Andrey Kruglov (обсуждение) 23:46, 16 ноября 2015 (MSK)
- Спаны: а) министр - job б) экономики job в) Алексей - Name г) Улюкаев - Surname Упоминания: Person Алексей+Улюкаев. Andrey Kruglov (обсуждение) 00:07, 17 ноября 2015 (MSK)
- Спаны: а) министр экономики - job б) Алексей - Name в) Улюкаев - Surname Упоминания: Person Алексей+Улюкаев. --Bocharov (обсуждение) 18:27, 23 ноября 2015 (MSK)
- Спаны: а) министр - job б) экономики job в) Алексей - Name г) Улюкаев - Surname Упоминания: Person Алексей+Улюкаев. Andrey Kruglov (обсуждение) 00:07, 17 ноября 2015 (MSK)
- министр - job, экономики - job, Алексей - Name, Улюкаев - Surname. Вместе - Person. Andrey Kruglov (обсуждение) 23:46, 16 ноября 2015 (MSK)
- На совещании министр иностранных дел России Сергей Лавров высказал...
- министр - job, иностранных - job, дел - job, России - job, Сергей - Name, Лавров - Surname. Вместе - Person. Andrey Kruglov (обсуждение) 23:46, 16 ноября 2015 (MSK)
- Спаны: а) министр - job б) иностранных - job в) дел - job г) России - loc_name д) Сергей - Name е) Лавров - Surname. Упоминания: Person Сергей+Лавров Andrey Kruglov (обсуждение) 00:13, 17 ноября 2015 (MSK)
- Спаны: а) министр иностранных дел - job б) России - loc_name в) Сергей - Name г) Лавров - Surname. Упоминания: Person Сергей+Лавров, России - loc_org
- Спаны: а) министр - job б) иностранных - job в) дел - job г) России - loc_name д) Сергей - Name е) Лавров - Surname. Упоминания: Person Сергей+Лавров Andrey Kruglov (обсуждение) 00:13, 17 ноября 2015 (MSK)
- министр - job, иностранных - job, дел - job, России - job, Сергей - Name, Лавров - Surname. Вместе - Person. Andrey Kruglov (обсуждение) 23:46, 16 ноября 2015 (MSK)
Для персон не нужно отмечать дескриптор.
В тексте встретилось: "Для персон не нужно отмечать дескриптор." Что такое дескриптор? Какие бывают дескрипторы для персон? Andrey Kruglov (обсуждение) 23:57, 16 ноября 2015 (MSK)
- У меня сложилось впечатление, что дескрипторы -- это то же самое, что и "родовое понятие". Ну скажем, "Девочка Таня" - это дескриптор + Name. И есть дескрипторы, которые описывают должность -- и про них тут же сказано: "Должности и виды занятий выделяются спанами типа job". Как-то так я понял. Верно? Andrey Kruglov (обсуждение) 23:57, 16 ноября 2015 (MSK)
- Да, родовое понятие. В случае "девочка Таня" мы дескриптор не выделяем. Должности и виды занятий нужно выделять спаном job, т.к. они потом понадобятся при сборке факта "Работа". --Bocharov (обсуждение) 23:04, 23 ноября 2015 (MSK)
Локации в "профессиональном" контексте
Не знаю, как даже сказать. Вот есть "организационный контекст" ("Локации в организационном контексте"), например "коммунистическая партия Кубы" - это организация + локация. А если профессия + локация -- это как называется и как размечать?
- Там он встретился с заместителем министра иностранных дел Грузии, который специальным рейсом...
- На встрече чрезвычайный и полномочный посол Италии в Грузии рассказал...
- Считаем (чтобы упростить себе жизнь), что у локации как таковой не может быть связанных с нею должностей: нельзя быть руководителем поляны, но можно быть руководителем организации, расположившейся на поляне. У локации есть местоположение. А должности есть у организаций. Поэтому, если речь идёт о том, что кто-то является в Х министром или послом, то контекст, в котором употреблён этот Х - это организационный контекст. В случае, когда сам Х является локацией, получается "локация в организационном контексте". Упоминания таких объектов мы отмечаем как LocOrg. --Bocharov (обсуждение) 23:22, 23 ноября 2015 (MSK)
- "на встрече чрезвычайный и полномочный посол Италии в Грузии рассказал ..." - "Италия" должна войти в упоминание типа LocOrg. Вопрос про то, какого типа должно быть упоминание для "Грузии" кажется мне не очевидным. С одной стороны речь идёт о государстве, а не о его территории (государство - это организация), с другой, в похожем примере "специальный представитель Президента Российской Федерации по международному сотрудничеству в Арктике и Антарктике" - тут "Арктика" и "Антарктика" являются, очевидно, локациями. Чтобы не думать об этом долго, предлагаю "Грузию" в данном случае тоже включать в LocOrg. --Bocharov (обсуждение) 23:22, 23 ноября 2015 (MSK)
В тексте инструкции не хватает простого примера на локации
Вот, подобрал из существующего текста предложение, предлагаю вставить в качестве затравки:
- С космодрома Байконур планируется запуск...
- Спаны: а) космодром - loc_descr б) Байконур - loc_name. Упоминания: а) Loc космодром+Байконур. Andrey Kruglov (обсуждение) 00:23, 17 ноября 2015 (MSK)
- Да. Всё так. --Bocharov (обсуждение) 23:23, 23 ноября 2015 (MSK)
- Спаны: а) космодром - loc_descr б) Байконур - loc_name. Упоминания: а) Loc космодром+Байконур. Andrey Kruglov (обсуждение) 00:23, 17 ноября 2015 (MSK)
Порядок примеров: от простых к сложным (на примере Организаций)
Читаю раздел про организации, понимаю, что порядок изложения выбран сложный для усваивания: сначала какой-то непростой пример, в котором красиво описан спан "организация ICAAN" внутри спана "международная организация ICAAN" и я на нём голову сломал, зачем так, почему так, как сделать так... А потом вдруг примеры резко стали упрощаться. Вот в каком логическом порядке я хотел бы видеть примеры в инструкции:
- Новый скандал вокруг дела Викиликс поднялся после...
- Газета "Ведомости" пишет, что...
- Международная организация ICAAN.
Простая инструкци (концепт)
Черкнул пару строк: Инструкция по разметке именованных сущностей (вариант Andrey Kruglov).
Здесь оставлено только описание интерейса (а его один раз прочитать и забыть, поэтому было бы здорово выкинуть его на отдельную страницу) + простые примеры на разметку каждого типа именованных сущностей. (Неявно предполагается, что сложные случаи будут на странице с подробной теорией - ту, что Виктор писал)
Можно на три части разбить: интерфейс + простые примеры + сложные примеры. И отдельно -- страница с теорией, где написано про конкурс, про какие-то уровни и т.п.
Вообще, я бы как раз хотел бы в инструкции размечающего оставить именно саму шпаргалку (список примеров с описанием, что и как размечать, сложность по нарастающей). Или рядом с теорией положить. В общем, как не крути -- NER - это весьма большая тема и я считаю, что нет смысла составлять из неё ОДИН ГРОМАДНЫЙ документ. Я предлагаю разбивать на отдельные логические модули.
Форматирование примеров
Красивый документ - это документ с красивым оформлением. Пора сказать пару слов о шаблонах.
Вот неформатированный пример, как сейчас в инструкции:
- Александр Пушкин
- "Александр" - name
- "Пушкин" - surname
- "Александр" + "Пушкин" - Person
Предлагаю двигаться в сторону чего-то наподобие (больше примеров и подробностей смотри в моих черновиках):
Пример
В 1817 Александр Пушкин оканчивает лицей, получает ...
Спаны:
- "Александр" - name
- "Пушкин" - surname
Упоминания:
- "Александр" + "Пушкин" - Person
Что здесь было сделано:
- Выделен шаблон как логическая структура документа и как шаблон движка mediawiki
- Сделано визуальное оформление (его можно будет менять в шаблоне)
- Скорректированы отступы. (В исходном примере двухуровневый список и персона относится только к элементу Пушкин. Правильная структура: два списка (спаны и упоминания), внутри каждого списка свои элементы)
- Использован реальный кусок предложения, а не гипотетический NER в вакууме. Моё мнение - это намного более наглядно. Надо как и в обычных инструкциях искать в корпусе подходящие короткие фразы.