Обсуждение:Nermanual/2: различия между версиями

Материал из OpenCorpora
Перейти к навигации Перейти к поиску
мНет описания правки
мНет описания правки
Строка 12: Строка 12:
| text =  [[Обсуждение:Nermanual/2/Архив]]
| text =  [[Обсуждение:Nermanual/2/Архив]]
}}
}}
== Порядок примеров: от простых к сложным (на примере Организаций) ==
Читаю раздел про организации, понимаю, что порядок изложения выбран сложный для усваивания: сначала какой-то непростой пример, в котором красиво описан спан "организация ICAAN" внутри спана "международная организация ICAAN" и я на нём голову сломал, зачем так, почему так, как сделать так... А потом вдруг примеры резко стали упрощаться. Вот в каком логическом порядке я хотел бы видеть примеры в инструкции:
* Новый скандал вокруг дела Викиликс поднялся после...
* Газета "Ведомости" пишет, что...
* Международная организация ICAAN.
== Простая инструкци (концепт) ==
Черкнул пару строк: [[User:Andrey_Kruglov/Инструкция по разметке NER|Инструкция по разметке  именованных сущностей (вариант Andrey Kruglov)]].
Здесь оставлено только описание интерейса (а его один раз прочитать и забыть, поэтому было бы здорово выкинуть его на отдельную страницу) + простые примеры на разметку каждого типа именованных сущностей. (Неявно предполагается, что сложные случаи будут на странице с подробной теорией - ту, что Виктор писал)
Можно на три части разбить: интерфейс + простые примеры + сложные примеры. И отдельно -- страница с теорией, где написано про конкурс, про какие-то уровни и т.п.
Вообще, я бы как раз хотел бы в инструкции размечающего оставить именно саму шпаргалку (список примеров с описанием, что и как размечать, сложность по нарастающей). Или рядом с теорией положить. В общем, как не крути -- NER - это весьма большая тема и я считаю, что нет смысла составлять из неё ОДИН ГРОМАДНЫЙ документ. Я предлагаю разбивать на отдельные логические модули.
== Форматирование примеров ==
Красивый документ - это документ с красивым оформлением. Пора сказать пару слов о шаблонах.
Вот неформатированный пример, как сейчас в инструкции:
* Александр Пушкин
** "Александр" - name
** "Пушкин" - surname
*** "Александр" + "Пушкин" - Person
Предлагаю двигаться в сторону чего-то наподобие (больше примеров и подробностей смотри в [[Участник:Andrey Kruglov/Инструкция по разметке NER|моих черновиках]]):
<div style="background:#F0F8FF;border:1px dotted #8BCBFF;padding:10px;margin-top:10px;clear:both;">__NOEDITSECTION__
<span style="font-size:11pt;line-height:11pt;">Пример</span>
----
{{ПримерЗадания|В 1817 Александр Пушкин оканчивает лицей, получает {{КнопкаРасширенияКонтекста}} |}}
Спаны:
* "Александр" - name
* "Пушкин" - surname
Упоминания:
* "Александр" + "Пушкин" - Person
</div>
Что здесь было сделано:
* Выделен шаблон как логическая структура документа и как шаблон движка mediawiki
* Сделано визуальное оформление (его можно будет менять в шаблоне)
* Скорректированы отступы. (В исходном примере двухуровневый список и персона относится только к элементу Пушкин. Правильная структура: два списка (спаны и упоминания), внутри каждого списка свои элементы)
* Использован реальный кусок предложения, а не гипотетический NER в вакууме. Моё мнение - это намного более наглядно. Надо как и в обычных инструкциях искать в корпусе подходящие короткие фразы.
== Порядок выделения в спане: справа налево? ==
== Порядок выделения в спане: справа налево? ==



Версия от 21:07, 27 ноября 2015

Сюда нужно писать комментарии и вопросы.

Для того, чтобы создать новый вопрос, нажмите кнопку "Добавить тему" вверху страницы. Если вы не видите этой кнопки, то вам нужно залогиниться на этой вики. Логины и пароли не синхронизированы с opencorpora.org. Чтобы писать на вики нужен отдельный логин.

Внимание! Если вы начали размечать абзац и не понимаете, как его разметить
...то не нажимайте пока на кнопку "Закончить разметку абзаца".
Вместо этого задайте вопрос на этой странице (обязательно скопируйте предложение) и дождитесь ответа. Торопиться не нужно.


Часть закончившихся обсуждений убрана в архив
Обсуждение:Nermanual/2/Архив


Порядок выделения в спане: справа налево?

Критично, если непрерывный спан выделяется не слево направо (Александр, потом Пушкин) - а справа налево (сначала кликнули на Пушкин, потом на Александр)? Нечасто, но бывает, что уже начал размечать абзац, а потом воспомнил, что нужно добавить другое слово. Ну или просто по незнанию не подумал, что это критично. Код корпоры корректно отработает такую ситуацию? Если ли требование на конкурсе, что спаны выделяются слева направо в тексте? Andrey Kruglov (обсуждение) 13:33, 24 ноября 2015 (MSK)

Порядок токенов в спане не имеет значения. Они выстроятся в нужном при необходимости. --Bocharov (обсуждение) 18:45, 24 ноября 2015 (MSK)

job + организация без имени + name + surname

в семье владельца сахарной плантации Анхеля Кастро-и-Аргиса

Владелец кафе Йохен Шарф не только принял под своё крыло необычных посетителей ...

Вариант разметки:

Пример


в семье владельца сахарной плантации Анхеля Кастро-и-Аргиса ...
Спаны:
  • владелец — job
  • сахарной плантации — org_descr
  • Анхеля — name
  • Кастро-и-Аргиса — surname
Упоминания:
  • Анхеля + Кастро-и-Аргиса — Person
  • сахарной плантации — Org
  • название компании внутри должности

    Пример


    со ссылкой на исполнительного директора компании Google по развивающимся рынкам ( Европа , Ближний Восток и Африка ) Мохамада Гавдата ...
    Спаны:
    • исполнительного директора — job
    • исполнительного директора компании Google по развивающимся рынкам — job
    • компании — org_descr
    • Google — org_name
    • Европа — loc_name
    • Ближний Восток — loc_name
    • Африка — loc_name
    • Мохамада — name
    • Гавдата — surname
    Упоминания:
  • Мохамада + Гавдата — Person
  • компании + Google — Org
  • Европа — Location
  • Ближний Восток — Location
  • Африка — Location
  • имеет ли смысл выделять дескриптор "представительство" без уточняющего слова, когда оно есть в тексте?

    Пример


    украинское представительство Google ...
    Спаны:
    • украинское представительство — org_descr
    • Google — org_name
    Упоминания:
  • украинское представительство + Google — Org
  • Google — Org
  • Кажется, что добавлять спан org_descr( представительство ) не нужно, т.к. он малоинформативен.

    Полное и сокращённое наименование организации

    Если я правильно понял такой пример:

    Пример


    ... которая предоставлена Международным телекоммуникационным союзом ( International Telecommunications Union ( ITU ) ) для ...
    Спаны:
    • Международным телекоммуникационным союзом — org_name
    • International Telecommunications Union — org_name
    • ITU — org_name
    Упоминания:
  • Международным телекоммуникационным союзом — Org
  • International Telecommunications Union — Org
  • ITU — Org
  • то случай когда после полного наименования организации в скобках упоминается сокращённое, аббревиатура -- то нужно скобки прерывают спан, верно?

    Ну то есть, можно либо сделать непрерывный спан из ПолногоИмени+СокращённогоИмени, либо засчитать два упоминания (одной и той же организации, но это пока не учитываем) - полное упоминание (из одного спана в три слова) и сокращённое наименование (из одного односложного спана).

    Название латиницей и аббревиатура в сбоках - это отдельные упоминания. Не нужно делать непрерывного спана, перекрывающего скобки. Картинка верна (но текст под ней я не смог однозначно понять, поэтому говорю только про картинку). --Bocharov (обсуждение) 01:24, 27 ноября 2015 (MSK)

    Руководитель Роскосмоса

    В тексте не хватает примера на должность + организация: сначала слишком долго мусолятся простые примеры, потом резко очень сложные долго идут, а среднего уровня примеров очень не хватает.

    Я вот такой подобрал:

    Пример


    По словам руководителя Роскосмоса Анатолия Николаевича Перминова , уже идёт подготовка к ...
    Спаны:
    • руководителя — job
    • Роскосмоса — org_name
    • Анатолия — name
    • Николаевича — patronymic
    • Перминова — surname
    Упоминания:
  • Роскосмоса — LocOrg
  • Анатолия + Николаевича + Перминова — Person
  • (можно убрать ФИО для простоты, но я полагаю, что как раз это некритично, пусть потихоньку привыкает держать всё более реальные примеры (т.к. некоторые примеры, которые Виктор привёл в обсуждениях сложно понять с непривычки)

    Спасибо. Хороший пример. --Bocharov (обсуждение) 01:24, 27 ноября 2015 (MSK)

    Когда Россия - это Loc, а когда - LocOrg

    Интуитивно думаю, что в первом примере Loc, а во втором - LocOrg. Но хочу более ясные критерии, помимо "революционного чутья".

    • Спутник AMOS-5 изготовлен в России, его вес — 600
    • По словам руководителя Роскосмоса Анатолия Николаевича Перминова , Россия готовит соглашения

    Сначала я понял, что LocOrg - это когда должность+страна (президент РФ, посол Италии); потом понял, что LocOrg - это когда "организации, управляющей указанной территорией" (первый случай: Россия - это чисто страна, во втором случае это и страна и организация, которая управляет территорией Россия); потом я запутался.

    Первый - Loc (аналогично: в Москве, в лесу, на соседней поляне, в Африке), второй - LocOrg (аналогично: ЦКБ Рубин, правительство России). Страна (в ней есть должности, руководящие организации, она может совершать действия) - это организация. Местоположение не может готовить, говорить, выступать, разрабатывать, забивать гол, выигрывать, атаковать и т.д. --Bocharov (обсуждение) 01:24, 27 ноября 2015 (MSK)


    Профессии: Пользователь ЖЖ zlyatt сообщает...

    Что считать профессией? Блоггер Петров - это профессия или неинтересное родовое понятие, которое мы не учитываем при разметке? Или вот Сергей Калугин -- по профессии музыкант, есть своя рок-группа - но если в тексте будет написано "Известный мистик Сергей Калугин" (а его причисляют к мистикам, да) то "мистик + Сергей Калугин" считается как род деятельности, профессия или не размечать?

    пользователь ЖЖ, блоггер и прочие можно игнорировать. Из них факт "Работа" не соберёшь. Если ты их выделил - хуже не станет, т.к. в сущностях они не участвуют. Только в фактах как значения поля "должность". А вот если "оркестр нанял музыканта Сергея Калугина" - тут "музыкант" будет нужен, т.к. там будет факт "Работа" и должность "музыкант". --Bocharov (обсуждение) 01:24, 27 ноября 2015 (MSK)

    Площадь у памятника Юрию Долгорукому

    Ммммм... Вот реальный пример:


    Пример


    ... занимать площадь у памятника Юрию Долгорукому ещё с ...
    Спаны:
    • Юрию — name
    • Долгорукому — surname
    Упоминания:
  • Юрию + Долгорукому — Person
  • В общем-то, это совершенно конкретная локация, но как её верно разметить? Пока понимаю только как ФИО разметить. Andrey Kruglov (обсуждение) 01:20, 26 ноября 2015 (MSK)

    памятник - loc_descr, Юрию - name, Долгорукому - surname, упоминания: Person (ты всё правильно сделал) и Location (все три спана). --Bocharov (обсуждение) 01:24, 27 ноября 2015 (MSK)

    Нехорошо на один спан вешать два типа?

    Юрий Долгорукий -- здесь Юрий это имя. А вот Долгорукий -- это толи чисто прозвище (никнейм по-нашему), толи и прозвище и фамилия. Интерфейс разметки затрещал, но дал навесить на Долгорукий и никнейм и фамилию.

    Ставь оба. Это ок. --Bocharov (обсуждение) 01:24, 27 ноября 2015 (MSK)

    Насколько это правильно с точки зрения интерфейса? (Баг, фича?)

    Насколько это плохо с точки зрения разметки? Есть ли ещё случаи, когда слово имеет два типа одновременно?

    Это ок. Были в других версиях инструкции. Специально не выключали для таких случаях. --Bocharov (обсуждение) 01:24, 27 ноября 2015 (MSK)

    Насколько плохо, если в случаях неочевидных (Лок или ЛокОрг) я тупо буду набрасывать сразу оба варианта, а там модератор умный, пусть сам лишнюю снимет? (Вопрос не праздный, а шибко практический. Пощупать бы интерфейс модератора разметки NER, чтобы кожей почувствовать, каково оно. Согласен на скриншот хотя бы)

    У типов упоминания не делали множественные типы. Интерфейса модератора пока нет. --Bocharov (обсуждение) 01:24, 27 ноября 2015 (MSK)