Nermanual/2

Материал из OpenCorpora Вики
Перейти к: навигация, поиск

Инструкция по разметке сущностей для Dialogue Evaluation 2016

Подробное описание того, как устроена разметка, находится на странице Концептуальная модель разметки. Чтобы начать размечать, читать её не обязательно.

Если после прочтения инструкции у вас остались вопросы или появились новые, задайте их на странице обсуждения инструкции.

Использование интерфейса разметки

Интерфейс разметки сущностей находится по адресу http://opencorpora.org/ner.php. На его главной странице находится список открытых для разметки документов.

Doclist.png

Документ открыт до тех пор, пока его не разметят полностью 4 участника. После этого он перестаёт отображаться в очереди на разметку, а вместо него добавляется новый неразмеченный документ. Для того, чтобы начать размечать документ нужно нажать кнопку "Размечать" или кнопку "Продолжить", если вы уже что-то в этом документе разметили.

Ner common 01.png

Минимальной единицей разметки является абзац. Это значит, что после того, как участник выбрал абзац и начал его размечать, этот абзац закрепляется за этим участником. Один и тот же абзац одновременно могут размечать четыре участника. Разметка каждого из них попадёт к модератору. Не обязательно завершать разметку сразу. К ней можно вернуться в любое время. Однако, не стоит задерживаться надолго. Постарайтесь справиться с выбранными абзацами за несколько дней.

Как начать размечать?

Для того, чтобы начать размечать абзац нужно щёлкнуть мышью в любом месте этого абзаца. Если абзац доступен для разметки, его фон сменит цвет на жёлтый. Абзацы на сером фоне недоступны для разметки (их уже разметили). Справа от абзаца находятся зоны (закладки, табы) спанов и абзацев.

Как закончить размечать сущности в абзаце?

Для того, чтобы закончить разметку и передать её модератору, нужно нажать кнопку "Закончить разметку абзаца".

Будьте внимательны: после нажатия на эту кнопку вернуться к разметке этого абзаца будет нельзя. Поэтому мы просим нажимать на неё только тогда, когда вы уверены в том, что сделали всё необходимое.

Как выделить сущность?

Вначале выделите спаны

Спан - это непрерывная цепочка слов в тексте.

Выделение спанов происходит одинарным щелчком мыши на каждом слове, которое должно войти в спан. Чтобы отменить выделение, нужно ещё раз щёлкнуть на каждом из выделенных слов или в любом другом месте абзаца (тогда выделится слово в другом месте).

Потом объедините спаны в упоминания объектов

Упоминание объекта - это один или несколько спанов, обозначающих один объект. Примеры:

Пример


По инициативе итальянской стороны Виторио Сандали встретился с ...
Спаны:
  • Виторио — name
  • Сандали — surname
Упоминания:
  • Виторио + Сандали — Person

  • Да, один и тот же спан может входить в несколько разных упоминаний:

    Пример


    Невский и Литейный проспекты окончательно будут ...
    Спаны:
    • Невский — loc_name
    • Литейный — loc_name
    • проспекты — loc_descr
    Упоминания:
  • Невский + проспекты — Location
  • Литейный + проспекты — Location
  • Тот факт, что тут два раза упоминается один и тот же объект в данный момент мы никак не отмечаем:

    Пример


    В 2007 году умерла Вильма Эспин ( Vilma Espin ) .
    Спаны:
    • Вильма — name
    • Эспин — surname
    • Vilma — name
    • Espin — surname
    Упоминания:
  • Вильма + Эспин — Person
  • Vilma + Espin — Person
  • Выделение упоминаний объектов происходит одинарным щелчком мыши на каждом спане (в таблице спанов, а не в тексте), который должен войти в состав упоминания.

    Упоминание объекта может состоять из любого количества спанов. Эти спаны не обязательно должны стоять рядом (см. выше пример про "Невский проспект").

    Все созданные спаны, упоминания объектов, изменения типов спанов и упоминаний сохраняются в базу сразу после создания. Не нужно ничего делать дополнительно для того, чтобы они не потерялись.

    Вот это видео показывает как пользоваться интерфейсом для выделения спанов и объединения их в сущности.

    Как удалить неверно выделенную сущность?

    Вначале удалите упоминание объекта (нажмите крестик слева от упоминания в таблице упоминаний). Потом удалите спаны, которые входили в упоминание объекта (тоже крестиком, только в таблице спанов).

    На момент написания инструкции результат удаления спана не отображался в таблице спанов (спан оставался). Для того, чтобы увидеть, что спан, действительно, удалился, нужно перезагрузить страницу. Однажды эта проблема исправится ;)

    Инструкции по разметке сущностей

    Персоны (упоминания объектов типа Person)

    Необходимо выделить отдельные спаны для фамилии (surname), имени (name), отчества (patronymic) и ника (nickname). После этого нужно объединить их в одно упоминание объекта с типом Person.

    Пример


    В 1817 Александр Пушкин оканчивает лицей, получает ...
    Спаны:
    • Александр — name
    • Пушкин — surname
    Упоминания:
  • Александр + Пушкин — Person

  • Любой набор спанов перечисленных типов достаточен для создания упоминания при условии, что в тексте имеется ввиду один референт, т.е. один конкретный человек или вымышленный персонаж.

    Пример


    В 2013 году, году 85-летия со дня рождения Эрнесто Че Гевары, его рукописи были включены ...
    Спаны:
    • Эрнесто — name
    • Че — nickname
    • Гевара — surname
    Упоминания:
  • Эрнесто + Че + Гевара — Person

  • В случае, если имя употреблено безотносительно конкретного референта (например: "В Воткинске новорождённых девочек родители очень редко именуют Татьянами") нужно выделить имя, но не нужно создавать упоминание объекта, т.к. в тексте речь идёт не о конкретном объекте, а только об имени.

    Инициалы нужно выделять обычными спанами типа name и patronymic. Точки, стоящие после инициалов, не нужно включать в эти спаны.


    Пример


    ... примерами из политической биографии В . И . Ленина , а заговаривая о дзен-буддизме ...
    Спаны:
    • В — name
    • И — patronymic
    • Ленин — surname
    Упоминания:
  • В + И + Ленин — Person

  • Для персон не нужно отмечать дескриптор.

    Цепочки должность + компания ("директор Лукойл") или должность + локация ("президент РФ") не нужно размечать как Person. Локации и компании выделяются отдельно (см. ниже).

    Должности и виды занятий выделяются спанами типа job. Для спанов типа job не нужно создавать упоминаний. Кроме этого, не нужно включать спаны типа job в упоминания объектов типа Person. Нереферентное употребление должностей ("депутаты", "госслужащие") не нужно размечать.


    Пример


    ... президент РФ ...
    Спаны:
    • президент — job
    • РФ — loc_name
    Упоминания:
  • РФ — LocOrg

  • Пример


    ... заместитель директора Газпрома ...
    Спаны:
    • заместитель директора — job
    • Газпрома — org_name
    Упоминания:
  • Газпрома — Org

  • Пример


    — отметил министр экономики Алексей Улюкаев .
    Спаны:
    • министр экономики — job
    • Алексей — name
    • Улюкаев — surname
    Упоминания:
  • Алексей + Улюкаев — Person

  • Пример


    Известность диджея Грува стала расти после ...
    Спаны:
    • диджея — job
    • Грув — nickname
    Упоминания:
  • Грув — Person

  • Пример


    После церемонии освящения митрополит Кирилл ответил на вопросы журналистов.
    Спаны:
    • митрополит — job
    • Кирилл — nickname
    Упоминания:
  • Кирилл — Person
  • Неочевидные случаи

    В тексте упоминается группа людей, имеющих общую часть имени. Например: "братья Кастро". В этом случае нужно разметить спан с фамилией. Упоминание создавать не нужно.

    Организации (упоминания объектов типа Org)

    Как организацию нужно размечать любую сущность, которая может быть местом работы человека или в ней можно состоять в качестве члена.

    Отдельными спанами размечаются названия организации (org_name) и её дескриптор (org_descr). Дескриптором мы называем слово ("компания", "библиотека", "комитет") или минимальное имеющее смысл словосочетание ("вооружённые силы", "совет директоров"), обозначающие родовое понятие.


    Пример


    Новый скандал вокруг дела Викиликс поднялся после ...
    Спаны:
    • Викиликс — org_name
    Упоминания:
  • Викиликс — Org

  • Пример


    Газета " Ведомости " пишет, что ...
    Спаны:
    • Газета — org_descr
    • Ведомости — org_name
    Упоминания:
  • Газета + Ведомости — Org

  • Обратите внимание: кавычки вокруг слова "Ведомости" являются отдельными токенами и не входят в спан org_name (на них не нужно кликать при выделении спана).


    Пример


    ... в социальной сети Facebook были ...
    Спаны:
    • социальной + сети — org_descr
    • Facebook — org_name
    Упоминания:
  • социальной сети + Facebook — Org

  • Спаном org_name нужно отмечать:

    • название организации, являющееся именем собственным (Wikileaks, Ведомости, Elevation Partners). Если название заключено в кавычки, то спан org_name не должен их включать.
    • сокращённое название организации (ICANN, РБК, МВД, КПРФ)
    • название организации с зависимыми от него, стоящими контактно, безоценочными (старый, выгодный - оценочные) уточняющими словами (например, указывающими на принадлежность к стране)


    Пример


    ... японский МИД сделал заявление ...
    Спаны:
    • МИД — org_name
    • японский МИД — org_name
    Упоминания:
  • МИД + японский МИД — Org

  • Спаном org_descr нужно отмечать:

    • тип юридического лица (ООО, ЗАО, РайПО)
    • непосредственно родовое понятие (компания, газета, университет)


    Пример


    ... связанные с запуском домена, с организацией ICM Registry ...
    Спаны:
    • организацией — org_descr
    • ICM Registry — org_name
    Упоминания:
  • организацией + ICM Registry — Org

    • родовое понятие с зависимыми от него, стоящими контактно, безоценочными (старый, выгодный - оценочные) уточняющими словами (российская компания, международный университет). Оценочные уточняющие слова не нужно включать в спаны org_name или org_descr. Например, в цепочке "такой выгодный Facebook" нужно разметить спаном org_name только слово Facebook. Слова "такой" и "выгодный" не нужно размечать.


    Пример


    Заведующая доменами верхнего уровня международная организация ICANN ...
    Спаны:
    • организация — org_descr
    • международная организация — org_descr
    • ICANN — org_name
    Упоминания:
  • организация + международная организация + ICANN — Org

  • Название организации, выделяемое спаном org_name должно включать в себя дескриптор, если употребление этого название без дескриптора будет неполным. Например: употребление названия "Федеральное авиационное управление" без слова "управление" выглядит странным. Употребить название "Невский" или "Тверская" без соответствующих дескрипторов вполне возможно. Поэтому правильные варианты разметки будут такие (да, второй пример не про организации, но он отражает смысл этого замечания; нужно найти аналогичный пример про организации):


    Пример


    Федеральное авиационное управление пояснило ...
    Спаны:
    • Федеральное авиационное управление — org_name
    • управление — org_descr
    Упоминания:
  • Федеральное авиационное управление + управление — Org

  • Пример


    ... на Тверской площади состоялась очередная несанкционированная акция протеста ...
    Спаны:
    • Тверской — loc_name
    • площади — loc_descr
    Упоминания:
  • Тверской + площади — Location

  • Если название организации встретилось без дескриптора и без уточняющих слов, то нужно отметить только его спаном org_name и создать упоминание объекта типа Org из одного этого спана.

    Org without descr small.png

    Название государственных организаций обычно состоит из указания на направление деятельности (совет планирования), сферу ответственности (министерство образования), место в структуре (центральный комитет) и т.д.. Эти названия не похожи на имена собственные. Тем не менее их нужно размечать именно как имена (org_name), а не как дескрипторы (org_descr). Как дескриптор, в приведённых выше примерах, нужно отметить слова "совет", "министерство" и "комитет".

    Неочевидные случаи

    Заранее принятые решения в неочевидных случаях

    • Интернет - org_name, Org

    События

    Названия событий (Чемпионат мира по..., концерт в честь ... и т.д.) не нужно выделять как организации, если это не очевидный организационный контекст (кто найдёт хороший пример такого контекста - тот молодец; мне пока не удалось). Очевидным организационным контекстом является, например, указание на должность ("руководитель чемпионата мира") или указание на вложенную организацию.

    Если внутри названия события встретится имя человека, название организации или географическое название, то эти сущности нужно выделить как обычно.

    Вложенные организации

    В цепочке названий "вложенных" друг в друга организаций ("отдел А департамента Б компании В"), спанами нужно отмечать отдельно названия каждой организации ("отдел А" "департамента Б" "компании В"). Упоминания нужно создать для каждой из вложенных организаций, включая все вышестоящие, т.е. в приведённом примере должно получиться три упоминания:

    • Org: [отдел А] [департамента Б] [компании В]
    • Org: [департамента Б] [компании В]
    • Org: [компании В].

    Создавать отдельные упоминания из спанов [отдел А] и [департамента Б] не нужно, т.к. они уже включены в перечисленные выше упоминания.

    Ещё один пример:

    Orginorg.png


    Пример


    МИД Японии опубликовал ...
    Спаны:
    • МИД — org_name
    • Японии — loc_name
    Упоминания:
  • Японии — LocOrg
  • МИД + Японии — Org
  • (см. ниже про локации в организационном контексте)

    Организации без имени

    Если название организации не указано, то упоминание организации может состоять из одного или нескольких дескрипторов: "родился в семье владельца сахарной плантации Анхеля Кастро-и-Аргиса" - цепочки "плантации" и "сахарной плантации" нужно разметить как дескрипторы организации и объединить в упоминание типа Org. Это неименованная сущность, которая потом может быть включена в состав факта.

    Аналогичным образом, в названиях государственных организаций или частей государственной администрации, в которых единственной частью названия является дескриптор, нужно размечать только его. Например, в цепочке "правительство РФ" нужно выделить org_descr "правительство" и loc "РФ", после чего нужно создать упоминание LocOrg, состоящее из спана [РФ] и упоминание Org, состоящее из двух спанов [правительство] и [РФ].

    Организации без дескриптора

    Примеры: московского « Центра », ленинградского « Телевизора »

    Спаны: org_name( Центра ), org_name( московского « Центра » )

    Упоминания:

    • Org [ org_name(Центра), org_name(московского «Центра») ]

    Таким образом, оба варианта названия организации (и краткий, и расширенный) могут быть признаны правильными в автоматической разметке.

    Организации по местоположению

    Примеры: Университет Лос-Анджелеса.

    Спаны: loc_name( Лос-Анджелеса ), org_descr( Университет )

    Упоминания:

    • Loc [ loc_name(Лос-Анджелеса) ]
    • Org [ loc_name(Лос-Анджелеса), org_descr(Университет) ]

    Случай, когда название и дескриптор совпадают

    «Политическое бюро Национального фронта на собрании в понедельник, 16 мая 2011 года, единогласно поддержало кандидатуру своего председателя Марин Ле Пен на выборах президента Республики».

    Слово Республика с большой буквы является синонимом полного названия "Французская республика" и употребляется как имя собственное (La République, в смысле Та Самая; для РФ такой синонимии нет). Правильно будет разметить его одновременно тегами org_desc и org_name.

    Локации (упоминания объектов типа Loc и LocOrg)

    В качестве локаций нужно размечать сущности, указывающие на местоположение в пространстве. Сюда могут входить географические объекты, названия городов, стран, регионов, природных объектов, построек, объектов на поверхности других планет, астрономических и вымышленных объектов.

    Не нужно выделять как локации прилагательные, указывающие на принадлежность или отношение к географическому объекту ("японский", "российский", "московский"). Такие прилагательные нужно включить в состав спана loc_name.

    Пример


    В кубинской провинции Ориенте ...
    Спаны:
    • Ориенте — loc_name
    • провинции — loc_descr
    • кубинской провинции Ориенте — loc_name
    Упоминания:
  • Ориенте + провинции + кубинской провинции Ориенте — Location
  • Не нужно выделять как локации названия интернет-сайтов, социальных сетей и других сервисов.

    У локаций может быть дескриптор. В качестве дескриптора выделяется слово или словосочетание, обозначающее родовое понятие.

    Локации в организационном контексте

    Названия стран и городов часто употребляются в контексте, подразумевающем, что речь идёт об организации, управляющей указанной территорией. Это называется употреблением в организационном контексте.

    Организационными контекстами являются, например, следующие:

    • указание должности: "президент РФ"
    • указание "вложенной" организации: "коммунистическая партия Кубы", "правительство РФ", "власти Украины"
    • употребление в качестве субъекта действия: "Франция отмечает 1 мая", "Франция подписала мирный договор" (сравните: "Франция расположена в Европе" - это не организационный контекст)
    • обозначение спортивной команды ("Россия обыграла Францию в рамках чемпионата ...")

    Организационными контекстами не являются:

    • указание направления движения в пространстве: "транзит голубого топлива в Европу"
    • указание местоположения: "родился в кубинской провинции Ориенте"

    Пример:

    • "Россия поставляет нефть Китаю" - слово "Китай" употреблено в организационном контексте
    • "Россия поставляет нефть в Китай" - слово "Китай" употреблено в контексте местоположения (не в организационном)

    Упоминания локаций в организационном контексте должны иметь тип LocOrg.

    Неочевидные случаи

    стадион им. Ленина

    В таких случаях нужно выделить спан с фамилией (surname "Ленина"), спаны с названиями (loc_name "им. Ленина", loc_name "стадион им. Ленина") и спан с дескриптором (loc_descr "стадион"). Нужно создать упоминание для персоны, содержащее только спан с фамилией, и упоминание для локации, включающее все остальные спаны.