Nermanual/2

Материал из OpenCorpora
Перейти к навигации Перейти к поиску

Инструкция по разметке сущностей для Dialogue Evaluation 2016

Подробное описание того, как устроена разметка, находится на странице Концептуальная модель разметки. Чтобы начать размечать, читать её не обязательно.

Если после прочтения инструкции у вас остались вопросы или появились новые, задайте их на странице обсуждения инструкции.

Использование интерфейса разметки

Интерфейс разметки сущностей находится по адресу http://opencorpora.org/ner.php. На его главной странице находится список открытых для разметки документов.

Doclist.png

Документ открыт до тех пор, пока его не разметят полностью 4 участника. После этого он перестаёт отображаться в очереди на разметку, а вместо него добавляется новый неразмеченный документ. Для того, чтобы начать размечать документ нужно нажать кнопку "Размечать" или кнопку "Продолжить", если вы уже что-то в этом документе разметили.

Ner common 01.png

Минимальной единицей разметки является абзац. Это значит, что после того, как участник выбрал абзац и начал его размечать, этот абзац закрепляется за этим участником. Один и тот же абзац одновременно могут размечать четыре участника. Разметка каждого из них попадёт к модератору. Не обязательно завершать разметку сразу. К ней можно вернуться в любое время. Однако, не стоит задерживаться надолго. Постарайтесь справиться с выбранными абзацами за несколько дней.

Как начать размечать?

Для того, чтобы начать размечать абзац нужно щёлкнуть мышью в любом месте этого абзаца. Если абзац доступен для разметки, его фон сменит цвет на жёлтый. Абзацы на сером фоне недоступны для разметки (их уже разметили). Справа от абзаца находятся зоны (закладки, табы) спанов и абзацев.

Как закончить размечать сущности в абзаце?

Для того, чтобы закончить разметку и передать её модератору, нужно нажать кнопку "Закончить разметку абзаца".

Будьте внимательны: после нажатия на эту кнопку вернуться к разметке этого абзаца будет нельзя. Поэтому мы просим нажимать на неё только тогда, когда вы уверены в том, что сделали всё необходимое.

Как выделить сущность?

Вначале выделите спаны

Спан - это непрерывная цепочка слов в тексте.

Выделение спанов происходит одинарным щелчком мыши на каждом слове, которое должно войти в спан. Чтобы отменить выделение, нужно ещё раз щёлкнуть на каждом из выделенных слов или в любом другом месте абзаца (тогда выделится слово в другом месте).

Потом объедините спаны в упоминания объектов

Упоминание объекта - это один или несколько спанов, обозначающих один объект. Примеры:


Пример


По инициативе итальянской стороны Виторио Сандали встретился с ...
Спаны:
  • Виторио — name
  • Сандали — surname
Упоминания:
  • Виторио+ Сандали — Person
  • Да, один и тот же спан может входить в несколько разных упоминаний:

    Пример


    Невский и Литейный проспекты окончательно будут ...
    Спаны:
    • Невский — loc_name
    • Литейный — loc_name
    • проспекты — loc_descr
    Упоминания:
  • Невский + проспекты — Location
  • Литейный + проспекты — Location
  • Тот факт, что тут два раза упоминается один и тот же объект в данный момент мы никак не отмечаем:


    Пример


    Вильма Эспин ( Vilma Espin ) ...
    Спаны:
    • Вильма — name
    • Эспин — surname
    • Vilma — name
    • Espin — surname
    Упоминания:
  • Вильма + Эспин — Person
  • Vilma + Espin — Person
  • Выделение упоминаний объектов происходит одинарным щелчком мыши на каждом спане (в таблице спанов, а не в тексте), который должен войти в состав упоминания.

    Упоминание объекта может состоять из любого количества спанов. Эти спаны не обязательно должны стоять рядом (см. выше пример про "Невский проспект").

    Все созданные спаны, упоминания объектов, изменения типов спанов и упоминаний сохраняются в базу сразу после создания. Не нужно ничего делать дополнительно для того, чтобы они не потерялись.

    Вот это видео показывает как пользоваться интерфейсом для выделения спанов и объединения их в сущности.

    Как удалить неверно выделенную сущность?

    Вначале удалите упоминание объекта (нажмите крестик слева от упоминания в таблице упоминаний). Потом удалите спаны, которые входили в упоминание объекта (тоже крестиком, только в таблице спанов).

    На момент написания инструкции результат удаления спана не отображался в таблице спанов (спан оставался). Для того, чтобы увидеть, что спан, действительно, удалился, нужно перезагрузить страницу. Однажды эта проблема исправится ;)

    Инструкции по разметке сущностей

    Персоны (упоминания объектов типа Person)

    Необходимо выделить отдельные спаны для фамилии (surname), имени (name), отчества (patronymic) и ника (nickname). После этого нужно объединить их в одно упоминание объекта с типом Person.


    • Александр Пушкин
      • "Александр" - name
      • "Пушкин" - surname
        • "Александр" + "Пушкин" - Person


    Любой набор спанов перечисленных типов достаточен для создания упоминания при условии, что в тексте имеется ввиду один референт, т.е. один конкретный человек или вымышленный персонаж.


    • Эрнесто Че Гевара
      • "Эрнесто" - name
      • "Че" - nickname
      • "Гевара" - surname
        • "Эрнесто" + "Че" + "Гевара" - Person


    В случае, если имя употреблено безотносительно конкретного референта (например: "В Воткинске новорождённых девочек родители очень редко именуют Татьянами") нужно выделить имя, но не нужно создавать упоминание объекта, т.к. в тексте речь идёт не о конкретном объекте, а только об имени.

    Инициалы нужно выделять обычными спанами типа name и patronymic. Точки, стоящие после инициалов, не нужно включать в эти спаны.


    • В. И. Ленин
      • "В" - name
      • "И" - patronymic
      • "Ленин" - surname
        • "В" + "И" + "Ленин" - Person


    Для персон не нужно отмечать дескриптор.

    Цепочки должность + компания ("директор Лукойл") или должность + локация ("президент РФ") не нужно размечать как Person. Локации и компании выделяются отдельно (см. ниже).

    Должности и виды занятий выделяются спанами типа job. Для спанов типа job не нужно создавать упоминаний. Кроме этого, не нужно включать спаны типа job в упоминания объектов типа Person. Нереферентное употребление должностей ("депутаты", "госслужащие") не нужно размечать.


    • президент РФ
      • "президент" - job
      • "РФ" - loc_name
        • "РФ" - упоминание объекта типа LocOrg (см. подробности ниже)


    • заместитель директора Газпрома
      • "заместитель директора" - job
      • "Газпрома" - org_name
        • "Газпрома" - упоминание объекта типа Org (см. подробности ниже)


    • министр экономики Алексей Улюкаев
      • "министр экономики" - job
      • "Алексей" - name
      • "Улюкаев" - surname
        • "Алексей" + "Улюкаев" - упоминание объекта типа Person


    • диджей Грув
      • "диджей" - job
      • "Грув" - nickname
        • "Грув" - упоминание объекта типа Person


    • митрополит Кирилл
      • "митрополит" - job
      • "Кирилл" - name
        • "Кирилл" - упоминание объекта типа Person


    Неочевидные случаи

    В тексте упоминается группа людей, имеющих общую часть имени. Например: "братья Кастро". В этом случае нужно разметить спан с фамилией. Упоминание создавать не нужно.

    Организации (упоминания объектов типа Org)

    Как организацию нужно размечать любую сущность, которая может быть местом работы человека или в ней можно состоять в качестве члена.

    Отдельными спанами размечаются названия организации (org_name) и её дескриптор (org_descr). Дескриптором мы называем слово ("компания", "библиотека", "комитет") или минимальное имеющее смысл словосочетание ("вооружённые силы", "совет директоров"), обозначающие родовое понятие.


    • Новый скандал вокруг дела Викиликс поднялся после...
      • "Викиликс" - org_name
        • "Викиликс" - упоминание объекта типа Org


    • Газета " Ведомости " пишет, что...
      • "Газета" - org_descr
      • "Ведомости" - org_name
        • "Газета" + "Ведомости" - упоминание объекта типа Org

    Обратите внимание: кавычки вокруг слова "Ведомости" являются отдельными токенами и не входят в спан org_name (на них не нужно кликать при выделении спана).


    • в социальной сети Facebook
      • "социальной сети" - org_descr
      • "Facebook" - org_name
        • "социальной сети" + "Facebook" - упоминание объекта типа Org


    Спаном org_name нужно отмечать:

    • название организации, являющееся именем собственным (Wikileaks, Ведомости, Elevation Partners). Если название заключено в кавычки, то спан org_name не должен их включать.
    • сокращённое название организации (ICANN, РБК, МВД, КПРФ)
    • название организации, включающее дескриптор и уточняющие слова (международная организация ICANN, парламентская фракция КПРФ, российский фонд DST).

    Спаном org_descr нужно отмечать:

    • тип юридического лица (ООО, ЗАО, РайПО)
    • непосредственно родовое понятие (компания, газета, университет)

    Выделение нескольких спанов org_name, входящих в одно упоминание организации, нужно для того, чтобы оба правильных варианта названия организации могли бы быть засчитаны при автоматической оценке.

    Org with extra words.png


    • японский МИД
      • "МИД" - org_name
      • "японский МИД" - org_name
        • "МИД" + "японский МИД" - упоминание объекта типа Org


    Оценочные уточняющие слова не нужно включать в спан org_name. Например, в цепочке "такой выгодный Facebook" нужно разметить спаном org_name только слово Facebook. Слова "такой" и "выгодный" не нужно размечать.

    Если кроме дескриптора и имени собственного в названии организации нет других слов, то делать дополнительный спан org_name, включающий дескриптор и название организации не нужно (см. пример "организация ICM Registry").

    Org without extra words.png

    Если название организации встретилось без дескриптора и без уточняющих слов, то нужно отметить только его спаном org_name и создать упоминание объекта типа Org из одного этого спана.

    Org without descr small.png

    Название государственных организаций обычно состоит из указания на направление деятельности (совет планирования), сферу ответственности (министерство образования), место в структуре (центральный комитет) и т.д.. Эти названия не похожи на имена собственные. Тем не менее их нужно размечать именно как имена (org_name), а не как дескрипторы (org_descr). Как дескриптор, в приведённых выше примерах, нужно отметить слова "совет", "министерство" и "комитет".

    Неочевидные случаи

    Вложенные организации

    В цепочке названий "вложенных" друг в друга организаций ("отдел А департамента Б компании В"), спанами нужно отмечать отдельно названия каждой организации ("отдел А" "департамента Б" "компании В"). Упоминания нужно создать для каждой из вложенных организаций, включая все вышестоящие, т.е. в приведённом примере должно получиться три упоминания:

    • Org: [отдел А] [департамента Б] [компании В]
    • Org: [департамента Б] [компании В]
    • Org: [компании В].

    Создавать отдельные упоминания из спанов [отдел А] и [департамента Б] не нужно, т.к. они уже включены в перечисленные выше упоминания.

    Ещё один пример:

    Orginorg.png


    • МИД Японии
      • "МИД" - org_name
      • "Японии" - loc_name
        • "Японии" - упоминание объекта типа LocOrg (см. ниже про локации в организационном контексте)
        • "МИД" + "Японии" - упоминание объекта типа Org


    Организации без имени

    Если название организации не указано, то упоминание организации может состоять из одного или нескольких дескрипторов: "родился в семье владельца сахарной плантации Анхеля Кастро-и-Аргиса" - цепочки "плантации" и "сахарной плантации" нужно разметить как дескрипторы организации и объединить в упоминание типа Org. Это неименованная сущность, которая потом может быть включена в состав факта.

    Аналогичным образом, в названиях государственных организаций или частей государственной администрации, в которых единственной частью названия является дескриптор, нужно размечать только его. Например, в цепочке "правительство РФ" нужно выделить org_descr "правительство" и loc "РФ", после чего нужно создать упоминание LocOrg, состоящее из спана [РФ] и упоминание Org, состоящее из двух спанов [правительство] и [РФ].

    Организации без дескриптора

    Примеры: московского « Центра », ленинградского « Телевизора »

    Спаны: org_name( Центра ), org_name( московского « Центра » )

    Упоминания:

    • Org [ org_name(Центра), org_name(московского «Центра») ]

    Таким образом, оба варианта названия организации (и краткий, и расширенный) могут быть признаны правильными в автоматической разметке.

    Организации по местоположению

    Примеры: Университет Лос-Анджелеса.

    Спаны: loc( Лос-Анджелеса ), org_descr( Университет ), org_name( Университет Лос-Анджелеса )

    Упоминания:

    • Loc [ loc(Лос-Анджелеса) ]
    • Org [ loc(Лос-Анджелеса), org_descr(Университет), org_name(Университет Лос-Анджелеса) ]

    Случай, когда название и дескриптор совпадают

    «Политическое бюро Национального фронта на собрании в понедельник, 16 мая 2011 года, единогласно поддержало кандидатуру своего председателя Марин Ле Пен на выборах президента Республики».

    Слово Республика с большой буквы является синонимом полного названия "Французская республика" и употребляется как имя собственное (La République, в смысле Та Самая; для РФ такой синонимии нет). Правильно будет разметить его одновременно тегами org_desc и org_name.

    Локации (упоминания объектов типа Loc и LocOrg)

    В качестве локаций нужно размечать сущности, указывающие на местоположение в пространстве. Сюда могут входить географические объекты, названия городов, стран, регионов, природных объектов, построек, объектов на поверхности других планет, астрономических и вымышленных объектов.

    Не нужно выделять как локации прилагательные, указывающие на принадлежность или отношение к географическому объекту ("японский", "российский", "московский"). Такие прилагательные нужно включить в состав спана loc_name.


    • в кубинской провинции Ориенте
      • "Ориенте" - loc_name
      • "провинции" - loc_descr
      • "кубинской провинции Ориенте" - loc_name
        • "Ориенте" + "провинции" + "кубинской провинции Ориенте" - упоминание объекта типа Loc


    Не нужно выделять как локации названия интернет-сайтов, социальных сетей и других сервисов.

    У локаций может быть дескриптор. В качестве дескриптора выделяется слово или словосочетание, обозначающее родовое понятие.

    Локации в организационном контексте

    Названия стран и городов часто употребляются в контексте, подразумевающем, что речь идёт об организации, управляющей указанной территорией. Это называется употреблением в организационном контексте.

    Организационными контекстами являются, например, следующие:

    • указание должности: "президент РФ"
    • указание "вложенной" организации: "коммунистическая партия Кубы", "правительство РФ", "власти Украины"
    • употребление в качестве субъекта действия: "Франция отмечает 1 мая", "Франция подписала мирный договор" (сравните: "Франция расположена в Европе" - это не организационный контекст)

    Организационными контекстами не являются:

    • указание направления движения в пространстве: "транзит голубого топлива в Европу"
    • указание местоположения: "родился в кубинской провинции Ориенте"

    Упоминания локаций в организационном контексте должны иметь тип LocOrg.

    Неочевидные случаи

    стадион им. Ленина

    В таких случаях нужно выделить спан с фамилией (surname "Ленина"), спаны с названиями (loc_name "им. Ленина", loc_name "стадион им. Ленина") и спан с дескриптором (loc_descr "стадион"). Нужно создать упоминание для персоны, содержащее только спан с фамилией, и упоминание для локации, включающее все остальные спаны.