Nermanual/2

Материал из OpenCorpora Вики
Перейти к: навигация, поиск

Инструкция по разметке сущностей для Dialogue Evaluation 2016

Если после прочтения инструкции у вас остались вопросы или появились новые, задайте их на странице обсуждения инструкции.

Принципы разметки

Это инструкция по ручной разметке корпуса для оценки результатов соревнования FactRuEval 2016. В рамках соревнования планируется провести три дорожки: выделение именованных сущностей, выделение именованных сущностей с атрибутами и извлечение фактов. Подробнее о дорожках см. первое информационное письмо. Корпус необходимо разметить таким образом, чтобы его можно было использовать для автоматической оценки результатов во всех трёх дорожках при помощи программы-компаратора. Этим продиктованы описанные ниже особенности разметки.

Разметка состоит из четырёх уровней: на первых двух отмечаются сущности и их типы, на третьем - отношения кореференции, а на четвёртом сущности включаются в состав фактов (см. ниже "Концептуальная модель разметки"). Разметка сущностей (первые два уровня) будет использоваться для оценки работы систем извлечения именованных сущностей в первых двух дорожках соревнования. Для оценки систем извлечения фактов будут использоваться все четыре уровня разметки. Инструкция в нынешнем состоянии описывает только разметку сущностей.

Дорожки в FactRuEval 2016 в некоторых случаях допускают несколько правильных и частично правильных вариантов разметки. В тех случаях, где это необходимо, разметка оценочного корпуса должна включать эти несколько вариантов выделения одних и тех же объектов. Конкретные правила описаны ниже для каждого типа сущностей.

Корпус разделён на две части: демонстрационная и тестовая. Обе части размечаются одновременно по одним правилам.

Концептуальная модель разметки

Это модель разметки присутствует только в ручной разметке корпуса, предназначенного для автоматической оценки результатов работы систем участников соревнования. Сами результаты будут приниматься в упрощённой модели разметки. Программа-компаратор будет сравнивать упрощённую разметку участников соревнования с эталоном, размеченным по описанной ниже модели.

1-ый уровень: типизированные спаны

Типизированный спан - это непрерывная цепочка слов в тексте, имеющая один или несколько из заранее определённых типов. Для выделения спана нужно последовательно щёлкнуть мышью на каждое из слов. Щелчок мышью на каждом из слов приводит к его выделению. После того, как все слова будут выделены, во всплывающей панели нужно выбрать тип спана. После выбора типа спан создаётся и попадает в таблицу спанов, в которой можно изменить его тип или удалить спан. Наведение курсора мыши на спан в таблице приводит к подсветке его в тексте абзаца. У спанов нет других атрибутов, кроме типа. Возможны следующие типы спанов:

  • Для персон
    • surname (фамилия)
    • name (имя)
    • patronymic (отчество)
    • nickname (ник, прозвище)
  • Для организаций
    • org_name (название)
    • org_descr (дескриптор)
  • Для локаций
    • loc_name (название)
    • loc_descr (дескриптор)
  • Другие
    • job (должность, род занятий)

Отделение названий от дескрипторов позволяет удобным образом размечать случаи неконтактного употребления дескриптора, а также дескриптора внутри названия объекта.

2-ой уровень: упоминания объектов

Упоминания включают в себя несколько спанов, относящихся к одному объекту. Для выделения упоминания нужно в таблице спанов щёлкнуть мышью на спаны, которые должны войти в упоминание, после чего нужно выбрать тип упоминания объекта. Возможны следующие типы:

  • Person (персона)
  • Location (локация)
  • LocOrg (локация в организационном контексте)
  • Org (организация)

Для персон одно упоминание обычно включает в себя спан с фамилией и спан с именем, но может состоять и из двух имён и двух фамилий или любого другого сочетания спанов (см. пример "Рауль Модесто Кастро Рус"). Запись имени или названия объекта латиницей в скобках размечается как отдельное упоминание.

Пример "Рауль Модесто Кастро Рус"

Несколько упоминаний могут иметь общие спаны. Чаще всего это происходит при разметке сочинения, где два упоминания объекта имеют общий дескриптор или упоминаются два человека, имеющие общую фамилию (см. пример "Фидель и Рауль Кастро").

Пример "Фидель и Рауль Кастро"

Для упоминаний указывается их нормализованное написание. С точки зрения интерфейса разметки это должно происходить одновременно с разметкой кореференции. Т.е. в данный момент мы этого не делаем.

3-ий уровень: кореференция

Уровень кореференции не участвует ни в одной дорожке сам по себе. Он введён для того, чтобы не накладывать дополнительных ограничений на технологию извлечения фактов, которую используют участники соревнования. С его помощью разметка фактов отделена от конкретного способа их выражения в тексте: отношение между объектами может быть описано одним предложением, несколькими предложениями или даже может логически вытекать из текста, не будучи сформулировано явно.

Разметка кореференции состоит в том, чтобы объединить в группу несколько упоминаний объектов, которым соответствует один референт. Такая группа называется идентифицированным объектом. Каждой группе может быть сопоставлен идентификатор объекта во внешней базе данных (wikidata).

Интерфейс разметки третьего уровня в данный момент находится в разработке.

4-ый уровень: факты

Факт - это отношение между несколькими идентифицированными объектами, упомянутыми в тексте. Нужно выделять только те факты, о которых тем или иным образом явно написано в тексте. У каждого факта есть тип, который определяет перечень полей факта. У каждого поля есть название и список допустимых типов объектов, которыми поле может быть заполнено. Значением поля является массив идентифицированных объектов.

Интерфейс разметки фактов в данный момент находится в разработке.

Использование интерфейса разметки

На главной странице разметки сущностей находится список открытых для разметки документов. Документ открыт до тех пор, пока его не разметят полностью 4 участника. После этого он перестаёт отображаться в этом списке, а вместо него добавляется новый неразмеченный документ. Для того, чтобы начать размечать документ нужно нажать кнопку "Размечать".

Минимальной единицей разметки является абзац. Это значит, что после того, как участник выбрал абзац и начал его размечать, этот абзац закрепляется за этим участником. Один и тот же абзац одновременно могут размечать четыре участника. Разметка каждого из них попадёт к модератору. Не обязательно завершать разметку сразу. К ней можно вернуться в любое время.

Для того, чтобы начать размечать абзац нужно щёлкнуть мышью в любом месте этого абзаца. Если абзац доступен для разметки, его фон сменит цвет на жёлтый. Абзацы на сером фоне недоступны для разметки (их уже разметили).

Для того, чтобы закончить разметку и передать её модератору, нужно нажать кнопку "Сохранить".После нажатия на кнопку "Сохранить" вернуться к разметке этого абзаца будет нельзя. Поэтому мы просим нажимать на неё только тогда, когда вы уверены в том, что закончили разметку.

Выделение спанов происходит одинарным щелчком мыши на каждом слове, которое должно войти в спан. Чтобы отменить выделение, нужно ещё раз щёлкнуть на каждом из выделенных слов или в любом другом месте абзаца (тогда выделится слово в другом месте).

Выделение упоминаний объектов происходит одинарным щелчком мыши на каждом спане (в таблице спанов, а не в тексте), который должен войти в состав упоминания.

Все созданные спаны, упоминания объектов, изменения типов спанов и упоминаний сохраняются в базу сразу после создания. Не нужно ничего делать дополнительно для того, чтобы они не потерялись.

Для того, чтобы удалить спан, входящий в упоминание объекта, нужно вначале удалить упоминание объекта.

На момент написания инструкции результат удаления спана не отображался в таблице спанов (спан оставался). Для того, чтобы увидеть, что спан, действительно, удалился, нужно перезагрузить страницу. Однажды эта проблема исправится ;)

Инструкции по разметке (1ый и 2ой уровни)

Person

Необходимо выделить отдельные спаны для фамилии, имени, отчества и ника. После этого нужно объединить их в одно упоминание объекта с типом Person. Любой набор спанов указанных типов достаточен для создания упоминания при условии, что в тексте имеется ввиду один референт: конкретный человек или вымышленный персонаж.

В случае, если имя употреблено безотносительно конкретного референта (например: "В Воткинске новорождённых девочек родители очень редко именуют Татьянами") нужно выделить имя, но не нужно создавать упоминание объекта, т.к. в тексте речь идёт не о конкретном объекте, а только об имени.

Для персон не нужно отмечать дескриптор.

Цепочки должность + компания ("директор Лукойл") или должность + локация ("президент РФ") не нужно размечать как Person. Локации и компании выделяются отдельно (см. ниже). Должности и виды занятий выделяются спанами типа job. Для спанов типа job не нужно создавать упоминаний. Нереферентное употребление должностей ("депутаты", "госслужащие") не нужно размечать.

Неочевидные случаи

В тексте упоминается группа людей, имеющих общую часть имени. Например: "братья Кастро". В этом случае нужно разметить спан с фамилией. Упоминание создавать не нужно.

Org

Как организацию нужно размечать любую сущность, которая может быть местом работы человека или в ней можно состоять в качестве члена. Отдельными спанами размечаются названия организации и её дескриптор. Дескриптором является слово ("компания", "библиотека", "комитет") или минимальное имеющее смысл словосочетание ("вооружённые силы", "совет директоров"), обозначающие родовое понятие.

Название государственных организаций обычно состоит из указания на направление деятельности (совет планирования), сферу ответственности (министерство образования), место в структуре (центральный комитет) и т.д.. Эти названия не похожи на имена собственные. Тем не менее их нужно размечать именно как имена (org_name), а не как дескрипторы (org_descr). Как дескриптор, в приведённых выше примерах, нужно отметить слова "совет", "министерство" и "комитет".

Неочевидные случаи

Вложенные организации

В цепочке названий "вложенных" друг в друга организаций ("отдел А департамента Б компании В"), спанами нужно отмечать отдельно названия каждой организации ("отдел А" "департамента Б" "компании В"). Упоминания нужно создать для каждой из вложенных организаций, включая все вышестоящие, т.е. в приведённом примере должно получиться три упоминания:

  • Org: [отдел А] [департамента Б] [компании В]
  • Org: [департамента Б] [компании В]
  • Org: [компании В]

Ещё один пример:

Orginorg.png

Организации без имени

Если название организации не указано, то упоминание организации может состоять из одного или нескольких дескрипторов: "родился в семье владельца сахарной плантации Анхеля Кастро-и-Аргиса" - цепочки "плантации" и "сахарной плантации" нужно разметить как дескрипторы организации и объединить в упоминание типа Org. Это неименованная сущность, которая потом может быть включена в состав факта.

Аналогичным образом, в названиях государственных организаций или частей государственной администрации, в которых единственной частью названия является дескриптор, нужно размечать только его. Например, в цепочке "правительство РФ" нужно выделить org_descr "правительство" и loc "РФ", после чего нужно создать упоминание LocOrg, состоящее из спана [РФ] и упоминание Org, состоящее из двух спанов [правительство] и [РФ].

Минимальное и полное названия

Если к названию или дескриптору организации в тексте добавлены уточняющие слова, то нужно выделить несколько вариантов названия организации: включающие эти уточняющие слова и не включающие их. Например, в названии "международная организация ICANN" нужно выделить три спана и объединить их в одно упоминание объекта типа Org:

  • org_name: ICANN
  • org_descr: организация
  • org_name: международная организация ICANN

Это нужно для того, чтобы оба правильных варианта названия организации могли бы быть засчитаны при автоматической оценке.

Loc

В качестве локаций нужно размечать сущности, указывающие на местоположение в пространстве. Сюда могут входить географические объекты, названия городов, стран, регионов, природных объектов, построек, объектов на поверхности других планет, астрономических и вымышленных объектов.

У локаций может быть дескриптор. В качестве дескриптора выделяется слово или словосочетание, обозначающее родовое понятие. Аналогично тому, как это описано для организаций, возможна разметка локации без имени, когда упоминание будет состоять только из спана с дескриптором.

Локации в организационном контексте

Названия стран и городов часто употребляются в контексте, подразумевающем, что речь идёт об организации, управляющей указанной территорией. Это называется употреблением в организационном контексте. Организационными контекстами являются, например, следующие:

  • указание "вложенной" организации ("коммунистическая партия Кубы")
  • "Франция отмечает 1 мая", "Франция подписала мирный договор" (сравните: "Франция расположена в Европе" - это не организационный контекст)

Упоминания локаций в организационном контексте должны иметь тип LocOrg.

Неочевидные случаи

стадион им. Ленина

В таких случаях нужно выделить спан с фамилией (surname "Ленина"), спаны с названиями (loc_name "им. Ленина", loc_name "стадион им. Ленина") и спан с дескриптором (loc_descr "стадион"). Нужно создать упоминание для персоны, содержащее только спан с фамилией, и упоминание для локации, включающее все остальные спаны.