Nermanual/2: различия между версиями

Материал из OpenCorpora
Перейти к навигации Перейти к поиску
м (Отмена правки 44918, сделанной участником Bocharov (обс.))
м (GranD переименовал страницу Инструкция по разметке сущностей для Dialogue Evaluation 2016 в Nermanual/2: чтобы работали ссылки на сайте)
(нет различий)

Версия от 08:11, 9 ноября 2015

Инструкция по разметке сущностей для Dialogue Evaluation 2016

Принципы разметки

Это инструкция по ручной разметке корпуса для оценки результатов соревнования FactRuEval 2016. В рамках соревнования планируется провести три дорожки: выделение именованных сущностей, выделение именованных сущностей с атрибутами и извлечение фактов. Подробнее о дорожках см. первое информационное письмо. Корпус необходимо разметить таким образом, чтобы его можно было использовать для автоматической оценки результатов во всех трёх дорожках при помощи программы-компаратора. Этим продиктованы описанные ниже особенности разметки.

Разметка состоит из четырёх уровней: на первых двух отмечаются сущности и их типы, на третьем - отношения кореференции, а на четвёртом сущности включаются в состав фактов (см. ниже "Концептуальная модель разметки"). Разметка сущностей (первые два уровня) будет использоваться для оценки работы систем извлечения именованных сущностей в первых двух дорожках соревнования. Для оценки систем извлечения фактов будут использоваться все четыре уровня разметки. Инструкция в нынешнем состоянии описывает только разметку сущностей.

Дорожки в FactRuEval 2016 в некоторых случаях допускают несколько правильных и частично правильных вариантов разметки. В тех случаях, где это необходимо, разметка оценочного корпуса должна включать эти несколько вариантов выделения одних и тех же объектов. Конкретные правила описаны ниже для каждого типа сущностей.

Корпус разделён на две части: демонстрационная и тестовая. Обе части размечаются одновременно по одним правилам.

Концептуальная модель разметки

Это модель разметки присутствует только в ручной разметке корпуса, предназначенного для автоматической оценки результаты работы систем участников соревнования. Сами результаты будут приниматься в упрощённой модели разметки. Программа-компаратор будет оценивать упрощённую разметку участников соревнования с эталоном, размеченным по описанной ниже модели.

1-ый уровень: типизированные спаны

Типизированный спан - это непрерывная цепочка слов в тексте, имеющая один или несколько из заранее определённых типов. Для выделения спана нужно последовательно щёлкнуть мышью на каждое из слов. Щелчок мышью на каждом и слов приводит к его выделению. После того, как все слова будут выделены, во всплывающей панели нужно выбрать тип спана. После выбора типа спан создаётся и попадает в таблицу спанов, в которой можно изменить его тип или удалить спан. Наведение курсора мыши на спан в таблице приводит к подсветке его в тексте абзаца. У спанов нет других атрибутов кроме типа. Возможны следующие типы спанов:

  • Для персон
    • surname (фамилия)
    • name (имя)
    • patronymic (отчество)
    • nickname (ник, прозвище)
  • Для организаций
    • org_name (название)
    • org_descr (дескриптор)
  • Для локаций
    • loc_name (название)
    • loc_descr (дескриптор)
  • Другие
    • job (должность, род занятий)

Отделение названий от дескрипторов позволяет удобным образом размечать случаи неконтактного употребления дескриптора, а также дескриптора внутри названия объекта.

2-ой уровень: упоминания объектов

Упоминания включают в себя несколько спанов, относящихся к одному объекту. Для выделения упоминания нужно в таблице спанов щёлкнуть мышью на спаны, которые должны войти в упоминание, после чего нужно выбрать тип упоминания объекта. Возможны следующие типы:

  • Person (персона)
  • Location (локация)
  • LocOrg (локация в организационном контексте)
  • Org (организация)

Для персон одно упоминание обычно включает в себя спан с фамилией и спан с именем, но может состоять и из двух имён и двух фамилий или любого другого сочетания спанов (см. пример "Рауль Модесто Кастро Рус"). Запись имени или названия объекта латиницей в скобках размечается как отдельное упоминание.

Пример "Рауль Модесто Кастро Рус"

Несколько упоминаний могут иметь общие спаны. Чаще всего это происходит при разметке сочинения, где два упоминания объекта имеют общий дескриптор или упоминаются два человека имеющие общую фамилию (см. пример "Фидель и Рауль Кастро").

Пример "Фидель и Рауль Кастро"

Для упоминаний указывается их нормализованное написание. С точки зрения интерфейса разметки это должно происходить одновременно с разметкой кореференции. Т.е. в данный момент мы этого не делаем.

3-ий уровень: кореференция

Уровень кореференции не участвует ни в одной дорожке сам по себе. Он введён для того, чтобы не накладывать дополнительных ограничений на технологию извлечения фактов, которую используют участники соревнования. С его помощью разметка фактов отделена от конкретного способа их выражения в тексте: отношение между объектами может быть описано одним предложением, несколькими предложениями или даже может логически вытекать из текста, не будучи сформулировано явно.

Разметка кореференции состоит в том, чтобы объединить в группу несколько упоминаний объектов, которым соответствует один референт. Такая группа называется идентифицированным объектом. Каждой группе может быть сопоставлен идентификатор объекта во внешней базе данных (wikidata).

Интерфейс разметки третьего уровня в данный момент находится в разработке.

4-ый уровень: факты

Факт - это отношение между несколькими идентифицированными объектами, упомянутыми в тексте. Нужно выделять только те факты, о которых тем или иным образом явно написано в тексте. У каждого факта есть тип, который определяет перечень полей факта. У каждого поля есть название и список допустимых типов объектов, которыми поле может быть заполнено. Значением поля является массив идентифицированных объектов.

Интерфейс разметки фактов в данный момент находится в разработке.

Инструкции по разметке (1ый и 2ой уровни)

Person

Необходимо выделить отдельны спаны для фамилии, имени, отчества и ника. После этого нужно объединить их в одной упоминание объекта с типом Person. Любой набор спанов указанных типов достаточен для создания упоминания при условии, что в тексте имеется ввиду один референт: конкретный человек или вымышленный персонаж.

В случае, если имя употреблено безотносительно конкретного референта (например: "В Воткинске новорождённых девочек родители очень редко именуют Татьянами") нужно выделить имя, но не нужно создавать упоминание объекта, т.к. в тексте речь идёт не о конкретном объекте, а только об имени.

Для персон не нужно отмечать дескриптор.

Неочевидные случаи

В тексте упоминается группа людей, имеющих общую часть имени. Например: "братья Кастро". В этом случае нужно разметить спан с фамилией. Упоминание создавать не нужно.

Org

Как организацию нужно размечать любую сущность, которая может быть местом работы человека или в ней можно состоять в качестве члена. Отдельными спанами размечаются названия организации и её дескриптор. Дескриптором является слово ("компания", "библиотека", "комитет") или минимальное имеющее смысл словосочетание ("вооружённые силы", "совет директоров"), обозначающие родовое понятие.

Название государственных организаций обычно состоит из указания на направление деятельности (совет планирования), сферу ответственности (министерство образования), место в структуре (центральный комитет) и т.д.. Эти названия не похожи на имена собственные. Тем не менее их нужно размечать именно как имена (org_name), а не как дескрипторы (org_descr). Как дескриптор, в приведённых выше примерах, нужно отметить слова "совет", "министерство" и "комитет".

Неочевидные случаи

Вложенные организации

В цепочке названий "вложенных" друг в друга организаций ("отдел А департамента Б компании В"), спанами нужно отмечать отдельно названия каждой организации ("отдел А" "департамента Б" "компании В"). Упоминания нужно создать для каждой из вложенных организаций, включая все вышестоящие, т.е. в приведённом примере должно получиться три упоминания:

  • Org: [отдел А] [департамента Б] [компании В]
  • Org: [департамента Б] [компании В]
  • Org: [компании В]

Ещё один пример:

Orginorg.png

Организации без имени

Если название организации не указано, то упоминание организации может состоять из одного или нескольких дескрипторов: "родился в семье владельца сахарной плантации Анхеля Кастро-и-Аргиса" - цепочки "плантации" и "сахарной плантации" нужно разметить как дескрипторы организации и объединить в упоминание типа Org. Это неименованная сущность, которая потом может быть включена в состав факта.

Минимальное и полное названия

Если к названию или дескриптору организации в тексте добавлены уточняющие слова, то нужно выделить несколько вариантов названия организации: включающие эти уточняющие слова и не включающие их. Например, в названии "международная организация ICANN" нужно выделить три спана и объединить их в одно упоминание объекта типа Org:

  • org_name: ICANN
  • org_descr: организация
  • org_name: международная организация ICANN

Это нужно для того, чтобы оба правильных варианта названия организации могли бы быть засчитаны при автоматической оценке.

Loc

В качестве локаций нужно размечать сущности, указывающие на местоположение в пространстве. Сюда могут входить географические объекты, названия городов, стран, регионов, природных объектов, построек, объектов на поверхности других планет, астрономических и вымышленных объектов.

У локаций может быть дескриптор. В качестве дескриптора выделяется слово или словосочетание, обозначающее родовое понятие. Аналогично тому, как это описано для организаций, возможна разметка локации без имени, когда упоминание будет состоять только из спана с дескриптором.

Локации в организационном контексте

Названия стран и городов часто употребляются в контексте, подразумевающем, что речь идёт об организации, управляющей указанной территорией. Это называется употреблением в организационном контексте. Организационными контекстами являются, например, следующие:

  • указание "вложенной" организации ("коммунистическая партия Кубы")
  • "Франция отмечает 1 мая", "Франция подписала мирный договор" (сравните: "Франция расположена в Европе" - это не организационный контекст)

Упоминания локаций в организационном контексте должны иметь тип LocOrg.

Неочевидные случаи

стадион им. Ленина

В таких случаях нужно выделить спан с фамилией (surname "Ленина"), спаны с названиями (loc_name "им. Ленина", loc_name "стадион им. Ленина") и спан с дескриптором (loc_descr "стадион"). Нужно создать упоминание для персоны, содержащее только спан с фамилией, и упоминание для локации, включающее все остальные спаны.