Nermanual/2/model

Материал из OpenCorpora
Версия от 07:53, 24 ноября 2015; Andrey Kruglov (обсуждение | вклад) (это уже не инструкция, это документ, описывающий принципы, модель)
(разн.) ← Предыдущая версия | Текущая версия (разн.) | Следующая версия → (разн.)
Перейти к навигации Перейти к поиску

Эта статья объясняет как устроена разметка сущностей и фактов, и зачем это нужно. Инструкция по разметке находится здесь.

Принципы разметки

Это инструкция по ручной разметке корпуса для оценки результатов соревнования FactRuEval 2016. В рамках соревнования планируется провести три дорожки: выделение именованных сущностей, выделение именованных сущностей с атрибутами и извлечение фактов. Подробнее о дорожках см. первое информационное письмо. Корпус необходимо разметить таким образом, чтобы его можно было использовать для автоматической оценки результатов во всех трёх дорожках при помощи программы-компаратора. Этим продиктованы описанные ниже особенности разметки.

Разметка состоит из четырёх уровней: на первых двух отмечаются сущности и их типы, на третьем - отношения кореференции, а на четвёртом сущности включаются в состав фактов (см. ниже "Концептуальная модель разметки"). Разметка сущностей (первые два уровня) будет использоваться для оценки работы систем извлечения именованных сущностей в первых двух дорожках соревнования. Для оценки систем извлечения фактов будут использоваться все четыре уровня разметки. Инструкция в нынешнем состоянии описывает только разметку сущностей.

Дорожки в FactRuEval 2016 в некоторых случаях допускают несколько правильных и частично правильных вариантов разметки. В тех случаях, где это необходимо, разметка оценочного корпуса должна включать эти несколько вариантов выделения одних и тех же объектов. Конкретные правила описаны ниже для каждого типа сущностей.

Корпус разделён на две части: демонстрационная и тестовая. Обе части размечаются одновременно по одним правилам.

Концептуальная модель разметки

Это модель разметки присутствует только в ручной разметке корпуса, предназначенного для автоматической оценки результатов работы систем участников соревнования. Сами результаты будут приниматься в упрощённой модели разметки. Программа-компаратор будет сравнивать упрощённую разметку участников соревнования с эталоном, размеченным по описанной ниже модели.

1-ый уровень: типизированные спаны

Типизированный спан - это непрерывная цепочка слов в тексте, имеющая один или несколько из заранее определённых типов. Для выделения спана нужно последовательно щёлкнуть мышью на каждое из слов. Щелчок мышью на каждом из слов приводит к его выделению. После того, как все слова будут выделены, во всплывающей панели нужно выбрать тип спана. После выбора типа спан создаётся и попадает в таблицу спанов, в которой можно изменить его тип или удалить спан. Наведение курсора мыши на спан в таблице приводит к подсветке его в тексте абзаца. У спанов нет других атрибутов, кроме типа. Возможны следующие типы спанов:

  • Для персон
    • surname (фамилия)
    • name (имя)
    • patronymic (отчество)
    • nickname (ник, прозвище)
  • Для организаций
    • org_name (название)
    • org_descr (дескриптор)
  • Для локаций
    • loc_name (название)
    • loc_descr (дескриптор)
  • Другие
    • job (должность, род занятий)

Отделение названий от дескрипторов позволяет удобным образом размечать случаи неконтактного употребления дескриптора, а также дескриптора внутри названия объекта.

2-ой уровень: упоминания объектов

Упоминание объекта создаётся каждый раз, когда в тексте встречается название этого объекта. Если в тексте объект Х упоминается несколько раз, то каждый раз нужно создать новое упоминание. Одно упоминание объекта может включать в себя несколько спанов, относящихся к данному объекту (например, спан name и спан surname для упоминания "Иван Петров"). Все спаны, относящиеся к одному упоминанию должны быть из одного предложения (это правило можно нарушить каких-то очень нестандартных случаях, которых мы пока не встретили).

Для выделения упоминания объекта нужно в таблице спанов щёлкнуть мышью на спаны, которые должны войти в новое упоминание объекта. При этом строчки таблицы со спанами изменят цвет на розовый и появится панель со списком существующих типов упоминаний объектов. После этого нужно выбрать один из этих типов. Возможны следующие типы упоминаний:

  • Person (персона)
  • Location (локация)
  • LocOrg (локация в организационном контексте)
  • Org (организация)

Для персон одно упоминание обычно включает в себя спан с фамилией и спан с именем, но может состоять и из двух имён и двух фамилий или любого другого сочетания спанов (см. пример "Рауль Модесто Кастро Рус"). Запись имени или названия объекта латиницей в скобках размечается как отдельное упоминание.

Пример "Рауль Модесто Кастро Рус"

Несколько упоминаний могут иметь общие спаны. Чаще всего это происходит при разметке сочинения, где два упоминания объекта имеют общий дескриптор или упоминаются два человека, имеющие общую фамилию (см. пример "Фидель и Рауль Кастро").

Пример "Фидель и Рауль Кастро"

Для упоминаний указывается их нормализованное написание. С точки зрения интерфейса разметки это должно происходить одновременно с разметкой кореференции. Т.е. в данный момент мы этого не делаем.

3-ий уровень: кореференция

Уровень кореференции не участвует ни в одной дорожке сам по себе. Он введён для того, чтобы не накладывать дополнительных ограничений на технологию извлечения фактов, которую используют участники соревнования. С его помощью разметка фактов отделена от конкретного способа их выражения в тексте: отношение между объектами может быть описано одним предложением, несколькими предложениями или даже может логически вытекать из текста, не будучи сформулировано явно.

Разметка кореференции состоит в том, чтобы объединить в группу несколько упоминаний объектов, которым соответствует один референт. Такая группа называется идентифицированным объектом. Каждой группе может быть сопоставлен идентификатор объекта во внешней базе данных (wikidata).

Интерфейс разметки третьего уровня в данный момент находится в разработке.

4-ый уровень: факты

Факт - это отношение между несколькими идентифицированными объектами, упомянутыми в тексте. Нужно выделять только те факты, о которых тем или иным образом явно написано в тексте. У каждого факта есть тип, который определяет перечень полей факта. У каждого поля есть название и список допустимых типов объектов, которыми поле может быть заполнено. Значением поля является массив идентифицированных объектов.

Интерфейс разметки фактов в данный момент находится в разработке.