Nermanual/2
Инструкция по разметке сущностей для Dialogue Evaluation 2016
Подробное описание того, как устроена разметка, находится на странице Концептуальная модель разметки. Чтобы начать размечать, читать её не обязательно.
Если после прочтения инструкции у вас остались вопросы или появились новые, задайте их на странице обсуждения инструкции.
Использование интерфейса разметки
Интерфейс разметки сущностей находится по адресу http://opencorpora.org/ner.php. На его главной странице находится список открытых для разметки документов.
Документ открыт до тех пор, пока его не разметят полностью 4 участника. После этого он перестаёт отображаться в очереди на разметку, а вместо него добавляется новый неразмеченный документ. Для того, чтобы начать размечать документ нужно нажать кнопку "Размечать" или кнопку "Продолжить", если вы уже что-то в этом документе разметили.
Минимальной единицей разметки является абзац. Это значит, что после того, как участник выбрал абзац и начал его размечать, этот абзац закрепляется за этим участником. Один и тот же абзац одновременно могут размечать четыре участника. Разметка каждого из них попадёт к модератору. Не обязательно завершать разметку сразу. К ней можно вернуться в любое время. Однако, не стоит задерживаться надолго. Постарайтесь справиться с выбранными абзацами за несколько дней.
Как начать размечать?
Для того, чтобы начать размечать абзац нужно щёлкнуть мышью в любом месте этого абзаца. Если абзац доступен для разметки, его фон сменит цвет на жёлтый. Абзацы на сером фоне недоступны для разметки (их уже разметили). Справа от абзаца находятся зоны (закладки, табы) спанов и абзацев.
Как закончить размечать сущности в абзаце?
Для того, чтобы закончить разметку и передать её модератору, нужно нажать кнопку "Закончить разметку абзаца".
Будьте внимательны: после нажатия на эту кнопку вернуться к разметке этого абзаца будет нельзя. Поэтому мы просим нажимать на неё только тогда, когда вы уверены в том, что сделали всё необходимое.
Как выделить сущность?
Вначале выделите спаны
Спан - это непрерывная цепочка слов в тексте.
Выделение спанов происходит одинарным щелчком мыши на каждом слове, которое должно войти в спан. Чтобы отменить выделение, нужно ещё раз щёлкнуть на каждом из выделенных слов или в любом другом месте абзаца (тогда выделится слово в другом месте).
Потом объедините спаны в упоминания объектов
Упоминание объекта - это один или несколько спанов, обозначающих один объект. Примеры:
Пример
По инициативе итальянской стороны Виторио Сандали встретился с ...
Спаны:
| Упоминания:
|
Да, один и тот же спан может входить в несколько разных упоминаний:
Пример
Невский и Литейный проспекты окончательно будут ...
Спаны:
| Упоминания:
|
Тот факт, что тут два раза упоминается один и тот же объект в данный момент мы никак не отмечаем:
Пример
В 2007 году умерла Вильма Эспин ( Vilma Espin ) .
Спаны:
| Упоминания:
|
Выделение упоминаний объектов происходит одинарным щелчком мыши на каждом спане (в таблице спанов, а не в тексте), который должен войти в состав упоминания.
Упоминание объекта может состоять из любого количества спанов. Эти спаны не обязательно должны стоять рядом (см. выше пример про "Невский проспект").
Все созданные спаны, упоминания объектов, изменения типов спанов и упоминаний сохраняются в базу сразу после создания. Не нужно ничего делать дополнительно для того, чтобы они не потерялись.
Вот это видео показывает как пользоваться интерфейсом для выделения спанов и объединения их в сущности.
Как удалить неверно выделенную сущность?
Вначале удалите упоминание объекта (нажмите крестик слева от упоминания в таблице упоминаний). Потом удалите спаны, которые входили в упоминание объекта (тоже крестиком, только в таблице спанов).
На момент написания инструкции результат удаления спана не отображался в таблице спанов (спан оставался). Для того, чтобы увидеть, что спан, действительно, удалился, нужно перезагрузить страницу. Однажды эта проблема исправится ;)
Инструкции по разметке сущностей
Персоны (упоминания объектов типа Person)
Необходимо выделить отдельные спаны для фамилии (surname), имени (name), отчества (patronymic) и ника (nickname). После этого нужно объединить их в одно упоминание объекта с типом Person.
Пример
В 1817 Александр Пушкин оканчивает лицей, получает ...
Спаны:
| Упоминания:
|
Любой набор спанов перечисленных типов достаточен для создания упоминания при условии, что в тексте имеется ввиду один референт, т.е. один конкретный человек или вымышленный персонаж.
Пример
В 2013 году, году 85-летия со дня рождения Эрнесто Че Гевары, его рукописи были включены ...
Спаны:
| Упоминания:
|
В случае, если имя употреблено безотносительно конкретного референта (например: "В Воткинске новорождённых девочек родители очень редко именуют Татьянами") нужно выделить имя, но не нужно создавать упоминание объекта, т.к. в тексте речь идёт не о конкретном объекте, а только об имени.
Инициалы нужно выделять обычными спанами типа name и patronymic. Точки, стоящие после инициалов, не нужно включать в эти спаны.
Пример
... примерами из политической биографии В . И . Ленина , а заговаривая о дзен-буддизме ...
Спаны:
| Упоминания:
|
Для персон не нужно отмечать дескриптор.
Цепочки должность + компания ("директор Лукойл") или должность + локация ("президент РФ") не нужно размечать как Person. Локации и компании выделяются отдельно (см. ниже).
Должности и виды занятий выделяются спанами типа job. Для спанов типа job не нужно создавать упоминаний. Кроме этого, не нужно включать спаны типа job в упоминания объектов типа Person. Нереферентное употребление должностей ("депутаты", "госслужащие") не нужно размечать.
Пример
... президент РФ ...
Спаны:
| Упоминания:
|
Пример
... заместитель директора Газпрома ...
Спаны:
| Упоминания:
|
Пример
— отметил министр экономики Алексей Улюкаев .
Спаны:
| Упоминания:
|
Пример
Известность диджея Грува стала расти после ...
Спаны:
| Упоминания:
|
Пример
После церемонии освящения митрополит Кирилл ответил на вопросы журналистов.
Спаны:
| Упоминания:
|
Неочевидные случаи
В тексте упоминается группа людей, имеющих общую часть имени. Например: "братья Кастро". В этом случае нужно разметить спан с фамилией. Упоминание создавать не нужно.
Организации (упоминания объектов типа Org)
Как организацию нужно размечать любую сущность, которая может быть местом работы человека или в ней можно состоять в качестве члена.
Отдельными спанами размечаются названия организации (org_name) и её дескриптор (org_descr). Дескриптором мы называем слово ("компания", "библиотека", "комитет") или минимальное имеющее смысл словосочетание ("вооружённые силы", "совет директоров"), обозначающие родовое понятие.
Пример
Новый скандал вокруг дела Викиликс поднялся после ...
Спаны:
| Упоминания:
|
Пример
Газета " Ведомости " пишет, что ...
Спаны:
| Упоминания:
|
Обратите внимание: кавычки вокруг слова "Ведомости" являются отдельными токенами и не входят в спан org_name (на них не нужно кликать при выделении спана).
Пример
... в социальной сети Facebook были ...
Спаны:
| Упоминания:
|
Спаном org_name нужно отмечать:
- название организации, являющееся именем собственным (Wikileaks, Ведомости, Elevation Partners). Если название заключено в кавычки, то спан org_name не должен их включать.
- сокращённое название организации (ICANN, РБК, МВД, КПРФ)
- название организации с зависимыми от него, стоящими контактно, безоценочными (старый, выгодный - оценочные) уточняющими словами (например, указывающими на принадлежность к стране)
Пример
... японский МИД сделал заявление ...
Спаны:
| Упоминания:
|
Спаном org_descr нужно отмечать:
- тип юридического лица (ООО, ЗАО, РайПО)
- непосредственно родовое понятие (компания, газета, университет)
Пример
... связанные с запуском домена, с организацией ICM Registry ...
Спаны:
| Упоминания:
|
- родовое понятие с зависимыми от него, стоящими контактно, безоценочными (старый, выгодный - оценочные) уточняющими словами (российская компания, международный университет). Оценочные уточняющие слова не нужно включать в спаны org_name или org_descr. Например, в цепочке "такой выгодный Facebook" нужно разметить спаном org_name только слово Facebook. Слова "такой" и "выгодный" не нужно размечать.
Пример
Заведующая доменами верхнего уровня международная организация ICANN ...
Спаны:
| Упоминания:
|
Название организации, выделяемое спаном org_name должно включать в себя дескриптор, если употребление этого название без дескриптора будет неполным. Например: употребление названия "Федеральное авиационное управление" без слова "управление" выглядит странным. Употребить название "Невский" или "Тверская" без соответствующих дескрипторов вполне возможно. Поэтому правильные варианты разметки будут такие (да, второй пример не про организации, но он отражает смысл этого замечания; нужно найти аналогичный пример про организации):
Пример
Федеральное авиационное управление пояснило ...
Спаны:
| Упоминания:
|
Пример
... на Тверской площади состоялась очередная несанкционированная акция протеста ...
Спаны:
| Упоминания:
|
Если название организации встретилось без дескриптора и без уточняющих слов, то нужно отметить только его спаном org_name и создать упоминание объекта типа Org из одного этого спана.
Название государственных организаций обычно состоит из указания на направление деятельности (совет планирования), сферу ответственности (министерство образования), место в структуре (центральный комитет) и т.д.. Эти названия не похожи на имена собственные. Тем не менее их нужно размечать именно как имена (org_name), а не как дескрипторы (org_descr). Как дескриптор, в приведённых выше примерах, нужно отметить слова "совет", "министерство" и "комитет".
Неочевидные случаи
Заранее принятые решения в неочевидных случаях
- Интернет - org_name, Org
События
Названия событий (Чемпионат мира по..., концерт в честь ... и т.д.) не нужно выделять как организации, если это не очевидный организационный контекст (кто найдёт хороший пример такого контекста - тот молодец; мне пока не удалось). Очевидным организационным контекстом является, например, указание на должность ("руководитель чемпионата мира") или указание на вложенную организацию.
Если внутри названия события встретится имя человека, название организации или географическое название, то эти сущности нужно выделить как обычно.
Вложенные организации
В цепочке названий "вложенных" друг в друга организаций ("отдел А департамента Б компании В"), спанами нужно отмечать отдельно названия каждой организации ("отдел А" "департамента Б" "компании В"). Упоминания нужно создать для каждой из вложенных организаций, включая все вышестоящие, т.е. в приведённом примере должно получиться три упоминания:
- Org: [отдел А] [департамента Б] [компании В]
- Org: [департамента Б] [компании В]
- Org: [компании В].
Создавать отдельные упоминания из спанов [отдел А] и [департамента Б] не нужно, т.к. они уже включены в перечисленные выше упоминания.
Ещё один пример:
Пример
МИД Японии опубликовал ...
Спаны:
| Упоминания:
|
(см. ниже про локации в организационном контексте)
Организации без имени
Если название организации не указано, то упоминание организации может состоять из одного или нескольких дескрипторов: "родился в семье владельца сахарной плантации Анхеля Кастро-и-Аргиса" - цепочки "плантации" и "сахарной плантации" нужно разметить как дескрипторы организации и объединить в упоминание типа Org. Это неименованная сущность, которая потом может быть включена в состав факта.
Аналогичным образом, в названиях государственных организаций или частей государственной администрации, в которых единственной частью названия является дескриптор, нужно размечать только его. Например, в цепочке "правительство РФ" нужно выделить org_descr "правительство" и loc "РФ", после чего нужно создать упоминание LocOrg, состоящее из спана [РФ] и упоминание Org, состоящее из двух спанов [правительство] и [РФ].
Организации без дескриптора
Примеры: московского « Центра », ленинградского « Телевизора »
Спаны: org_name( Центра ), org_name( московского « Центра » )
Упоминания:
- Org [ org_name(Центра), org_name(московского «Центра») ]
Таким образом, оба варианта названия организации (и краткий, и расширенный) могут быть признаны правильными в автоматической разметке.
Организации по местоположению
Примеры: Университет Лос-Анджелеса.
Спаны: loc_name( Лос-Анджелеса ), org_descr( Университет )
Упоминания:
- Loc [ loc_name(Лос-Анджелеса) ]
- Org [ loc_name(Лос-Анджелеса), org_descr(Университет) ]
Случай, когда название и дескриптор совпадают
«Политическое бюро Национального фронта на собрании в понедельник, 16 мая 2011 года, единогласно поддержало кандидатуру своего председателя Марин Ле Пен на выборах президента Республики».
Слово Республика с большой буквы является синонимом полного названия "Французская республика" и употребляется как имя собственное (La République, в смысле Та Самая; для РФ такой синонимии нет). Правильно будет разметить его одновременно тегами org_desc и org_name.
Локации (упоминания объектов типа Loc и LocOrg)
В качестве локаций нужно размечать сущности, указывающие на местоположение в пространстве. Сюда могут входить географические объекты, названия городов, стран, регионов, природных объектов, построек, объектов на поверхности других планет, астрономических и вымышленных объектов.
Не нужно выделять как локации прилагательные, указывающие на принадлежность или отношение к географическому объекту ("японский", "российский", "московский"). Такие прилагательные нужно включить в состав спана loc_name.
Пример
В кубинской провинции Ориенте ...
Спаны:
| Упоминания:
|
Не нужно выделять как локации названия интернет-сайтов, социальных сетей и других сервисов.
У локаций может быть дескриптор. В качестве дескриптора выделяется слово или словосочетание, обозначающее родовое понятие.
Локации в организационном контексте
Названия стран и городов часто употребляются в контексте, подразумевающем, что речь идёт об организации, управляющей указанной территорией. Это называется употреблением в организационном контексте.
Организационными контекстами являются, например, следующие:
- указание должности: "президент РФ"
- указание "вложенной" организации: "коммунистическая партия Кубы", "правительство РФ", "власти Украины"
- употребление в качестве субъекта действия: "Франция отмечает 1 мая", "Франция подписала мирный договор" (сравните: "Франция расположена в Европе" - это не организационный контекст)
- обозначение спортивной команды ("Россия обыграла Францию в рамках чемпионата ...")
Организационными контекстами не являются:
- указание направления движения в пространстве: "транзит голубого топлива в Европу"
- указание местоположения: "родился в кубинской провинции Ориенте"
Пример:
- "Россия поставляет нефть Китаю" - слово "Китай" употреблено в организационном контексте
- "Россия поставляет нефть в Китай" - слово "Китай" употреблено в контексте местоположения (не в организационном)
Упоминания локаций в организационном контексте должны иметь тип LocOrg.
Неочевидные случаи
стадион им. Ленина
В таких случаях нужно выделить спан с фамилией (surname "Ленина"), спаны с названиями (loc_name "им. Ленина", loc_name "стадион им. Ленина") и спан с дескриптором (loc_descr "стадион"). Нужно создать упоминание для персоны, содержащее только спан с фамилией, и упоминание для локации, включающее все остальные спаны.