Nermanual/2: различия между версиями

Материал из OpenCorpora
Перейти к навигации Перейти к поиску
м (GranD переименовал страницу Инструкция по разметке сущностей для Dialogue Evaluation 2016 в Nermanual/2: чтобы работали ссылки на сайте)
(Интернет)
 
(не показаны 82 промежуточные версии 3 участников)
Строка 1: Строка 1:
=Инструкция по разметке сущностей для Dialogue Evaluation 2016=
<span style="font-size:32px">'''Инструкция по разметке сущностей для Dialogue Evaluation 2016'''</span>


==Принципы разметки==
Подробное описание того, как устроена разметка, находится на странице [[Nermanual/2/model|Концептуальная модель разметки]]. Чтобы начать размечать, читать её не обязательно.


Это инструкция по ручной разметке корпуса для оценки результатов соревнования '''FactRuEval 2016'''. В рамках соревнования планируется провести три дорожки: выделение именованных сущностей, выделение именованных сущностей с атрибутами и извлечение фактов. Подробнее о дорожках см. [http://www.dialog-21.ru/evaluation/2016/letter/ первое информационное письмо]. Корпус необходимо разметить таким образом, чтобы его можно было использовать для автоматической оценки результатов во всех трёх дорожках при помощи программы-компаратора. Этим продиктованы описанные ниже особенности разметки.
Если после прочтения инструкции у вас остались вопросы или появились новые, задайте их на [[Обсуждение:Nermanual/2|странице обсуждения инструкции]].


Разметка состоит из четырёх уровней: на первых двух отмечаются сущности и их типы, на третьем - отношения кореференции, а на четвёртом сущности включаются в состав фактов (см. ниже "Концептуальная модель разметки"). Разметка сущностей (первые два уровня) будет использоваться для оценки работы систем извлечения именованных сущностей в первых двух дорожках соревнования. Для оценки систем извлечения фактов будут использоваться все четыре уровня разметки. Инструкция в нынешнем состоянии описывает только разметку сущностей.
=Использование интерфейса разметки=


Дорожки в '''FactRuEval 2016''' в некоторых случаях допускают несколько правильных и частично правильных вариантов разметки. В тех случаях, где это необходимо, разметка оценочного корпуса должна включать эти несколько вариантов выделения одних и тех же объектов. Конкретные правила описаны ниже для каждого типа сущностей.
Интерфейс разметки сущностей находится по адресу [http://opencorpora.org/ner.php http://opencorpora.org/ner.php]. На его главной странице находится список открытых для разметки документов.


Корпус разделён на две части: демонстрационная и тестовая. Обе части размечаются одновременно по одним правилам.
[[Файл:Doclist.png]]


==Концептуальная модель разметки==
Документ открыт до тех пор, пока его не разметят полностью 4 участника. После этого он перестаёт отображаться в очереди на разметку, а вместо него добавляется новый неразмеченный документ. Для того, чтобы начать размечать документ нужно нажать кнопку '''"Размечать"''' или кнопку '''"Продолжить"''', если вы уже что-то в этом документе разметили.


Это модель разметки присутствует только в ручной разметке корпуса, предназначенного для автоматической оценки результаты работы систем участников соревнования. Сами результаты будут приниматься в упрощённой модели разметки. Программа-компаратор будет оценивать упрощённую разметку участников соревнования с эталоном, размеченным по описанной ниже модели.
[[Файл:Ner common 01.png]]


===1-ый уровень: типизированные спаны===
Минимальной единицей разметки является абзац. Это значит, что после того, как участник выбрал абзац и начал его размечать, этот абзац закрепляется за этим участником. Один и тот же абзац одновременно могут размечать четыре участника. Разметка каждого из них попадёт к модератору. Не обязательно завершать разметку сразу. К ней можно вернуться в любое время. Однако, не стоит задерживаться надолго. Постарайтесь справиться с выбранными абзацами за несколько дней.


Типизированный спан - это '''непрерывная цепочка слов''' в тексте, имеющая один или несколько из заранее определённых типов. Для выделения спана нужно последовательно щёлкнуть мышью на каждое из слов. Щелчок мышью на каждом и слов приводит к его выделению. После того, как все слова будут выделены, во всплывающей панели нужно выбрать тип спана. После выбора типа спан создаётся и попадает в таблицу спанов, в которой можно изменить его тип или удалить спан. Наведение курсора мыши на спан в таблице приводит к подсветке его в тексте абзаца. У спанов нет других атрибутов кроме типа. Возможны следующие типы спанов:
==Как начать размечать?==
Для того, чтобы начать размечать абзац нужно '''щёлкнуть мышью в любом месте этого абзаца'''. Если абзац доступен для разметки, его фон сменит цвет на жёлтый. Абзацы на сером фоне недоступны для разметки (их уже разметили). Справа от абзаца находятся зоны (закладки, табы) спанов и абзацев.


* Для персон
==Как закончить размечать сущности в абзаце?==
** surname (фамилия)
Для того, чтобы закончить разметку и передать её модератору, нужно нажать кнопку '''"Закончить разметку абзаца"'''.
** name (имя)
** patronymic (отчество)
** nickname (ник, прозвище)
* Для организаций
** org_name (название)
** org_descr (дескриптор)
* Для локаций
** loc_name (название)
** loc_descr (дескриптор)
* Другие
** job (должность, род занятий)


Отделение названий от дескрипторов позволяет удобным образом размечать случаи неконтактного употребления дескриптора, а также дескриптора внутри названия объекта.
'''Будьте внимательны:''' после нажатия на эту кнопку вернуться к разметке этого абзаца будет нельзя. Поэтому мы просим нажимать на неё только тогда, когда вы уверены в том, что сделали всё необходимое.


===2-ой уровень: упоминания объектов===
==Как выделить сущность?==
===Вначале выделите спаны===
'''Спан''' - это непрерывная цепочка слов в тексте.


Упоминания включают в себя несколько спанов, относящихся к одному объекту. Для выделения упоминания нужно в таблице спанов щёлкнуть мышью на спаны, которые должны войти в упоминание, после чего нужно выбрать тип упоминания объекта. Возможны следующие типы:
Выделение спанов происходит '''одинарным щелчком мыши на каждом слове''', которое должно войти в спан. Чтобы отменить выделение, нужно ещё раз щёлкнуть на каждом из выделенных слов или в любом другом месте абзаца (тогда выделится слово в другом месте).


* Person (персона)
===Потом объедините спаны в упоминания объектов===
* Location (локация)
'''Упоминание объекта''' - это один или несколько спанов, обозначающих один объект.
* LocOrg (локация в организационном контексте)
Примеры:
* Org (организация)
{{ПримерЗаданияNer
|Фрагмент = {{ПримерЗадания|По  инициативе  итальянской  стороны  Виторио  Сандали  встретился  с {{КнопкаРасширенияКонтекста}} ||||10px}}
|Спаны =
* {{NerСпан|type=name|value=Виторио}}
* {{NerСпан|type=surname|value=Сандали}}
|Упоминания =
* {{NerУпоминание|type=Person|value=Виторио + Сандали}}
}}


Для персон одно упоминание обычно включает в себя спан с фамилией и спан с именем, но может состоять и из двух имён и двух фамилий или любого другого сочетания спанов (см. пример "Рауль Модесто Кастро Рус"). Запись имени или названия объекта латиницей в скобках размечается как отдельное упоминание.


[[Файл:Raul_castro_example.png|Пример "Рауль Модесто Кастро Рус"]]
Да, один и тот же спан может входить в несколько разных упоминаний:
{{ПримерЗаданияNer
|Фрагмент = {{ПримерЗадания|Невский и Литейный проспекты окончательно будут {{КнопкаРасширенияКонтекста}} ||||10px}}
|Спаны =
* {{NerСпан|type=loc_name|value=Невский}}
* {{NerСпан|type=loc_name|value=Литейный}}
* {{NerСпан|type=loc_descr|value=проспекты}}
|Упоминания =
* {{NerУпоминание|type=Location|value=Невский + проспекты}}
* {{NerУпоминание|type=Location|value=Литейный + проспекты}}
}}


Несколько упоминаний могут иметь общие спаны. Чаще всего это происходит при разметке сочинения, где два упоминания объекта имеют общий дескриптор или упоминаются два человека имеющие общую фамилию (см. пример "Фидель и Рауль Кастро").
Тот факт, что тут два раза упоминается один и тот же объект в данный момент мы никак не отмечаем:
{{ПримерЗаданияNer
|Фрагмент = {{ПримерЗадания|В  2007  году  умерла Вильма  Эспин  ( Vilma  Espin  ) . ||||10px}}
|Спаны =
* {{NerСпан|type=name|value=Вильма}}
* {{NerСпан|type=surname|value=Эспин}}
* {{NerСпан|type=name|value=Vilma}}
* {{NerСпан|type=surname|value=Espin}}
|Упоминания =
* {{NerУпоминание|type=Person|value=Вильма + Эспин}}
* {{NerУпоминание|type=Person|value=Vilma + Espin}}
}}


[[Файл:Fidel and raul example.png| Пример "Фидель и Рауль Кастро"]]
Выделение упоминаний объектов происходит '''одинарным щелчком мыши на каждом спане''' (в таблице спанов, а не в тексте), который должен войти в состав упоминания.


Для упоминаний указывается их нормализованное написание. С точки зрения интерфейса разметки это должно происходить одновременно с разметкой кореференции. Т.е. в данный момент мы этого не делаем.
Упоминание объекта может состоять из любого количества спанов. Эти спаны не обязательно должны стоять рядом (см. выше пример про "Невский проспект").


===3-ий уровень: кореференция===
Все созданные спаны, упоминания объектов, изменения типов спанов и упоминаний сохраняются в базу сразу после создания. Не нужно ничего делать дополнительно для того, чтобы они не потерялись.


Уровень кореференции не участвует ни в одной дорожке сам по себе. Он введён для того, чтобы не накладывать дополнительных ограничений на технологию извлечения фактов, которую используют участники соревнования. С его помощью разметка фактов отделена от конкретного способа их выражения в тексте: отношение между объектами может быть описано одним предложением, несколькими предложениями или даже может логически вытекать из текста, не будучи сформулировано явно.
[https://vk.com/video-29874644_171828524 Вот это видео] показывает как пользоваться интерфейсом для выделения спанов и объединения их в сущности.


Разметка кореференции состоит в том, чтобы объединить в группу несколько упоминаний объектов, которым соответствует один референт. Такая группа называется идентифицированным объектом. Каждой группе может быть сопоставлен идентификатор объекта во внешней базе данных (wikidata).
==Как удалить неверно выделенную сущность?==
Вначале удалите упоминание объекта (нажмите крестик слева от упоминания в таблице упоминаний). Потом удалите спаны, которые входили в упоминание объекта (тоже крестиком, только в таблице спанов).


Интерфейс разметки третьего уровня в данный момент находится в разработке.
На момент написания инструкции результат удаления спана не отображался в таблице спанов (спан оставался). Для того, чтобы увидеть, что спан, действительно, удалился, нужно перезагрузить страницу. Однажды эта проблема исправится ;)


===4-ый уровень: факты===
=Инструкции по разметке сущностей=


Факт - это отношение между несколькими идентифицированными объектами, упомянутыми в тексте. Нужно выделять только те факты, о которых тем или иным образом явно написано в тексте. У каждого факта есть тип, который определяет перечень полей факта. У каждого поля есть название и список допустимых типов объектов, которыми поле может быть заполнено. Значением поля является массив идентифицированных объектов.
==Персоны (упоминания объектов типа Person)==


Интерфейс разметки фактов в данный момент находится в разработке.
Необходимо выделить отдельные спаны для фамилии (surname), имени (name), отчества (patronymic) и ника (nickname). После этого нужно объединить их в одно упоминание объекта с типом Person.
{{ПримерЗаданияNer
|Фрагмент = {{ПримерЗадания|В 1817 Александр Пушкин оканчивает лицей, получает {{КнопкаРасширенияКонтекста}} ||||10px}}
|Спаны =
* {{NerСпан|type=name|value=Александр }}
* {{NerСпан|type=surname|value=Пушкин}}
|Упоминания =
* {{NerУпоминание|type=Person|value=Александр + Пушкин}}
}}


==Инструкции по разметке (1ый и 2ой уровни)==


===Person===
Любой набор спанов перечисленных типов достаточен для создания упоминания при условии, что в тексте имеется ввиду один референт, т.е. один конкретный человек или вымышленный персонаж.
{{ПримерЗаданияNer
|Фрагмент = {{ПримерЗадания|В 2013 году, году 85-летия со дня рождения Эрнесто Че Гевары, его рукописи были включены {{КнопкаРасширенияКонтекста}} ||||10px}}
|Спаны =  
* {{NerСпан|type=name|value=Эрнесто}}
* {{NerСпан|type=nickname|value=Че}}
* {{NerСпан|type=surname|value=Гевара}}
|Упоминания =
* {{NerУпоминание|type=Person|value=Эрнесто + Че + Гевара}}
}}


Необходимо выделить отдельны спаны для фамилии, имени, отчества и ника. После этого нужно объединить их в одной упоминание объекта с типом Person. Любой набор спанов указанных типов достаточен для создания упоминания при условии, что в тексте имеется ввиду один референт: конкретный человек или вымышленный персонаж.


В случае, если имя употреблено безотносительно конкретного референта (например: "В Воткинске новорождённых девочек родители очень редко именуют <span style="background-color:#D3D3D3">Татьянами</span>") нужно выделить имя, но не нужно создавать упоминание объекта, т.к. в тексте речь идёт не о конкретном объекте, а только об имени.
В случае, если имя употреблено безотносительно конкретного референта (например: "В Воткинске новорождённых девочек родители очень редко именуют <span style="background-color:#D3D3D3">Татьянами</span>") нужно выделить имя, но не нужно создавать упоминание объекта, т.к. в тексте речь идёт не о конкретном объекте, а только об имени.
Инициалы нужно выделять обычными спанами типа name и patronymic. Точки, стоящие после инициалов, не нужно включать в эти спаны.
{{ПримерЗаданияNer
|Фрагмент = {{ПримерЗадания| {{КнопкаРасширенияКонтекста}} примерами  из  политической  биографии  В . И .  Ленина ,  а  заговаривая  о  дзен-буддизме  {{КнопкаРасширенияКонтекста}} ||||10px}}
|Спаны =
* {{NerСпан|type=name|value=В}}
* {{NerСпан|type=patronymic|value=И}}
* {{NerСпан|type=surname|value=Ленин}}
|Упоминания =
* {{NerУпоминание|type=Person|value=В + И + Ленин}}
}}


Для персон не нужно отмечать дескриптор.
Для персон не нужно отмечать дескриптор.


====Неочевидные случаи====
Цепочки должность + компания ("директор Лукойл") или должность + локация ("президент РФ") не нужно размечать как Person. Локации и компании выделяются отдельно (см. ниже).
 
Должности и виды занятий выделяются спанами типа job. Для спанов типа job не нужно создавать упоминаний. Кроме этого, не нужно включать спаны типа job в упоминания объектов типа Person. Нереферентное употребление должностей ("депутаты", "госслужащие") не нужно размечать.
 
{{ПримерЗаданияNer
|Фрагмент = {{ПримерЗадания| {{КнопкаРасширенияКонтекста}} президент РФ {{КнопкаРасширенияКонтекста}} ||||10px}}
|Спаны =
* {{NerСпан|type=job|value=президент}}
* {{NerСпан|type=loc_name|value=РФ}}
|Упоминания =
* {{NerУпоминание|type=LocOrg|value=РФ}}
}}
 
{{ПримерЗаданияNer
|Фрагмент = {{ПримерЗадания| {{КнопкаРасширенияКонтекста}} заместитель директора Газпрома {{КнопкаРасширенияКонтекста}} ||||10px}}
|Спаны =
* {{NerСпан|type=job|value=заместитель директора}}
* {{NerСпан|type=org_name|value=Газпрома}}
|Упоминания =
* {{NerУпоминание|type=Org|value=Газпрома}}
}}
 
{{ПримерЗаданияNer
|Фрагмент = {{ПримерЗадания| —  отметил  министр  экономики  Алексей  Улюкаев  . ||||10px}}
|Спаны =
* {{NerСпан|type=job|value=министр экономики}}
* {{NerСпан|type=name|value=Алексей}}
* {{NerСпан|type=surname|value=Улюкаев}}
|Упоминания =
* {{NerУпоминание|type=Person|value=Алексей + Улюкаев}}
}}
 
{{ПримерЗаданияNer
|Фрагмент = {{ПримерЗадания| Известность диджея Грува стала расти после {{КнопкаРасширенияКонтекста}} ||||10px}}
|Спаны =
* {{NerСпан|type=job|value=диджея }}
* {{NerСпан|type=nickname|value=Грув}}
|Упоминания =
* {{NerУпоминание|type=Person|value=Грув}}
}}
 
{{ПримерЗаданияNer
|Фрагмент = {{ПримерЗадания| После церемонии освящения митрополит Кирилл ответил на вопросы журналистов. ||||10px}}
|Спаны =
* {{NerСпан|type=job|value=митрополит}}
* {{NerСпан|type=nickname|value=Кирилл}}
|Упоминания =
* {{NerУпоминание|type=Person|value=Кирилл}}
}}
 
===Неочевидные случаи===


В тексте упоминается группа людей, имеющих общую часть имени. Например: "братья Кастро". В этом случае нужно разметить спан с фамилией. Упоминание создавать не нужно.
В тексте упоминается группа людей, имеющих общую часть имени. Например: "братья Кастро". В этом случае нужно разметить спан с фамилией. Упоминание создавать не нужно.


===Org===
==Организации (упоминания объектов типа Org)==
 
Как организацию нужно размечать любую сущность, которая может быть '''местом работы человека''' или в ней можно '''состоять в качестве члена'''.
 
Отдельными спанами размечаются названия организации (org_name) и её дескриптор (org_descr). '''Дескриптором''' мы называем слово ("компания", "библиотека", "комитет") или минимальное имеющее смысл словосочетание ("вооружённые силы", "совет директоров"), обозначающие родовое понятие.
 
{{ПримерЗаданияNer
|Фрагмент = {{ПримерЗадания| Новый скандал вокруг дела Викиликс поднялся после {{КнопкаРасширенияКонтекста}} ||||10px}}
|Спаны =
* {{NerСпан|type=org_name|value=Викиликс}}
|Упоминания =
* {{NerУпоминание|type=Org|value=Викиликс}}
}}
 
{{ПримерЗаданияNer
|Фрагмент = {{ПримерЗадания| Газета " Ведомости " пишет, что {{КнопкаРасширенияКонтекста}} ||||10px}}
|Спаны =
* {{NerСпан|type=org_descr|value=Газета}}
* {{NerСпан|type=org_name|value=Ведомости}}
|Упоминания =
* {{NerУпоминание|type=Org|value=Газета + Ведомости}}
}}
 
 
'''Обратите внимание:''' кавычки вокруг слова "Ведомости" являются отдельными токенами и не входят в спан org_name (на них не нужно кликать при выделении спана).
 
{{ПримерЗаданияNer
|Фрагмент = {{ПримерЗадания| {{КнопкаРасширенияКонтекста}} в социальной сети Facebook были {{КнопкаРасширенияКонтекста}} ||||10px}}
|Спаны =
* {{NerСпан|type=org_descr|value=социальной + сети}}
* {{NerСпан|type=org_name|value=Facebook}}
|Упоминания =
* {{NerУпоминание|type=Org|value=социальной сети + Facebook}}
}}
 
 
Спаном org_name нужно отмечать:
 
* название организации, являющееся именем собственным (Wikileaks, Ведомости, Elevation Partners). Если название заключено в кавычки, то спан org_name не должен их включать.
* сокращённое название организации (ICANN, РБК, МВД, КПРФ)
* название организации с зависимыми от него, стоящими контактно, безоценочными (старый, выгодный - оценочные) уточняющими словами (например, указывающими на принадлежность к стране)
 
{{ПримерЗаданияNer
|Фрагмент = {{ПримерЗадания| {{КнопкаРасширенияКонтекста}} японский МИД сделал заявление {{КнопкаРасширенияКонтекста}} ||||10px}}
|Спаны =
* {{NerСпан|type=org_name|value=МИД}}
* {{NerСпан|type=org_name|value=японский МИД}}
|Упоминания =
* {{NerУпоминание|type=Org|value=МИД + японский МИД}}
}}
 
 
Спаном org_descr нужно отмечать:
 
* тип юридического лица (ООО, ЗАО, РайПО)
* непосредственно родовое понятие (компания, газета, университет)
 
{{ПримерЗаданияNer
|Фрагмент = {{ПримерЗадания| {{КнопкаРасширенияКонтекста}} связанные с запуском домена, с организацией ICM Registry {{КнопкаРасширенияКонтекста}} ||||10px}}
|Спаны =
* {{NerСпан|type=org_descr|value=организацией}}
* {{NerСпан|type=org_name|value=ICM Registry}}
|Упоминания =
* {{NerУпоминание|type=Org|value=организацией + ICM Registry}}
}}
 
 
* родовое понятие с зависимыми от него, стоящими контактно, безоценочными (старый, выгодный - оценочные) уточняющими словами (российская компания, международный университет). Оценочные уточняющие слова не нужно включать в спаны org_name или org_descr. Например, в цепочке "такой выгодный Facebook" нужно разметить спаном org_name только слово Facebook. Слова "такой" и "выгодный" не нужно размечать.
 
{{ПримерЗаданияNer
|Фрагмент = {{ПримерЗадания| Заведующая доменами верхнего уровня международная организация ICANN {{КнопкаРасширенияКонтекста}} ||||10px}}
|Спаны =
* {{NerСпан|type=org_descr|value=организация}}
* {{NerСпан|type=org_descr|value=международная организация}}
* {{NerСпан|type=org_name|value=ICANN}}
|Упоминания =
* {{NerУпоминание|type=Org|value=организация + международная организация + ICANN}}
}}
 
 
Название организации, выделяемое спаном org_name должно включать в себя дескриптор, если употребление этого название без дескриптора будет неполным. Например: употребление названия "Федеральное авиационное управление" без слова "управление" выглядит странным. Употребить название "Невский" или "Тверская" без соответствующих дескрипторов вполне возможно. Поэтому правильные варианты разметки будут такие (да, второй пример не про организации, но он отражает смысл этого замечания; нужно найти аналогичный пример про организации):
 
{{ПримерЗаданияNer
|Фрагмент = {{ПримерЗадания| Федеральное авиационное управление пояснило {{КнопкаРасширенияКонтекста}} ||||10px}}
|Спаны =
* {{NerСпан|type=org_name|value=Федеральное авиационное управление}}
* {{NerСпан|type=org_descr|value=управление}}
|Упоминания =
* {{NerУпоминание|type=Org|value=Федеральное авиационное управление + управление}}
}}
 
 
{{ПримерЗаданияNer
|Фрагмент = {{ПримерЗадания| {{КнопкаРасширенияКонтекста}} на Тверской площади состоялась очередная несанкционированная акция протеста {{КнопкаРасширенияКонтекста}} ||||10px}}
|Спаны =
* {{NerСпан|type=loc_name|value=Тверской}}
* {{NerСпан|type=loc_descr|value=площади}}
|Упоминания =
* {{NerУпоминание|type=Location|value=Тверской + площади}}
}}
 
 
Если название организации встретилось без дескриптора и без уточняющих слов, то нужно отметить только его спаном org_name и создать упоминание объекта типа Org из одного этого спана.


Как организацию нужно размечать любую сущность, которая может быть местом работы человека или в ней можно состоять в качестве члена. Отдельными спанами размечаются названия организации и её дескриптор. Дескриптором является слово ("компания", "библиотека", "комитет") или минимальное имеющее смысл словосочетание ("вооружённые силы", "совет директоров"), обозначающие родовое понятие.
[[Файл:Org without descr small.png]]


Название государственных организаций обычно состоит из указания на направление деятельности (совет планирования), сферу ответственности (министерство образования), место в структуре (центральный комитет) и т.д.. Эти названия не похожи на имена собственные. Тем не менее их нужно размечать именно как имена (org_name), а не как дескрипторы (org_descr). Как дескриптор, в приведённых выше примерах, нужно отметить слова "совет", "министерство" и "комитет".
Название государственных организаций обычно состоит из указания на направление деятельности (совет планирования), сферу ответственности (министерство образования), место в структуре (центральный комитет) и т.д.. Эти названия не похожи на имена собственные. Тем не менее их нужно размечать именно как имена (org_name), а не как дескрипторы (org_descr). Как дескриптор, в приведённых выше примерах, нужно отметить слова "совет", "министерство" и "комитет".


====Неочевидные случаи====
===Неочевидные случаи===
 
====Заранее принятые решения в неочевидных случаях====
 
* Интернет - org_name, Org
 
====События====
Названия событий (Чемпионат мира по..., концерт в честь ... и т.д.) не нужно выделять как организации, если это не очевидный организационный контекст (кто найдёт хороший пример такого контекста - тот молодец; мне пока не удалось). Очевидным организационным контекстом является, например, указание на должность ("руководитель чемпионата мира") или указание на вложенную организацию.


=====Вложенные организации=====
Если внутри названия события встретится имя человека, название организации или географическое название, то эти сущности нужно выделить как обычно.
 
====Вложенные организации====
В цепочке названий "вложенных" друг в друга организаций ("отдел А департамента Б компании В"), спанами нужно отмечать отдельно названия каждой организации ("отдел А" "департамента Б" "компании В"). Упоминания нужно создать для каждой из вложенных организаций, включая все вышестоящие, т.е. в приведённом примере должно получиться три упоминания:
В цепочке названий "вложенных" друг в друга организаций ("отдел А департамента Б компании В"), спанами нужно отмечать отдельно названия каждой организации ("отдел А" "департамента Б" "компании В"). Упоминания нужно создать для каждой из вложенных организаций, включая все вышестоящие, т.е. в приведённом примере должно получиться три упоминания:


* Org: [отдел А] [департамента Б] [компании В]
* Org: [отдел А] [департамента Б] [компании В]
* Org: [департамента Б] [компании В]
* Org: [департамента Б] [компании В]
* Org: [компании В]
* Org: [компании В].
 
Создавать отдельные упоминания из спанов [отдел А] и [департамента Б] не нужно, т.к. они уже включены в перечисленные выше упоминания.


Ещё один пример:
Ещё один пример:
Строка 101: Строка 312:
[[Файл:Orginorg.png]]
[[Файл:Orginorg.png]]


=====Организации без имени=====
{{ПримерЗаданияNer
|Фрагмент = {{ПримерЗадания| МИД Японии опубликовал {{КнопкаРасширенияКонтекста}} ||||10px}}
|Спаны =
* {{NerСпан|type=org_name|value=МИД}}
* {{NerСпан|type=loc_name|value=Японии}}
|Упоминания =
* {{NerУпоминание|type=LocOrg |value=Японии}}
* {{NerУпоминание|type=Org|value=МИД + Японии}}
}}
 
(см. ниже про локации в организационном контексте)
 
====Организации без имени====
Если название организации не указано, то упоминание организации может состоять из одного или нескольких дескрипторов: "родился в семье владельца сахарной плантации Анхеля Кастро-и-Аргиса" - цепочки "плантации" и "сахарной плантации" нужно разметить как дескрипторы организации и объединить в упоминание типа Org. Это неименованная сущность, которая потом может быть включена в состав факта.
Если название организации не указано, то упоминание организации может состоять из одного или нескольких дескрипторов: "родился в семье владельца сахарной плантации Анхеля Кастро-и-Аргиса" - цепочки "плантации" и "сахарной плантации" нужно разметить как дескрипторы организации и объединить в упоминание типа Org. Это неименованная сущность, которая потом может быть включена в состав факта.


=====Минимальное и полное названия=====
Аналогичным образом, в названиях государственных организаций или частей государственной администрации, в которых единственной частью названия является дескриптор, нужно размечать только его. Например, в цепочке "правительство РФ" нужно выделить org_descr "правительство" и loc "РФ", после чего нужно создать упоминание LocOrg, состоящее из спана [РФ] и упоминание Org, состоящее из двух спанов [правительство] и [РФ].
Если к названию или дескриптору организации в тексте добавлены уточняющие слова, то нужно выделить несколько вариантов названия организации: включающие эти уточняющие слова и не включающие их. Например, в названии "международная организация ICANN" нужно выделить три спана и объединить их в одно упоминание объекта типа Org:
 
====Организации без дескриптора====
'''''Примеры:''''' московского « Центра », ленинградского « Телевизора »
 
'''''Спаны:''''' org_name( Центра ), org_name( московского « Центра » )
 
'''''Упоминания:'''''
* Org [ org_name(Центра), org_name(московского «Центра») ]
 
Таким образом, оба варианта названия организации (и краткий, и расширенный) могут быть признаны правильными в автоматической разметке.
 
====Организации по местоположению====
'''''Примеры:''''' Университет Лос-Анджелеса.
 
'''''Спаны:''''' loc_name( Лос-Анджелеса ), org_descr( Университет )
 
'''''Упоминания:'''''
* Loc [ loc_name(Лос-Анджелеса) ]
* Org [ loc_name(Лос-Анджелеса), org_descr(Университет) ]


* org_name: ICANN
====Случай, когда название и дескриптор совпадают====
* org_descr: организация
''«Политическое бюро Национального фронта на собрании в понедельник, 16 мая 2011 года, единогласно поддержало кандидатуру своего председателя Марин Ле Пен на выборах президента Республики».''
* org_name: международная организация ICANN


Это нужно для того, чтобы оба правильных варианта названия организации могли бы быть засчитаны при автоматической оценке.
Слово Республика с большой буквы является синонимом полного названия "Французская республика" и употребляется как имя собственное (La République, в смысле Та Самая; для РФ такой синонимии нет). Правильно будет разметить его одновременно тегами org_desc и org_name.


===Loc===
==Локации (упоминания объектов типа Loc и LocOrg)==
В качестве локаций нужно размечать сущности, указывающие на местоположение в пространстве. Сюда могут входить географические объекты, названия городов, стран, регионов, природных объектов, построек, объектов на поверхности других планет, астрономических и вымышленных объектов.
В качестве локаций нужно размечать сущности, указывающие на местоположение в пространстве. Сюда могут входить географические объекты, названия городов, стран, регионов, природных объектов, построек, объектов на поверхности других планет, астрономических и вымышленных объектов.


У локаций может быть дескриптор. В качестве дескриптора выделяется слово или словосочетание, обозначающее родовое понятие. Аналогично тому, как это описано для организаций, возможна разметка локации без имени, когда упоминание будет состоять только из спана с дескриптором.
Не нужно выделять как локации прилагательные, указывающие на принадлежность или отношение к географическому объекту ("японский", "российский", "московский"). Такие прилагательные нужно включить в состав спана loc_name.
{{ПримерЗаданияNer
|Фрагмент = {{ПримерЗадания| В кубинской провинции Ориенте {{КнопкаРасширенияКонтекста}} ||||10px}}
|Спаны =
* {{NerСпан|type=loc_name|value=Ориенте}}
* {{NerСпан|type=loc_descr|value=провинции}}
* {{NerСпан|type=loc_name|value=кубинской провинции Ориенте}}
|Упоминания =
* {{NerУпоминание|type=Location|value=Ориенте + провинции + кубинской провинции Ориенте}}
}}
 
Не нужно выделять как локации названия интернет-сайтов, социальных сетей и других сервисов.
 
У локаций может быть дескриптор. В качестве дескриптора выделяется слово или словосочетание, обозначающее родовое понятие.
 
===Локации в организационном контексте===
Названия стран и городов часто употребляются в контексте, подразумевающем, что речь идёт об организации, управляющей указанной территорией. Это называется употреблением в организационном контексте.
 
Организационными контекстами являются, например, следующие:
 
* указание должности: "президент РФ"
* указание "вложенной" организации: "коммунистическая партия Кубы", "правительство РФ", "власти Украины"
* употребление в качестве субъекта действия: "Франция отмечает 1 мая", "Франция подписала мирный договор" (сравните: "Франция расположена в Европе" - это не организационный контекст)
* обозначение спортивной команды ("Россия обыграла Францию в рамках чемпионата ...")
 
Организационными контекстами не являются:
 
* указание направления движения в пространстве: "транзит голубого топлива в Европу"
* указание местоположения: "родился в кубинской провинции Ориенте"


====Локации в организационном контексте====
Пример:
Названия стран и городов часто употребляются в контексте, подразумевающем, что речь идёт об организации, управляющей указанной территорией. Это называется употреблением в организационном контексте. Организационными контекстами являются, например, следующие:


* указание "вложенной" организации ("коммунистическая партия Кубы")
* "Россия поставляет нефть Китаю" - слово "Китай" употреблено в организационном контексте
* "Франция отмечает 1 мая", "Франция подписала мирный договор" (сравните: "Франция расположена в Европе" - это не организационный контекст)
* "Россия поставляет нефть в Китай" - слово "Китай" употреблено в контексте местоположения (не в организационном)


Упоминания локаций в организационном контексте должны иметь тип LocOrg.
Упоминания локаций в организационном контексте должны иметь тип LocOrg.

Текущая версия от 21:43, 21 декабря 2015

Инструкция по разметке сущностей для Dialogue Evaluation 2016

Подробное описание того, как устроена разметка, находится на странице Концептуальная модель разметки. Чтобы начать размечать, читать её не обязательно.

Если после прочтения инструкции у вас остались вопросы или появились новые, задайте их на странице обсуждения инструкции.

Использование интерфейса разметки

Интерфейс разметки сущностей находится по адресу http://opencorpora.org/ner.php. На его главной странице находится список открытых для разметки документов.

Doclist.png

Документ открыт до тех пор, пока его не разметят полностью 4 участника. После этого он перестаёт отображаться в очереди на разметку, а вместо него добавляется новый неразмеченный документ. Для того, чтобы начать размечать документ нужно нажать кнопку "Размечать" или кнопку "Продолжить", если вы уже что-то в этом документе разметили.

Ner common 01.png

Минимальной единицей разметки является абзац. Это значит, что после того, как участник выбрал абзац и начал его размечать, этот абзац закрепляется за этим участником. Один и тот же абзац одновременно могут размечать четыре участника. Разметка каждого из них попадёт к модератору. Не обязательно завершать разметку сразу. К ней можно вернуться в любое время. Однако, не стоит задерживаться надолго. Постарайтесь справиться с выбранными абзацами за несколько дней.

Как начать размечать?

Для того, чтобы начать размечать абзац нужно щёлкнуть мышью в любом месте этого абзаца. Если абзац доступен для разметки, его фон сменит цвет на жёлтый. Абзацы на сером фоне недоступны для разметки (их уже разметили). Справа от абзаца находятся зоны (закладки, табы) спанов и абзацев.

Как закончить размечать сущности в абзаце?

Для того, чтобы закончить разметку и передать её модератору, нужно нажать кнопку "Закончить разметку абзаца".

Будьте внимательны: после нажатия на эту кнопку вернуться к разметке этого абзаца будет нельзя. Поэтому мы просим нажимать на неё только тогда, когда вы уверены в том, что сделали всё необходимое.

Как выделить сущность?

Вначале выделите спаны

Спан - это непрерывная цепочка слов в тексте.

Выделение спанов происходит одинарным щелчком мыши на каждом слове, которое должно войти в спан. Чтобы отменить выделение, нужно ещё раз щёлкнуть на каждом из выделенных слов или в любом другом месте абзаца (тогда выделится слово в другом месте).

Потом объедините спаны в упоминания объектов

Упоминание объекта - это один или несколько спанов, обозначающих один объект. Примеры:

Пример


По инициативе итальянской стороны Виторио Сандали встретился с ...
Спаны:
  • Виторио — name
  • Сандали — surname
Упоминания:
  • Виторио + Сандали — Person

  • Да, один и тот же спан может входить в несколько разных упоминаний:

    Пример


    Невский и Литейный проспекты окончательно будут ...
    Спаны:
    • Невский — loc_name
    • Литейный — loc_name
    • проспекты — loc_descr
    Упоминания:
  • Невский + проспекты — Location
  • Литейный + проспекты — Location
  • Тот факт, что тут два раза упоминается один и тот же объект в данный момент мы никак не отмечаем:

    Пример


    В 2007 году умерла Вильма Эспин ( Vilma Espin ) .
    Спаны:
    • Вильма — name
    • Эспин — surname
    • Vilma — name
    • Espin — surname
    Упоминания:
  • Вильма + Эспин — Person
  • Vilma + Espin — Person
  • Выделение упоминаний объектов происходит одинарным щелчком мыши на каждом спане (в таблице спанов, а не в тексте), который должен войти в состав упоминания.

    Упоминание объекта может состоять из любого количества спанов. Эти спаны не обязательно должны стоять рядом (см. выше пример про "Невский проспект").

    Все созданные спаны, упоминания объектов, изменения типов спанов и упоминаний сохраняются в базу сразу после создания. Не нужно ничего делать дополнительно для того, чтобы они не потерялись.

    Вот это видео показывает как пользоваться интерфейсом для выделения спанов и объединения их в сущности.

    Как удалить неверно выделенную сущность?

    Вначале удалите упоминание объекта (нажмите крестик слева от упоминания в таблице упоминаний). Потом удалите спаны, которые входили в упоминание объекта (тоже крестиком, только в таблице спанов).

    На момент написания инструкции результат удаления спана не отображался в таблице спанов (спан оставался). Для того, чтобы увидеть, что спан, действительно, удалился, нужно перезагрузить страницу. Однажды эта проблема исправится ;)

    Инструкции по разметке сущностей

    Персоны (упоминания объектов типа Person)

    Необходимо выделить отдельные спаны для фамилии (surname), имени (name), отчества (patronymic) и ника (nickname). После этого нужно объединить их в одно упоминание объекта с типом Person.

    Пример


    В 1817 Александр Пушкин оканчивает лицей, получает ...
    Спаны:
    • Александр — name
    • Пушкин — surname
    Упоминания:
  • Александр + Пушкин — Person

  • Любой набор спанов перечисленных типов достаточен для создания упоминания при условии, что в тексте имеется ввиду один референт, т.е. один конкретный человек или вымышленный персонаж.

    Пример


    В 2013 году, году 85-летия со дня рождения Эрнесто Че Гевары, его рукописи были включены ...
    Спаны:
    • Эрнесто — name
    • Че — nickname
    • Гевара — surname
    Упоминания:
  • Эрнесто + Че + Гевара — Person

  • В случае, если имя употреблено безотносительно конкретного референта (например: "В Воткинске новорождённых девочек родители очень редко именуют Татьянами") нужно выделить имя, но не нужно создавать упоминание объекта, т.к. в тексте речь идёт не о конкретном объекте, а только об имени.

    Инициалы нужно выделять обычными спанами типа name и patronymic. Точки, стоящие после инициалов, не нужно включать в эти спаны.


    Пример


    ... примерами из политической биографии В . И . Ленина , а заговаривая о дзен-буддизме ...
    Спаны:
    • В — name
    • И — patronymic
    • Ленин — surname
    Упоминания:
  • В + И + Ленин — Person

  • Для персон не нужно отмечать дескриптор.

    Цепочки должность + компания ("директор Лукойл") или должность + локация ("президент РФ") не нужно размечать как Person. Локации и компании выделяются отдельно (см. ниже).

    Должности и виды занятий выделяются спанами типа job. Для спанов типа job не нужно создавать упоминаний. Кроме этого, не нужно включать спаны типа job в упоминания объектов типа Person. Нереферентное употребление должностей ("депутаты", "госслужащие") не нужно размечать.


    Пример


    ... президент РФ ...
    Спаны:
    • президент — job
    • РФ — loc_name
    Упоминания:
  • РФ — LocOrg

  • Пример


    ... заместитель директора Газпрома ...
    Спаны:
    • заместитель директора — job
    • Газпрома — org_name
    Упоминания:
  • Газпрома — Org

  • Пример


    — отметил министр экономики Алексей Улюкаев .
    Спаны:
    • министр экономики — job
    • Алексей — name
    • Улюкаев — surname
    Упоминания:
  • Алексей + Улюкаев — Person

  • Пример


    Известность диджея Грува стала расти после ...
    Спаны:
    • диджея — job
    • Грув — nickname
    Упоминания:
  • Грув — Person

  • Пример


    После церемонии освящения митрополит Кирилл ответил на вопросы журналистов.
    Спаны:
    • митрополит — job
    • Кирилл — nickname
    Упоминания:
  • Кирилл — Person
  • Неочевидные случаи

    В тексте упоминается группа людей, имеющих общую часть имени. Например: "братья Кастро". В этом случае нужно разметить спан с фамилией. Упоминание создавать не нужно.

    Организации (упоминания объектов типа Org)

    Как организацию нужно размечать любую сущность, которая может быть местом работы человека или в ней можно состоять в качестве члена.

    Отдельными спанами размечаются названия организации (org_name) и её дескриптор (org_descr). Дескриптором мы называем слово ("компания", "библиотека", "комитет") или минимальное имеющее смысл словосочетание ("вооружённые силы", "совет директоров"), обозначающие родовое понятие.


    Пример


    Новый скандал вокруг дела Викиликс поднялся после ...
    Спаны:
    • Викиликс — org_name
    Упоминания:
  • Викиликс — Org

  • Пример


    Газета " Ведомости " пишет, что ...
    Спаны:
    • Газета — org_descr
    • Ведомости — org_name
    Упоминания:
  • Газета + Ведомости — Org

  • Обратите внимание: кавычки вокруг слова "Ведомости" являются отдельными токенами и не входят в спан org_name (на них не нужно кликать при выделении спана).


    Пример


    ... в социальной сети Facebook были ...
    Спаны:
    • социальной + сети — org_descr
    • Facebook — org_name
    Упоминания:
  • социальной сети + Facebook — Org

  • Спаном org_name нужно отмечать:

    • название организации, являющееся именем собственным (Wikileaks, Ведомости, Elevation Partners). Если название заключено в кавычки, то спан org_name не должен их включать.
    • сокращённое название организации (ICANN, РБК, МВД, КПРФ)
    • название организации с зависимыми от него, стоящими контактно, безоценочными (старый, выгодный - оценочные) уточняющими словами (например, указывающими на принадлежность к стране)


    Пример


    ... японский МИД сделал заявление ...
    Спаны:
    • МИД — org_name
    • японский МИД — org_name
    Упоминания:
  • МИД + японский МИД — Org

  • Спаном org_descr нужно отмечать:

    • тип юридического лица (ООО, ЗАО, РайПО)
    • непосредственно родовое понятие (компания, газета, университет)


    Пример


    ... связанные с запуском домена, с организацией ICM Registry ...
    Спаны:
    • организацией — org_descr
    • ICM Registry — org_name
    Упоминания:
  • организацией + ICM Registry — Org

    • родовое понятие с зависимыми от него, стоящими контактно, безоценочными (старый, выгодный - оценочные) уточняющими словами (российская компания, международный университет). Оценочные уточняющие слова не нужно включать в спаны org_name или org_descr. Например, в цепочке "такой выгодный Facebook" нужно разметить спаном org_name только слово Facebook. Слова "такой" и "выгодный" не нужно размечать.


    Пример


    Заведующая доменами верхнего уровня международная организация ICANN ...
    Спаны:
    • организация — org_descr
    • международная организация — org_descr
    • ICANN — org_name
    Упоминания:
  • организация + международная организация + ICANN — Org

  • Название организации, выделяемое спаном org_name должно включать в себя дескриптор, если употребление этого название без дескриптора будет неполным. Например: употребление названия "Федеральное авиационное управление" без слова "управление" выглядит странным. Употребить название "Невский" или "Тверская" без соответствующих дескрипторов вполне возможно. Поэтому правильные варианты разметки будут такие (да, второй пример не про организации, но он отражает смысл этого замечания; нужно найти аналогичный пример про организации):


    Пример


    Федеральное авиационное управление пояснило ...
    Спаны:
    • Федеральное авиационное управление — org_name
    • управление — org_descr
    Упоминания:
  • Федеральное авиационное управление + управление — Org

  • Пример


    ... на Тверской площади состоялась очередная несанкционированная акция протеста ...
    Спаны:
    • Тверской — loc_name
    • площади — loc_descr
    Упоминания:
  • Тверской + площади — Location

  • Если название организации встретилось без дескриптора и без уточняющих слов, то нужно отметить только его спаном org_name и создать упоминание объекта типа Org из одного этого спана.

    Org without descr small.png

    Название государственных организаций обычно состоит из указания на направление деятельности (совет планирования), сферу ответственности (министерство образования), место в структуре (центральный комитет) и т.д.. Эти названия не похожи на имена собственные. Тем не менее их нужно размечать именно как имена (org_name), а не как дескрипторы (org_descr). Как дескриптор, в приведённых выше примерах, нужно отметить слова "совет", "министерство" и "комитет".

    Неочевидные случаи

    Заранее принятые решения в неочевидных случаях

    • Интернет - org_name, Org

    События

    Названия событий (Чемпионат мира по..., концерт в честь ... и т.д.) не нужно выделять как организации, если это не очевидный организационный контекст (кто найдёт хороший пример такого контекста - тот молодец; мне пока не удалось). Очевидным организационным контекстом является, например, указание на должность ("руководитель чемпионата мира") или указание на вложенную организацию.

    Если внутри названия события встретится имя человека, название организации или географическое название, то эти сущности нужно выделить как обычно.

    Вложенные организации

    В цепочке названий "вложенных" друг в друга организаций ("отдел А департамента Б компании В"), спанами нужно отмечать отдельно названия каждой организации ("отдел А" "департамента Б" "компании В"). Упоминания нужно создать для каждой из вложенных организаций, включая все вышестоящие, т.е. в приведённом примере должно получиться три упоминания:

    • Org: [отдел А] [департамента Б] [компании В]
    • Org: [департамента Б] [компании В]
    • Org: [компании В].

    Создавать отдельные упоминания из спанов [отдел А] и [департамента Б] не нужно, т.к. они уже включены в перечисленные выше упоминания.

    Ещё один пример:

    Orginorg.png


    Пример


    МИД Японии опубликовал ...
    Спаны:
    • МИД — org_name
    • Японии — loc_name
    Упоминания:
  • Японии — LocOrg
  • МИД + Японии — Org
  • (см. ниже про локации в организационном контексте)

    Организации без имени

    Если название организации не указано, то упоминание организации может состоять из одного или нескольких дескрипторов: "родился в семье владельца сахарной плантации Анхеля Кастро-и-Аргиса" - цепочки "плантации" и "сахарной плантации" нужно разметить как дескрипторы организации и объединить в упоминание типа Org. Это неименованная сущность, которая потом может быть включена в состав факта.

    Аналогичным образом, в названиях государственных организаций или частей государственной администрации, в которых единственной частью названия является дескриптор, нужно размечать только его. Например, в цепочке "правительство РФ" нужно выделить org_descr "правительство" и loc "РФ", после чего нужно создать упоминание LocOrg, состоящее из спана [РФ] и упоминание Org, состоящее из двух спанов [правительство] и [РФ].

    Организации без дескриптора

    Примеры: московского « Центра », ленинградского « Телевизора »

    Спаны: org_name( Центра ), org_name( московского « Центра » )

    Упоминания:

    • Org [ org_name(Центра), org_name(московского «Центра») ]

    Таким образом, оба варианта названия организации (и краткий, и расширенный) могут быть признаны правильными в автоматической разметке.

    Организации по местоположению

    Примеры: Университет Лос-Анджелеса.

    Спаны: loc_name( Лос-Анджелеса ), org_descr( Университет )

    Упоминания:

    • Loc [ loc_name(Лос-Анджелеса) ]
    • Org [ loc_name(Лос-Анджелеса), org_descr(Университет) ]

    Случай, когда название и дескриптор совпадают

    «Политическое бюро Национального фронта на собрании в понедельник, 16 мая 2011 года, единогласно поддержало кандидатуру своего председателя Марин Ле Пен на выборах президента Республики».

    Слово Республика с большой буквы является синонимом полного названия "Французская республика" и употребляется как имя собственное (La République, в смысле Та Самая; для РФ такой синонимии нет). Правильно будет разметить его одновременно тегами org_desc и org_name.

    Локации (упоминания объектов типа Loc и LocOrg)

    В качестве локаций нужно размечать сущности, указывающие на местоположение в пространстве. Сюда могут входить географические объекты, названия городов, стран, регионов, природных объектов, построек, объектов на поверхности других планет, астрономических и вымышленных объектов.

    Не нужно выделять как локации прилагательные, указывающие на принадлежность или отношение к географическому объекту ("японский", "российский", "московский"). Такие прилагательные нужно включить в состав спана loc_name.

    Пример


    В кубинской провинции Ориенте ...
    Спаны:
    • Ориенте — loc_name
    • провинции — loc_descr
    • кубинской провинции Ориенте — loc_name
    Упоминания:
  • Ориенте + провинции + кубинской провинции Ориенте — Location
  • Не нужно выделять как локации названия интернет-сайтов, социальных сетей и других сервисов.

    У локаций может быть дескриптор. В качестве дескриптора выделяется слово или словосочетание, обозначающее родовое понятие.

    Локации в организационном контексте

    Названия стран и городов часто употребляются в контексте, подразумевающем, что речь идёт об организации, управляющей указанной территорией. Это называется употреблением в организационном контексте.

    Организационными контекстами являются, например, следующие:

    • указание должности: "президент РФ"
    • указание "вложенной" организации: "коммунистическая партия Кубы", "правительство РФ", "власти Украины"
    • употребление в качестве субъекта действия: "Франция отмечает 1 мая", "Франция подписала мирный договор" (сравните: "Франция расположена в Европе" - это не организационный контекст)
    • обозначение спортивной команды ("Россия обыграла Францию в рамках чемпионата ...")

    Организационными контекстами не являются:

    • указание направления движения в пространстве: "транзит голубого топлива в Европу"
    • указание местоположения: "родился в кубинской провинции Ориенте"

    Пример:

    • "Россия поставляет нефть Китаю" - слово "Китай" употреблено в организационном контексте
    • "Россия поставляет нефть в Китай" - слово "Китай" употреблено в контексте местоположения (не в организационном)

    Упоминания локаций в организационном контексте должны иметь тип LocOrg.

    Неочевидные случаи

    стадион им. Ленина

    В таких случаях нужно выделить спан с фамилией (surname "Ленина"), спаны с названиями (loc_name "им. Ленина", loc_name "стадион им. Ленина") и спан с дескриптором (loc_descr "стадион"). Нужно создать упоминание для персоны, содержащее только спан с фамилией, и упоминание для локации, включающее все остальные спаны.