Nermanual/2: различия между версиями

Материал из OpenCorpora
Перейти к навигации Перейти к поиску
м (отступы - убраны лишние абзацы)
м (отступы - убраны лишние абзацы)
Строка 32: Строка 32:


===Потом объедините спаны в упоминания объектов===
===Потом объедините спаны в упоминания объектов===
'''Упоминание объекта''' - это один или несколько спанов, обозначающих один объект. Примеры:
'''Упоминание объекта''' - это один или несколько спанов, обозначающих один объект.  
 
Примеры:
{{ПримерЗаданияNer
{{ПримерЗаданияNer
|Фрагмент = {{ПримерЗадания|По  инициативе  итальянской  стороны  Виторио  Сандали  встретился  с {{КнопкаРасширенияКонтекста}} |}}
|Фрагмент = {{ПримерЗадания|По  инициативе  итальянской  стороны  Виторио  Сандали  встретился  с {{КнопкаРасширенияКонтекста}} |}}
Строка 56: Строка 56:


Тот факт, что тут два раза упоминается один и тот же объект в данный момент мы никак не отмечаем:
Тот факт, что тут два раза упоминается один и тот же объект в данный момент мы никак не отмечаем:
{{ПримерЗаданияNer
{{ПримерЗаданияNer
|Фрагмент = {{ПримерЗадания|В  2007  году  умерла Вильма  Эспин  (  Vilma  Espin  ) . |}}
|Фрагмент = {{ПримерЗадания|В  2007  году  умерла Вильма  Эспин  (  Vilma  Espin  ) . |}}
Строка 307: Строка 306:


Не нужно выделять как локации прилагательные, указывающие на принадлежность или отношение к географическому объекту ("японский", "российский", "московский"). Такие прилагательные нужно включить в состав спана loc_name.
Не нужно выделять как локации прилагательные, указывающие на принадлежность или отношение к географическому объекту ("японский", "российский", "московский"). Такие прилагательные нужно включить в состав спана loc_name.
{{ПримерЗаданияNer
{{ПримерЗаданияNer
|Фрагмент = {{ПримерЗадания| В кубинской провинции Ориенте {{КнопкаРасширенияКонтекста}} |}}
|Фрагмент = {{ПримерЗадания| В кубинской провинции Ориенте {{КнопкаРасширенияКонтекста}} |}}

Версия от 12:20, 24 ноября 2015

Инструкция по разметке сущностей для Dialogue Evaluation 2016

Подробное описание того, как устроена разметка, находится на странице Концептуальная модель разметки. Чтобы начать размечать, читать её не обязательно.

Если после прочтения инструкции у вас остались вопросы или появились новые, задайте их на странице обсуждения инструкции.

Использование интерфейса разметки

Интерфейс разметки сущностей находится по адресу http://opencorpora.org/ner.php. На его главной странице находится список открытых для разметки документов.

Doclist.png

Документ открыт до тех пор, пока его не разметят полностью 4 участника. После этого он перестаёт отображаться в очереди на разметку, а вместо него добавляется новый неразмеченный документ. Для того, чтобы начать размечать документ нужно нажать кнопку "Размечать" или кнопку "Продолжить", если вы уже что-то в этом документе разметили.

Ner common 01.png

Минимальной единицей разметки является абзац. Это значит, что после того, как участник выбрал абзац и начал его размечать, этот абзац закрепляется за этим участником. Один и тот же абзац одновременно могут размечать четыре участника. Разметка каждого из них попадёт к модератору. Не обязательно завершать разметку сразу. К ней можно вернуться в любое время. Однако, не стоит задерживаться надолго. Постарайтесь справиться с выбранными абзацами за несколько дней.

Как начать размечать?

Для того, чтобы начать размечать абзац нужно щёлкнуть мышью в любом месте этого абзаца. Если абзац доступен для разметки, его фон сменит цвет на жёлтый. Абзацы на сером фоне недоступны для разметки (их уже разметили). Справа от абзаца находятся зоны (закладки, табы) спанов и абзацев.

Как закончить размечать сущности в абзаце?

Для того, чтобы закончить разметку и передать её модератору, нужно нажать кнопку "Закончить разметку абзаца".

Будьте внимательны: после нажатия на эту кнопку вернуться к разметке этого абзаца будет нельзя. Поэтому мы просим нажимать на неё только тогда, когда вы уверены в том, что сделали всё необходимое.

Как выделить сущность?

Вначале выделите спаны

Спан - это непрерывная цепочка слов в тексте.

Выделение спанов происходит одинарным щелчком мыши на каждом слове, которое должно войти в спан. Чтобы отменить выделение, нужно ещё раз щёлкнуть на каждом из выделенных слов или в любом другом месте абзаца (тогда выделится слово в другом месте).

Потом объедините спаны в упоминания объектов

Упоминание объекта - это один или несколько спанов, обозначающих один объект. Примеры:

Пример


По инициативе итальянской стороны Виторио Сандали встретился с ...
Спаны:
  • Виторио — name
  • Сандали — surname
Упоминания:
  • Виторио+ Сандали — Person
  • Да, один и тот же спан может входить в несколько разных упоминаний:

    Пример


    Невский и Литейный проспекты окончательно будут ...
    Спаны:
    • Невский — loc_name
    • Литейный — loc_name
    • проспекты — loc_descr
    Упоминания:
  • Невский + проспекты — Location
  • Литейный + проспекты — Location
  • Тот факт, что тут два раза упоминается один и тот же объект в данный момент мы никак не отмечаем:

    Пример


    В 2007 году умерла Вильма Эспин ( Vilma Espin ) .
    Спаны:
    • Вильма — name
    • Эспин — surname
    • Vilma — name
    • Espin — surname
    Упоминания:
  • Вильма + Эспин — Person
  • Vilma + Espin — Person
  • Выделение упоминаний объектов происходит одинарным щелчком мыши на каждом спане (в таблице спанов, а не в тексте), который должен войти в состав упоминания.

    Упоминание объекта может состоять из любого количества спанов. Эти спаны не обязательно должны стоять рядом (см. выше пример про "Невский проспект").

    Все созданные спаны, упоминания объектов, изменения типов спанов и упоминаний сохраняются в базу сразу после создания. Не нужно ничего делать дополнительно для того, чтобы они не потерялись.

    Вот это видео показывает как пользоваться интерфейсом для выделения спанов и объединения их в сущности.

    Как удалить неверно выделенную сущность?

    Вначале удалите упоминание объекта (нажмите крестик слева от упоминания в таблице упоминаний). Потом удалите спаны, которые входили в упоминание объекта (тоже крестиком, только в таблице спанов).

    На момент написания инструкции результат удаления спана не отображался в таблице спанов (спан оставался). Для того, чтобы увидеть, что спан, действительно, удалился, нужно перезагрузить страницу. Однажды эта проблема исправится ;)

    Инструкции по разметке сущностей

    Персоны (упоминания объектов типа Person)

    Необходимо выделить отдельные спаны для фамилии (surname), имени (name), отчества (patronymic) и ника (nickname). После этого нужно объединить их в одно упоминание объекта с типом Person.

    Пример


    В 1817 Александр Пушкин оканчивает лицей, получает ...
    Спаны:
    • Александр — name
    • Пушкин — surname
    Упоминания:
  • Александр + Пушкин — Person
  • Любой набор спанов перечисленных типов достаточен для создания упоминания при условии, что в тексте имеется ввиду один референт, т.е. один конкретный человек или вымышленный персонаж.

    Пример


    В 2013 году, году 85-летия со дня рождения Эрнесто Че Гевары, его рукописи были включены ...
    Спаны:
    • Эрнесто — name
    • Че — nickname
    • Гевара — surname
    Упоминания:
  • Эрнесто + Че + Гевара — Person
  • В случае, если имя употреблено безотносительно конкретного референта (например: "В Воткинске новорождённых девочек родители очень редко именуют Татьянами") нужно выделить имя, но не нужно создавать упоминание объекта, т.к. в тексте речь идёт не о конкретном объекте, а только об имени.

    Инициалы нужно выделять обычными спанами типа name и patronymic. Точки, стоящие после инициалов, не нужно включать в эти спаны.


    Пример


    ... примерами из политической биографии В . И . Ленина , а заговаривая о дзен-буддизме ...
    Спаны:
    • В — name
    • И — patronymic
    • Ленин — surname
    Упоминания:
  • В + И + Ленин — Person
  • Для персон не нужно отмечать дескриптор.

    Цепочки должность + компания ("директор Лукойл") или должность + локация ("президент РФ") не нужно размечать как Person. Локации и компании выделяются отдельно (см. ниже).

    Должности и виды занятий выделяются спанами типа job. Для спанов типа job не нужно создавать упоминаний. Кроме этого, не нужно включать спаны типа job в упоминания объектов типа Person. Нереферентное употребление должностей ("депутаты", "госслужащие") не нужно размечать.


    Пример


    ... президент РФ ...
    Спаны:
    • президент — job
    • РФ — loc_name
    Упоминания:
  • РФ — LocOrg

  • Пример


    ... заместитель директора Газпрома ...
    Спаны:
    • заместитель директора — job
    • Газпрома — org_name
    Упоминания:
  • Газпрома — Org

  • Пример


    — отметил министр экономики Алексей Улюкаев .
    Спаны:
    • министр экономики — job
    • Алексей — name
    • Улюкаев — surname
    Упоминания:
  • Алексей + Улюкаев — Person

  • Пример


    Известность диджея Грува стала расти после ...
    Спаны:
    • диджея — job
    • Грув — nickname
    Упоминания:
  • Грув — Person

  • Пример


    После церемонии освящения митрополит Кирилл ответил на вопросы журналистов.
    Спаны:
    • митрополит — job
    • Кирилл — nickname
    Упоминания:
  • Кирилл — Person
  • Неочевидные случаи

    В тексте упоминается группа людей, имеющих общую часть имени. Например: "братья Кастро". В этом случае нужно разметить спан с фамилией. Упоминание создавать не нужно.

    Организации (упоминания объектов типа Org)

    Как организацию нужно размечать любую сущность, которая может быть местом работы человека или в ней можно состоять в качестве члена.

    Отдельными спанами размечаются названия организации (org_name) и её дескриптор (org_descr). Дескриптором мы называем слово ("компания", "библиотека", "комитет") или минимальное имеющее смысл словосочетание ("вооружённые силы", "совет директоров"), обозначающие родовое понятие.


    Пример


    Новый скандал вокруг дела Викиликс поднялся после ...
    Спаны:
    • Викиликс — org_name
    Упоминания:
  • Викиликс — Org

  • Пример


    Газета " Ведомости " пишет, что ...
    Спаны:
    • Газета — org_descr
    • Ведомости — org_name
    Упоминания:
  • Газета + Ведомости — Org
  • Обратите внимание: кавычки вокруг слова "Ведомости" являются отдельными токенами и не входят в спан org_name (на них не нужно кликать при выделении спана).


    Пример


    ... в социальной сети Facebook были ...
    Спаны:
    • социальной + сети — org_descr
    • Facebook — org_name
    Упоминания:
  • социальной сети + Facebook — Org
  • Спаном org_name нужно отмечать:

    • название организации, являющееся именем собственным (Wikileaks, Ведомости, Elevation Partners). Если название заключено в кавычки, то спан org_name не должен их включать.
    • сокращённое название организации (ICANN, РБК, МВД, КПРФ)
    • название организации, включающее дескриптор и уточняющие слова (международная организация ICANN, парламентская фракция КПРФ, российский фонд DST).

    Спаном org_descr нужно отмечать:

    • тип юридического лица (ООО, ЗАО, РайПО)
    • непосредственно родовое понятие (компания, газета, университет)

    Выделение нескольких спанов org_name, входящих в одно упоминание организации, нужно для того, чтобы оба правильных варианта названия организации могли бы быть засчитаны при автоматической оценке.

    Org with extra words.png


    Пример


    ... японский МИД сделал заявление ...
    Спаны:
    • МИД — org_name
    • японский МИД — org_name
    Упоминания:
  • МИД + японский МИД — Org

  • Оценочные уточняющие слова не нужно включать в спан org_name. Например, в цепочке "такой выгодный Facebook" нужно разметить спаном org_name только слово Facebook. Слова "такой" и "выгодный" не нужно размечать.

    Если кроме дескриптора и имени собственного в названии организации нет других слов, то делать дополнительный спан org_name, включающий дескриптор и название организации не нужно (см. пример "организация ICM Registry").

    Org without extra words.png

    Если название организации встретилось без дескриптора и без уточняющих слов, то нужно отметить только его спаном org_name и создать упоминание объекта типа Org из одного этого спана.

    Org without descr small.png

    Название государственных организаций обычно состоит из указания на направление деятельности (совет планирования), сферу ответственности (министерство образования), место в структуре (центральный комитет) и т.д.. Эти названия не похожи на имена собственные. Тем не менее их нужно размечать именно как имена (org_name), а не как дескрипторы (org_descr). Как дескриптор, в приведённых выше примерах, нужно отметить слова "совет", "министерство" и "комитет".

    Неочевидные случаи

    Вложенные организации

    В цепочке названий "вложенных" друг в друга организаций ("отдел А департамента Б компании В"), спанами нужно отмечать отдельно названия каждой организации ("отдел А" "департамента Б" "компании В"). Упоминания нужно создать для каждой из вложенных организаций, включая все вышестоящие, т.е. в приведённом примере должно получиться три упоминания:

    • Org: [отдел А] [департамента Б] [компании В]
    • Org: [департамента Б] [компании В]
    • Org: [компании В].

    Создавать отдельные упоминания из спанов [отдел А] и [департамента Б] не нужно, т.к. они уже включены в перечисленные выше упоминания.

    Ещё один пример:

    Orginorg.png


    Пример


    МИД Японии опубликовал ...
    Спаны:
    • МИД — org_name
    • Японии — loc_name
    Упоминания:
  • Японии — LocOrg
  • МИД + Японии — Org
  • (см. ниже про локации в организационном контексте)

    Организации без имени

    Если название организации не указано, то упоминание организации может состоять из одного или нескольких дескрипторов: "родился в семье владельца сахарной плантации Анхеля Кастро-и-Аргиса" - цепочки "плантации" и "сахарной плантации" нужно разметить как дескрипторы организации и объединить в упоминание типа Org. Это неименованная сущность, которая потом может быть включена в состав факта.

    Аналогичным образом, в названиях государственных организаций или частей государственной администрации, в которых единственной частью названия является дескриптор, нужно размечать только его. Например, в цепочке "правительство РФ" нужно выделить org_descr "правительство" и loc "РФ", после чего нужно создать упоминание LocOrg, состоящее из спана [РФ] и упоминание Org, состоящее из двух спанов [правительство] и [РФ].

    Организации без дескриптора

    Примеры: московского « Центра », ленинградского « Телевизора »

    Спаны: org_name( Центра ), org_name( московского « Центра » )

    Упоминания:

    • Org [ org_name(Центра), org_name(московского «Центра») ]

    Таким образом, оба варианта названия организации (и краткий, и расширенный) могут быть признаны правильными в автоматической разметке.

    Организации по местоположению

    Примеры: Университет Лос-Анджелеса.

    Спаны: loc( Лос-Анджелеса ), org_descr( Университет ), org_name( Университет Лос-Анджелеса )

    Упоминания:

    • Loc [ loc(Лос-Анджелеса) ]
    • Org [ loc(Лос-Анджелеса), org_descr(Университет), org_name(Университет Лос-Анджелеса) ]

    Случай, когда название и дескриптор совпадают

    «Политическое бюро Национального фронта на собрании в понедельник, 16 мая 2011 года, единогласно поддержало кандидатуру своего председателя Марин Ле Пен на выборах президента Республики».

    Слово Республика с большой буквы является синонимом полного названия "Французская республика" и употребляется как имя собственное (La République, в смысле Та Самая; для РФ такой синонимии нет). Правильно будет разметить его одновременно тегами org_desc и org_name.

    Локации (упоминания объектов типа Loc и LocOrg)

    В качестве локаций нужно размечать сущности, указывающие на местоположение в пространстве. Сюда могут входить географические объекты, названия городов, стран, регионов, природных объектов, построек, объектов на поверхности других планет, астрономических и вымышленных объектов.

    Не нужно выделять как локации прилагательные, указывающие на принадлежность или отношение к географическому объекту ("японский", "российский", "московский"). Такие прилагательные нужно включить в состав спана loc_name.

    Пример


    В кубинской провинции Ориенте ...
    Спаны:
    • Ориенте — loc_name
    • провинции — loc_descr
    • кубинской провинции Ориенте — loc_name
    Упоминания:
  • Ориенте + провинции + кубинской провинции Ориенте — Loc
  • Не нужно выделять как локации названия интернет-сайтов, социальных сетей и других сервисов.

    У локаций может быть дескриптор. В качестве дескриптора выделяется слово или словосочетание, обозначающее родовое понятие.

    Локации в организационном контексте

    Названия стран и городов часто употребляются в контексте, подразумевающем, что речь идёт об организации, управляющей указанной территорией. Это называется употреблением в организационном контексте.

    Организационными контекстами являются, например, следующие:

    • указание должности: "президент РФ"
    • указание "вложенной" организации: "коммунистическая партия Кубы", "правительство РФ", "власти Украины"
    • употребление в качестве субъекта действия: "Франция отмечает 1 мая", "Франция подписала мирный договор" (сравните: "Франция расположена в Европе" - это не организационный контекст)

    Организационными контекстами не являются:

    • указание направления движения в пространстве: "транзит голубого топлива в Европу"
    • указание местоположения: "родился в кубинской провинции Ориенте"

    Упоминания локаций в организационном контексте должны иметь тип LocOrg.

    Неочевидные случаи

    стадион им. Ленина

    В таких случаях нужно выделить спан с фамилией (surname "Ленина"), спаны с названиями (loc_name "им. Ленина", loc_name "стадион им. Ленина") и спан с дескриптором (loc_descr "стадион"). Нужно создать упоминание для персоны, содержащее только спан с фамилией, и упоминание для локации, включающее все остальные спаны.