Участник:Andrey Kruglov/NER short — различия между версиями

Материал из OpenCorpora Вики
Перейти к: навигация, поиск
 
м (чистовик)
Строка 1: Строка 1:
#REDIRECT: [[User:Andrey_Kruglov/Шпаргалка по разметке NER|Шпаргалка по разметке NER]]
+
Краткая шпаргалка к [[Nermanual/2|официальной инструкции Nermanual/2]]. Интерфейс разметки находится тут: http://opencorpora.org/ner.php
 +
 
 +
==Персоны (упоминания объектов типа Person)==
 +
=== Простой случай ===
 +
Упоминается конкретный человек:
 +
{{ПримерЗаданияNer
 +
|Фрагмент = {{ПримерЗадания|В 1817 Александр Пушкин оканчивает лицей, получает {{КнопкаРасширенияКонтекста}} ||||10px}}
 +
|Спаны =
 +
* {{NerСпан|type=name|value=Александр }}
 +
* {{NerСпан|type=surname|value=Пушкин}}
 +
|Упоминания =
 +
* {{NerУпоминание|type=Person|value=Александр + Пушкин}}
 +
}}
 +
 
 +
Имя+отчество, полное ФИО, имя-фамилия, имя-прозвище-фамилия -- любой набор, который характеризует конкретного человека:
 +
{{ПримерЗаданияNer
 +
|Фрагмент = {{ПримерЗадания|В 2013 году, году 85-летия со дня рождения Эрнесто Че Гевары, его рукописи были включены {{КнопкаРасширенияКонтекста}} ||||10px}}
 +
|Спаны =
 +
* {{NerСпан|type=name|value=Эрнесто}}
 +
* {{NerСпан|type=nickname|value=Че}}
 +
* {{NerСпан|type=surname|value=Гевара}}
 +
|Упоминания =
 +
* {{NerУпоминание|type=Person|value=Эрнесто + Че + Гевара}}
 +
}}
 +
 
 +
Инициалы нужно выделять обычными спанами типа name и patronymic. Точки, стоящие после инициалов, не нужно включать в эти спаны:
 +
{{ПримерЗаданияNer
 +
|Фрагмент = {{ПримерЗадания| {{КнопкаРасширенияКонтекста}} примерами  из  политической  биографии  В . И .  Ленина ,  а  заговаривая  о  дзен-буддизме  {{КнопкаРасширенияКонтекста}} ||||10px}}
 +
|Спаны =
 +
* {{NerСпан|type=name|value=В}}
 +
* {{NerСпан|type=patronymic|value=И}}
 +
* {{NerСпан|type=surname|value=Ленин}}
 +
|Упоминания =
 +
* {{NerУпоминание|type=Person|value=В + И + Ленин}}
 +
}}
 +
 
 +
=== Цепочка должность + имя ===
 +
Должность не указываем в упоминаниях, только в спанах:
 +
{{ПримерЗаданияNer
 +
|Фрагмент = {{ПримерЗадания| Известность диджея Грува стала расти после {{КнопкаРасширенияКонтекста}} ||||10px}}
 +
|Спаны =
 +
* {{NerСпан|type=job|value=диджея }}
 +
* {{NerСпан|type=nickname|value=Грув}}
 +
|Упоминания =
 +
* {{NerУпоминание|type=Person|value=Грув}}
 +
}}
 +
 
 +
Спан может состоять не только из одного слова, а из нескольки непрерывных:
 +
{{ПримерЗаданияNer
 +
|Фрагмент = {{ПримерЗадания| —  отметил  министр  экономики  Алексей  Улюкаев  . ||||10px}}
 +
|Спаны =
 +
* {{NerСпан|type=job|value=министр экономики}}
 +
* {{NerСпан|type=name|value=Алексей}}
 +
* {{NerСпан|type=surname|value=Улюкаев}}
 +
|Упоминания =
 +
* {{NerУпоминание|type=Person|value=Алексей + Улюкаев}}
 +
}}
 +
 
 +
==Организации (упоминания объектов типа Org)==
 +
=== Простейший случай: только имя организации ===
 +
Упоминается только собственное имя организации:
 +
{{ПримерЗаданияNer
 +
|Фрагмент = {{ПримерЗадания| Новый скандал вокруг дела Викиликс поднялся после {{КнопкаРасширенияКонтекста}} ||||10px}}
 +
|Спаны =
 +
* {{NerСпан|type=org_name|value=Викиликс}}
 +
|Упоминания =
 +
* {{NerУпоминание|type=Org|value=Викиликс}}
 +
}}
 +
 
 +
=== Простой случай: дескриптор + имя организации ===
 +
Односложный (кавычки в название включать не нужно!):
 +
{{ПримерЗаданияNer
 +
|Фрагмент = {{ПримерЗадания| Газета " Ведомости " пишет, что {{КнопкаРасширенияКонтекста}} ||||10px}}
 +
|Спаны =
 +
* {{NerСпан|type=org_descr|value=Газета}}
 +
* {{NerСпан|type=org_name|value=Ведомости}}
 +
|Упоминания =
 +
* {{NerУпоминание|type=Org|value=Газета + Ведомости}}
 +
}}
 +
 
 +
Спан дескриптора может состоять из нескольких слов:
 +
{{ПримерЗаданияNer
 +
|Фрагмент = {{ПримерЗадания| {{КнопкаРасширенияКонтекста}} в социальной сети Facebook были {{КнопкаРасширенияКонтекста}} ||||10px}}
 +
|Спаны =
 +
* {{NerСпан|type=org_descr|value=социальной + сети}}
 +
* {{NerСпан|type=org_name|value=Facebook}}
 +
|Упоминания =
 +
* {{NerУпоминание|type=Org|value=социальной сети + Facebook}}
 +
}}
 +
 
 +
=== Цепочка должность + организация ===
 +
Упоминание типа Person нет (в разное время могут быть разные люди, неконкретно):
 +
{{ПримерЗаданияNer
 +
|Фрагмент = {{ПримерЗадания| При этом, по словам вице-президента Microsoft, анонс будет сопровождаться {{КнопкаРасширенияКонтекста}} ||||10px}}
 +
|Спаны =
 +
* {{NerСпан|type=job|value=вице-президента}}
 +
* {{NerСпан|type=org_name|value=Microsoft}}
 +
|Упоминания =
 +
* {{NerУпоминание|type=Org|value=вице-президента + Microsoft}}
 +
}}
 +
 
 +
== Локации (упоминания объектов типа Location) ==
 +
=== Простейший случай: только название локации ===
 +
Локация - место в пространстве:
 +
{{ПримерЗаданияNer
 +
|Фрагмент = {{ПримерЗадания| {{КнопкаРасширенияКонтекста}} уехала скорым поездом в Москву {{КнопкаРасширенияКонтекста}} ||||10px}}
 +
|Спаны =
 +
* {{NerСпан|type=loc_name|value=Москву}}
 +
|Упоминания =
 +
* {{NerУпоминание|type=Location|value=Москву}}
 +
}}
 +
 
 +
=== Простой случай: дескриптор + название ===
 +
{{ПримерЗаданияNer
 +
|Фрагмент = {{ПримерЗадания|  С космодрома Байконур планируется запуск  {{КнопкаРасширенияКонтекста}} ||||10px}}
 +
|Спаны =
 +
* {{NerСпан|type=loc_descr|value=космодрома}}
 +
* {{NerСпан|type=loc_name|value=Байконур}}
 +
|Упоминания =
 +
* {{NerУпоминание|type=Location|value=космодрома + Байконур }}
 +
}}
 +
 
 +
== Локации в организационном контексте (упоминания объектов типа LocOrg) ==
 +
=== Цепочка организация + название местоположения ===
 +
Локация - место в пространстве:
 +
{{ПримерЗаданияNer
 +
|Фрагмент = {{ПримерЗадания| {{КнопкаРасширенияКонтекста}} на заседании правительства РФ {{КнопкаРасширенияКонтекста}} ||||10px}}
 +
|Спаны =
 +
* {{NerСпан|type=org_descr|value=правительства}}
 +
* {{NerСпан|type=loc_name|value=РФ}}
 +
|Упоминания =
 +
* {{NerУпоминание|type=LocOrg|value=правительства + РФ}}
 +
}}
 +
 
 +
=== Цепочка должность + название местоположения ===
 +
Локация - место в пространстве:
 +
{{ПримерЗаданияNer
 +
|Фрагмент = {{ПримерЗадания| {{КнопкаРасширенияКонтекста}} в соответствии с поручениам президента России подготовить к IV кварталу {{КнопкаРасширенияКонтекста}} ||||10px}}
 +
|Спаны =
 +
* {{NerСпан|type=job|value=президента}}
 +
* {{NerСпан|type=loc_name|value=России }}
 +
|Упоминания =
 +
* {{NerУпоминание|type=LocOrg|value=президента + России}}
 +
}}
 +
 
 +
== Множественные упоминания ==
 +
=== Цепочка должность + организация + персона ===
 +
Типовой пример, простой и интуитивно понятный:
 +
{{ПримерЗаданияNer
 +
|Фрагмент = {{ПримерЗадания| По словам руководителя Роскосмоса Анатолия Николаевича Перминова , уже  идёт  подготовка  к {{КнопкаРасширенияКонтекста}} ||||10px}}
 +
|Спаны =
 +
* {{NerСпан|type=job|value=руководителя}}
 +
* {{NerСпан|type=org_name|value=Роскосмоса}}
 +
* {{NerСпан|type=name|value=Анатолия}}
 +
* {{NerСпан|type=patronymic|value=Николаевича}}
 +
* {{NerСпан|type=surname|value=Перминова}}
 +
|Упоминания =
 +
* {{NerУпоминание|type=LocOrg|value=Роскосмоса}}
 +
* {{NerУпоминание|type=Person|value=Анатолия + Николаевича + Перминова}}
 +
}}
 +
 
 +
Организация может быть без собственного имени:
 +
{{ПримерЗаданияNer
 +
|Фрагмент = {{ПримерЗадания|в семье владельца сахарной плантации Анхеля Кастро-и-Аргиса {{КнопкаРасширенияКонтекста}} ||||10px}}
 +
|Спаны =
 +
* {{NerСпан|type=job|value=владелец}}
 +
* {{NerСпан|type=org_descr|value=сахарной плантации}}
 +
* {{NerСпан|type=name|value=Анхеля}}
 +
* {{NerСпан|type=surname|value=Кастро-и-Аргиса}}
 +
|Упоминания =
 +
* {{NerУпоминание|type=Person|value=Анхеля + Кастро-и-Аргиса}}
 +
* {{NerУпоминание|type=Org|value=сахарной плантации}}
 +
}}
 +
 
 +
=== Один спан может входить в несколько упоминаний ===
 +
Один и тот же спан может входить в несколько разных упоминаний:
 +
{{ПримерЗаданияNer
 +
|Фрагмент = {{ПримерЗадания| Владимир и Виталий Кличко решили профинансировать {{КнопкаРасширенияКонтекста}} ||||10px}}
 +
|Спаны =
 +
* {{NerСпан|type=name|value=Владимир}}
 +
* {{NerСпан|type=name|value=Виталий}}
 +
* {{NerСпан|type=surname|value=Кличко}}
 +
|Упоминания =
 +
* {{NerУпоминание|type=Person|value=Владимир + Кличко}}
 +
* {{NerУпоминание|type=Person|value=Виталий+ Кличко}}
 +
}}
 +
Не только для Person:
 +
{{ПримерЗаданияNer
 +
|Фрагмент = {{ПримерЗадания|Невский и Литейный проспекты окончательно будут {{КнопкаРасширенияКонтекста}} ||||10px}}
 +
|Спаны =
 +
* {{NerСпан|type=loc_name|value=Невский}}
 +
* {{NerСпан|type=loc_name|value=Литейный}}
 +
* {{NerСпан|type=loc_descr|value=проспекты}}
 +
|Упоминания =
 +
* {{NerУпоминание|type=Location|value=Невский + проспекты}}
 +
* {{NerУпоминание|type=Location|value=Литейный + проспекты}}
 +
}}
 +
 
 +
=== Вариации наименования ===
 +
Персона на русском и на английском:
 +
{{ПримерЗаданияNer
 +
|Фрагмент = {{ПримерЗадания|В  2007  году  умерла Вильма  Эспин  (  Vilma  Espin  ) .  ||||10px}}
 +
|Спаны =
 +
* {{NerСпан|type=name|value=Вильма}}
 +
* {{NerСпан|type=surname|value=Эспин}}
 +
* {{NerСпан|type=name|value=Vilma}}
 +
* {{NerСпан|type=surname|value=Espin}}
 +
|Упоминания =
 +
* {{NerУпоминание|type=Person|value=Вильма + Эспин}}
 +
* {{NerУпоминание|type=Person|value=Vilma + Espin}}
 +
}}
 +
 
 +
Организация, указание полного и сокращённого наименования, а также аббревиатуры:
 +
{{ПримерЗаданияNer
 +
|Фрагмент = {{ПримерЗадания| {{КнопкаРасширенияКонтекста}} которая предоставлена Международным телекоммуникационным союзом ( International Telecommunications Union ( ITU ) ) для {{КнопкаРасширенияКонтекста}} ||||10px}}
 +
|Спаны =
 +
* {{NerСпан|type=org_name|value=Международным телекоммуникационным союзом}}
 +
* {{NerСпан|type=org_name|value=International Telecommunications Union}}
 +
* {{NerСпан|type=org_name|value=ITU}}
 +
|Упоминания =
 +
* {{NerУпоминание|type=Org|value=Международным телекоммуникационным союзом}}
 +
* {{NerУпоминание|type=Org|value=International Telecommunications Union}}
 +
* {{NerУпоминание|type=Org|value=ITU }}
 +
}}

Версия 00:59, 15 декабря 2015

Краткая шпаргалка к официальной инструкции Nermanual/2. Интерфейс разметки находится тут: http://opencorpora.org/ner.php

Персоны (упоминания объектов типа Person)

Простой случай

Упоминается конкретный человек:

Пример


В 1817 Александр Пушкин оканчивает лицей, получает ...
Спаны:
  • Александр — name
  • Пушкин — surname
Упоминания:
  • Александр + Пушкин — Person
  • Имя+отчество, полное ФИО, имя-фамилия, имя-прозвище-фамилия -- любой набор, который характеризует конкретного человека:

    Пример


    В 2013 году, году 85-летия со дня рождения Эрнесто Че Гевары, его рукописи были включены ...
    Спаны:
    • Эрнесто — name
    • Че — nickname
    • Гевара — surname
    Упоминания:
  • Эрнесто + Че + Гевара — Person
  • Инициалы нужно выделять обычными спанами типа name и patronymic. Точки, стоящие после инициалов, не нужно включать в эти спаны:

    Пример


    ... примерами из политической биографии В . И . Ленина , а заговаривая о дзен-буддизме ...
    Спаны:
    • В — name
    • И — patronymic
    • Ленин — surname
    Упоминания:
  • В + И + Ленин — Person
  • Цепочка должность + имя

    Должность не указываем в упоминаниях, только в спанах:

    Пример


    Известность диджея Грува стала расти после ...
    Спаны:
    • диджея — job
    • Грув — nickname
    Упоминания:
  • Грув — Person
  • Спан может состоять не только из одного слова, а из нескольки непрерывных:

    Пример


    — отметил министр экономики Алексей Улюкаев .
    Спаны:
    • министр экономики — job
    • Алексей — name
    • Улюкаев — surname
    Упоминания:
  • Алексей + Улюкаев — Person
  • Организации (упоминания объектов типа Org)

    Простейший случай: только имя организации

    Упоминается только собственное имя организации:

    Пример


    Новый скандал вокруг дела Викиликс поднялся после ...
    Спаны:
    • Викиликс — org_name
    Упоминания:
  • Викиликс — Org
  • Простой случай: дескриптор + имя организации

    Односложный (кавычки в название включать не нужно!):

    Пример


    Газета " Ведомости " пишет, что ...
    Спаны:
    • Газета — org_descr
    • Ведомости — org_name
    Упоминания:
  • Газета + Ведомости — Org
  • Спан дескриптора может состоять из нескольких слов:

    Пример


    ... в социальной сети Facebook были ...
    Спаны:
    • социальной + сети — org_descr
    • Facebook — org_name
    Упоминания:
  • социальной сети + Facebook — Org
  • Цепочка должность + организация

    Упоминание типа Person нет (в разное время могут быть разные люди, неконкретно):

    Пример


    При этом, по словам вице-президента Microsoft, анонс будет сопровождаться ...
    Спаны:
    • вице-президента — job
    • Microsoft — org_name
    Упоминания:
  • вице-президента + Microsoft — Org
  • Локации (упоминания объектов типа Location)

    Простейший случай: только название локации

    Локация - место в пространстве:

    Пример


    ... уехала скорым поездом в Москву ...
    Спаны:
    • Москву — loc_name
    Упоминания:
  • Москву — Location
  • Простой случай: дескриптор + название

    Пример


    С космодрома Байконур планируется запуск ...
    Спаны:
    • космодрома — loc_descr
    • Байконур — loc_name
    Упоминания:
  • космодрома + Байконур — Location
  • Локации в организационном контексте (упоминания объектов типа LocOrg)

    Цепочка организация + название местоположения

    Локация - место в пространстве:

    Пример


    ... на заседании правительства РФ ...
    Спаны:
    • правительства — org_descr
    • РФ — loc_name
    Упоминания:
  • правительства + РФ — LocOrg
  • Цепочка должность + название местоположения

    Локация - место в пространстве:

    Пример


    ... в соответствии с поручениам президента России подготовить к IV кварталу ...
    Спаны:
    • президента — job
    • России — loc_name
    Упоминания:
  • президента + России — LocOrg
  • Множественные упоминания

    Цепочка должность + организация + персона

    Типовой пример, простой и интуитивно понятный:

    Пример


    По словам руководителя Роскосмоса Анатолия Николаевича Перминова , уже идёт подготовка к ...
    Спаны:
    • руководителя — job
    • Роскосмоса — org_name
    • Анатолия — name
    • Николаевича — patronymic
    • Перминова — surname
    Упоминания:
  • Роскосмоса — LocOrg
  • Анатолия + Николаевича + Перминова — Person
  • Организация может быть без собственного имени:

    Пример


    в семье владельца сахарной плантации Анхеля Кастро-и-Аргиса ...
    Спаны:
    • владелец — job
    • сахарной плантации — org_descr
    • Анхеля — name
    • Кастро-и-Аргиса — surname
    Упоминания:
  • Анхеля + Кастро-и-Аргиса — Person
  • сахарной плантации — Org
  • Один спан может входить в несколько упоминаний

    Один и тот же спан может входить в несколько разных упоминаний:

    Пример


    Владимир и Виталий Кличко решили профинансировать ...
    Спаны:
    • Владимир — name
    • Виталий — name
    • Кличко — surname
    Упоминания:
  • Владимир + Кличко — Person
  • Виталий+ Кличко — Person
  • Не только для Person:

    Пример


    Невский и Литейный проспекты окончательно будут ...
    Спаны:
    • Невский — loc_name
    • Литейный — loc_name
    • проспекты — loc_descr
    Упоминания:
  • Невский + проспекты — Location
  • Литейный + проспекты — Location
  • Вариации наименования

    Персона на русском и на английском:

    Пример


    В 2007 году умерла Вильма Эспин ( Vilma Espin ) .
    Спаны:
    • Вильма — name
    • Эспин — surname
    • Vilma — name
    • Espin — surname
    Упоминания:
  • Вильма + Эспин — Person
  • Vilma + Espin — Person
  • Организация, указание полного и сокращённого наименования, а также аббревиатуры:

    Пример


    ... которая предоставлена Международным телекоммуникационным союзом ( International Telecommunications Union ( ITU ) ) для ...
    Спаны:
    • Международным телекоммуникационным союзом — org_name
    • International Telecommunications Union — org_name
    • ITU — org_name
    Упоминания:
  • Международным телекоммуникационным союзом — Org
  • International Telecommunications Union — Org
  • ITU — Org