Nermanual/1: различия между версиями

Материал из OpenCorpora
Перейти к навигации Перейти к поиску
Нет описания правки
м (GranD переименовал страницу Инструкция по определению именованных сущностей в Nermanual/1 поверх перенаправления)
 
(не показано 38 промежуточных версий 5 участников)
Строка 3: Строка 3:
==Общая схема==
==Общая схема==


Перед Вами текст, разделённый на абзацы. В каждом абзаце необходимо выделить все именованные сущности и указать их тип, после чего нажать кнопку «<span style="background-color:#FFA07A">Я хочу закончить</span>». Обратите внимание, что !!!после нажатия кнопки режим редактирования будет не доступен!!!. Вы можете разметить весь текст целиком или остановиться после любого абзаца.
Перед Вами текст, разделённый на абзацы. В каждом абзаце необходимо выделить все именованные сущности и указать их тип, после чего нажать кнопку «<span style="color:#FF6347">Сохранить</span>». Обратите внимание, что '''после нажатия кнопки режим редактирования будет не доступен'''. Вы можете разметить весь текст целиком или остановиться после любого абзаца.


===Этап 1. Поиск именованной сущности===
===Этап 1. Поиск именованной сущности===
Строка 9: Строка 9:
Что считать именованной сущностью?
Что считать именованной сущностью?


[https://ru.wikipedia.org/wiki/Имя_собственое Именованной сущностью (ИС)] считается слово или словосочетание, предназначенное для  конкретного, вполне определённого предмета или явления, выделяющее этот предмет или явление из ряда однотипных предметов или явлений.
[https://ru.wikipedia.org/wiki/Имя_собственное Именованной сущностью (ИС)] считается слово или словосочетание, предназначенное для  конкретного, вполне определённого предмета или явления, выделяющее этот предмет или явление из ряда однотипных предметов или явлений.


Именованная сущность:
Именованная сущность:
Строка 37: Строка 37:
'''Включение дескриптора'''
'''Включение дескриптора'''


Дескриптором считается слово или словосочетание, указывающее на тип именованной сущности.  
Дескриптором считается слово или словосочетание, указывающее на [https://www.google.ru/url?sa=t&rct=j&q=&esrc=s&source=web&cd=2&ved=0CC0QygQwAQ&url=http%3A%2F%2Fru.wikipedia.org%2Fwiki%2F%25D0%25A1%25D0%25BE%25D0%25B4%25D0%25B5%25D1%2580%25D0%25B6%25D0%25B0%25D0%25BD%25D0%25B8%25D0%25B5_%25D0%25BF%25D0%25BE%25D0%25BD%25D1%258F%25D1%2582%25D0%25B8%25D1%258F%23.D0.A0.D0.BE.D0.B4.D0.BE.D0.B2.D1.8B.D0.B5_.D0.B8_.D0.B2.D0.B8.D0.B4.D0.BE.D0.B2.D1.8B.D0.B5_.D0.BF.D0.BE.D0.BD.D1.8F.D1.82.D0.B8.D1.8F&ei=8ugTVJ3nMYm6ygOez4GQCg&usg=AFQjCNFfGxBOudxaDvchO0hHD6ZwIaVTVg&sig2=JSCFqoRy1Ngo-ibJSSqszw&bvm=bv.75097201,d.bGQ&cad=rjt родовое понятие] именованной сущности. Например, озеро Байкал - 'озеро', Комитет по безопасности - 'комитет'. 


Дескриптор будет частью ИС:   
Дескриптор будет частью ИС:   


0. Если является аббревиатурой
0. Если является аббревиатурой  


  * <span style="background-color:#EE82EE">ОАО “Газпром”</span>
  * <span style="background-color:#EE82EE">ОАО “Газпром”</span>
  * <span style="background-color:#EE82EE">ЗАО “Ай-теко”</span>
  * <span style="background-color:#EE82EE">ЗАО “Ай-теко”</span>


1. Если ИС выражена прилагательным/причастием
1. Если дескриптор является вершиной именной группы, но при этом имя не является приложением.


  * <span style="background-color:#EE82EE">Санкт-Петербургский государственный университет</span>
  * <span style="background-color:#EE82EE">Санкт-Петербургский государственный университет</span>
* <span style="background-color:#EE82EE">Комитет по безопасности</span>


2. Если ИС относится к типу Местоположение [loc] и при этом не относится к Организации [org]
'''Но:'''


  * <span style="background-color:#DDA0DD">Кавказские горы</span>
  * город <span style="background-color:#DDA0DD">Тула</span>
* <span style="background-color:#DDA0DD">озеро Байкал</span>
  * патриотическая организация<span style="background-color:#EE82EE">"Мау"</span>
* <span style="background-color:#DDA0DD">улица Гоголя</span>
  * станция метро <span style="background-color:#DDA0DD">“Лубянка”</span>
* <span style="background-color:#DDA0DD">город-герой Ленинград</span>
* <span style="background-color:#DDA0DD">г.Воркута</span>


'''Но:'''
* ресторан “<span style="background-color:#DDA0DD">Москва</span>”
* школа “<span style="background-color:#DDA0DD">Радость</span>”


'''Знаки препинания'''
'''Знаки препинания'''
Строка 114: Строка 108:
  * Святой <span style="background-color:#B0C4DE">Франциск</span>
  * Святой <span style="background-color:#B0C4DE">Франциск</span>
  * Солнцеподобный <span style="background-color:#B0C4DE">Ким Чен Ын</span>
  * Солнцеподобный <span style="background-color:#B0C4DE">Ким Чен Ын</span>
Кроме того, мы не размечаем имена в составе ИС типа loc и org (см. ниже). Это же касается конструкций типа ''им. Кирова'' и ''имени Кирова'', даже если ''им. / имени'' опущено. Однако имена будут размечаться в названиях, похожих на org/loc, но являющихся типовыми обозначениями сущностей (родовыми понятиями?):
* детский сад <span style="background-color:#B0C4DE">Монтессори</span>


====Местоположение [loc]====
====Местоположение [loc]====
Строка 121: Строка 119:


  * природные объекты <span style="background-color:#DDA0DD">Кавказские горы</span>, <span style="background-color:#DDA0DD">Баренцево море</span>
  * природные объекты <span style="background-color:#DDA0DD">Кавказские горы</span>, <span style="background-color:#DDA0DD">Баренцево море</span>
  * территориальные объекты <span style="background-color:#DDA0DD">Ростов-на-Дону</span>, <span style="background-color:#DDA0DD">Липецкая область</span>, <span style="background-color:#DDA0DD">Евразия</span>
  * территориальные объекты <span style="background-color:#DDA0DD">Ростов-на-Дону</span>, <span style="background-color:#DDA0DD">Липецкая область</span>, <span style="background-color:#DDA0DD">Евразия</span>, <span style="background-color:#DDA0DD">парк им. Горького</span>
* публичные места ресторан “<span style="background-color:#DDA0DD">Москва</span>
  * конструкции <span style="background-color:#DDA0DD">Троицкий мост</span>, <span style="background-color:#DDA0DD">Биг Бен</span>
  * конструкции <span style="background-color:#DDA0DD">Троицкий мост</span>, <span style="background-color:#DDA0DD">Биг Бен</span>
  * астрономические объекты <span style="background-color:#DDA0DD">астероид Веста</span>, <span style="background-color:#DDA0DD">комета Галлея</span>
  * астрономические объекты астероид <span style="background-color:#DDA0DD">Веста</span>, <span style="background-color:#DDA0DD">комета Галлея</span>
  * вымышленные места         <span style="background-color:#DDA0DD">Нарния</span>, <span style="background-color:#DDA0DD">Атлантида</span>
  * вымышленные места         <span style="background-color:#DDA0DD">Нарния</span>, <span style="background-color:#DDA0DD">Атлантида</span>
  * и т.п.
  * и т.п.


====Организация [org]====
====Организация [org]====
Относится к обозначениям любых типов организаций и объединений
Если сущность может быть местом работы человека или в ней можно состоять в качестве члена и цепочка, включает какие-то слова, кроме указания на родовое понятие, то это сущность типа '''org'''.
 
Имя организации может быть выражено несколькими способами:


  * Apple
  * личное имя                      компания <span style="background-color:#EE82EE">Apple</span>
* благотворительная организация Перспективы
* Санкт-Петербургский государственный университет
* группа Metallica
* Кукрыниксы


Стоит отметить, что организации, не имеющие конкретного имени, '''не выделяются'''
[с дескриптором как частью имени]
 
* заимствованное имя            <span style="background-color:#EE82EE">библиотека им. Маяковского</span>
* номер                          <span style="background-color:#EE82EE">школа №13</span>
* название по месту              <span style="background-color:#EE82EE">парламент Англии</span>
* название по цели/деятельности  <span style="background-color:#EE82EE">Центр управления полётами</span>
* название по участникам        <span style="background-color:#EE82EE">Клуб поклонников Формулы 1</span>
* и т.п.
 
 
В случае вложенных названий организаций мы размечаем самую длинную цепочку:
 
* <span style="background-color:#EE82EE">Комитет по архитектуре и градостроительству города Москвы</span>
 
Важно помнить, что все названия организаций, даже употребленные в значении местоположения, размечаются как '''org''' и только как '''org''':
 
* Мы встретились в <span style="background-color:#EE82EE">Комитете по культуре</span>.


* совет министров России
* Хор Московского государственного университета
====Названия произведений [title]====
====Названия произведений [title]====
Относится к обозначениям результатов деятельности человека
Относится к обозначениям результатов деятельности человека
Строка 147: Строка 155:
Может быть представлена следующими категориями:
Может быть представлена следующими категориями:
  * произведения искусства Вино из одуванчиков, Матрица, Мона Лиза,  
  * произведения искусства <span style="background-color:#FFE4E1">Вино из одуванчиков</span>, <span style="background-color:#FFE4E1">Матрица</span>, <span style="background-color:#FFE4E1">Мона Лиза</span>, опера <span style="background-color:#FFE4E1">Дон Жуан</span>,альбом <span style="background-color:#FFE4E1">Nevermind</span>
                                опера Дон Жуан, альбом Nevermind
  * работа СМИ                 <span style="background-color:#FFE4E1">Ведомости</span>, <span style="background-color:#FFE4E1">Аргументы и факты</span>, <span style="background-color:#FFE4E1">Вокруг Света</span>
  * периодические издания Ведомости, Аргументы и факты, Вокруг Света
* научные тексты                диссертация "<span style="background-color:#FFE4E1">Влияние поэзии Блока на умы современности</span>"
  * и пр.
* разработки                    <span style="background-color:#FFE4E1">Ubuntu 14.04</span>
  * и пр.
 
В случае, если слова с основным значением "название организации" употребляются в значении "результат деятельности этой организации", им ставится тег '''title''':
 
* искать <span style="background-color:#FFE4E1">Яндексом</span>


====События [event]====
====События [event]====
Относится к обозначениям общественных акций, событий, праздников, явлений
Относится к обозначениям общественных акций, событий, праздников, явлений


  * Хэллоуин
  * <span style="background-color:#F4A460">Хэллоуин</span>
  * Пасха
  * <span style="background-color:#F4A460">Пасха</span>
  * Великая Отечественная война
  * <span style="background-color:#F4A460">Великая Отечественная война</span>
  * вечерний спектакль Зелёный шатёр
  * вечерний спектакль <span style="background-color:#F4A460">Зелёный шатёр</span>
  * флешмоб Замирание  
  * флешмоб <span style="background-color:#F4A460">Замирание</span>


====Остальное [misc]====
====Остальное [misc]====
Все то, что является именованной сущностью, но не подходит под описания выше:
Все то, что является именованной сущностью, но не подходит под описания выше:
  * слоганы                 Just do it
  * слоганы                 <span style="background-color:#FFA500">Just do it</span>
  * уникальные природные явления ураган Катрина
  * уникальные природные явления           ураган <span style="background-color:#FFA500">Катрина</span>
  * эпохи, временные этапы Мезозойская эра
  * эпохи, временные этапы <span style="background-color:#FFA500">Мезозойская эра</span>
* названия ПО Ubuntu 13.04
  * и пр.
  * и пр.


Строка 173: Строка 185:
Тип-помета, добавляется к одному из типов выше, если ИС является частью фразеологизма.  
Тип-помета, добавляется к одному из типов выше, если ИС является частью фразеологизма.  


  * Бог его знает
  * <span style="background-color:#FFFF00">Бог</span> его знает
  * болен как Лазарь
  * болен как <span style="background-color:#FFFF00">Лазарь</span>
  * язык до Киева доведет
  * язык до <span style="background-color:#FFFF00">Киева</span> доведет


====Cущности, которые не размечаются как ИС:====
====Cущности, которые не размечаются как ИС:====
Строка 183: Строка 195:


===Типичные случаи омонимии===
===Типичные случаи омонимии===
В некоторых случаях сущности могут относится к двум типам. Если по контексту выбор между ними не разрешается, то выделяются оба.
В некоторых случаях сущности могут относится к двум типам. Если по контексту выбор между ними не разрешается, то выделяются оба:  
 
Типичные случаи омонимии представлены в следующих типах:
 
====loc/org====
Обычно встречается у публичных мест.
 
У ресторана “Плакучая ива” было совершено покушение на убийство.  -loc 
Недавно в Московском районе открылся ресторан “Плакучая ива”. -org
 
Ресторан “Плакучая ива” - самое посещаемый ресторан в городе. -org/loc


====loc/title====
====loc/title====
Обычно встречается у произведений архитектуры, ландшафта
Обычно встречается у произведений архитектуры, ландшафта


Триумфальная арка выполнена в античном стиле. - title
<span style="background-color:#FFE4E1">Триумфальная арка</span> выполнена в античном стиле. - [title]<br><br>
 
Мы встретились у <span style="background-color:#D3D3D3">Триумфальной арки</span>. - [loc/title]
Мы встретились у Триумфальной арки. - loc/title  


====org/title====
====org/title====
Обычно встречается у периодических изданий
Обычно встречается у периодических изданий


Отдел редакторов газеты “Ведомости” устроил протест.  - org
Отдел редакторов газеты “<span style="background-color:#EE82EE">Ведомости</span>” устроил протест.  - [org]<br>
Ежедневно тысячи людей читают газету “Ведомости”. - title
Ежедневно тысячи людей читают газету “<span style="background-color:#FFE4E1">Ведомости</span>”. - [title]<br><br>
 
Газета “<span style="background-color:#D3D3D3">Ведомости</span>” сообщает о сложной политической ситуации. - [org/title]
Газета “Ведомости” сообщает о сложной политической ситуации. - org/title

Текущая версия от 16:26, 30 октября 2015

Инструкция по определению именованных сущностей

Общая схема

Перед Вами текст, разделённый на абзацы. В каждом абзаце необходимо выделить все именованные сущности и указать их тип, после чего нажать кнопку «Сохранить». Обратите внимание, что после нажатия кнопки режим редактирования будет не доступен. Вы можете разметить весь текст целиком или остановиться после любого абзаца.

Этап 1. Поиск именованной сущности

Что считать именованной сущностью?

Именованной сущностью (ИС) считается слово или словосочетание, предназначенное для конкретного, вполне определённого предмета или явления, выделяющее этот предмет или явление из ряда однотипных предметов или явлений.

Именованная сущность:

1. Обычно пишется с заглавной буквы

2. Обязательно имеет референт, то есть того (тех), кому это имя принадлежит

Например,

На экраны вышел новый фильм братьев Коэнов.

“Коэны” имеют референт (конкретные два Коэна, являющиеся братьями друг другу), а значит перед нами именованная сущность.


В предложении

В Воткинске новорождённых девочек родители очень редко именуют Татьянами.

cлово «Татьянами» — именованной сущностью являться не будет, так как не имеет референта.

Этап 2. Определение границ именованной сущности

Именованной сущностью будет считаться самая длинная цепочка поcледовательных слов, отражающих имя.


Включение дескриптора

Дескриптором считается слово или словосочетание, указывающее на родовое понятие именованной сущности. Например, озеро Байкал - 'озеро', Комитет по безопасности - 'комитет'.

Дескриптор будет частью ИС:

0. Если является аббревиатурой

* ОАО “Газпром”
* ЗАО “Ай-теко”

1. Если дескриптор является вершиной именной группы, но при этом имя не является приложением.

* Санкт-Петербургский государственный университет
* Комитет по безопасности

Но:

* город Тула
* патриотическая организация"Мау"


Знаки препинания

Знаки препинания включаются только в том случае, если являются частью имени, а не используется в качестве разделителя. Кавычки входят в название, только в том случае, если в ИС включен дескриптор.

Например,

* фильм “Гардемарины, вперёд”  
* королева Греции Анна-Мария
* ОАО "Газпром"

Но:

* Алексей Навальный  (@navalny)
* Гатчина, Ленинградская область

Однородные члены

Если именованная сущность или дескриптор относится к однородным членам, то ИС выделяется отдельно, а дескриптор не выделяется вообще.

* Итан и Джоэл Коэны
* на станциях метро “Лубянка” и “Парк культуры”
* пересечение Невского и Литейного проспектов

Этап 3. Определение типа именованной сущности

На данный момент мы размечаем следующие типы именованных сущностей: Персона, Местоположение, Организация, Название произведения, Событие, Остальное.

Персона [person]

Относится к обозначению живых существ.

Может быть представлена следующими категориями:

* ФИО во всех вариациях 			Иван Михайлович, Лопе де Вега 
* Клички животных 				Мурзик, Шарик
* Имена и обозначения богов		        Зевс, Аллах, Бог
* Имена вымышленных персонажей  	        Амидала, Гарри Поттер, Ктулху
* Username/прозвище/псевдоним 		        @navalny
* Имя с прозвищем 				Эразм Роттердамский, Пётр Великий
* и т.п.

Все дополнения: фамильные приставки, признаки старшинства, родства (в случае написания через тире) и т.п. считаются частью именованной сущности

* Хуана де ла Морена
* Александр Дюма-старший
* Муми-мама

Прилагательные/причастия, не являющиеся прозвищем или частью имени, не включаются в ИС.

* Святой Франциск
* Солнцеподобный Ким Чен Ын

Кроме того, мы не размечаем имена в составе ИС типа loc и org (см. ниже). Это же касается конструкций типа им. Кирова и имени Кирова, даже если им. / имени опущено. Однако имена будут размечаться в названиях, похожих на org/loc, но являющихся типовыми обозначениями сущностей (родовыми понятиями?):

* детский сад Монтессори

Местоположение [loc]

Относится к обозначениям объектов, указывающих на положение в пространстве

Может быть представлена следующими категориями:

* природные объекты 	 		Кавказские горы, Баренцево море
* территориальные объекты		Ростов-на-Дону, Липецкая область, Евразия, парк им. Горького
* конструкции 				Троицкий мост, Биг Бен
* астрономические объекты 		астероид Веста, комета Галлея
* вымышленные места 		        Нарния, Атлантида
* и т.п.

Организация [org]

Если сущность может быть местом работы человека или в ней можно состоять в качестве члена и цепочка, включает какие-то слова, кроме указания на родовое понятие, то это сущность типа org.

Имя организации может быть выражено несколькими способами:

* личное имя                      компания Apple

[с дескриптором как частью имени]

* заимствованное имя             библиотека им. Маяковского
* номер                          школа №13
* название по месту              парламент Англии
* название по цели/деятельности  Центр управления полётами
* название по участникам         Клуб поклонников Формулы 1 
* и т.п.


В случае вложенных названий организаций мы размечаем самую длинную цепочку:

* Комитет по архитектуре и градостроительству города Москвы

Важно помнить, что все названия организаций, даже употребленные в значении местоположения, размечаются как org и только как org:

* Мы встретились в Комитете по культуре.

Названия произведений [title]

Относится к обозначениям результатов деятельности человека

Может быть представлена следующими категориями:

* произведения искусства 	Вино из одуванчиков, Матрица, Мона Лиза, опера Дон Жуан,альбом Nevermind
* работа СМИ	                Ведомости, Аргументы и факты, Вокруг Света
* научные тексты                диссертация "Влияние поэзии Блока на умы современности"
* разработки                    Ubuntu 14.04
* и пр.

В случае, если слова с основным значением "название организации" употребляются в значении "результат деятельности этой организации", им ставится тег title:

* искать Яндексом

События [event]

Относится к обозначениям общественных акций, событий, праздников, явлений

* Хэллоуин
* Пасха
* Великая Отечественная война
* вечерний спектакль Зелёный шатёр
* флешмоб Замирание

Остальное [misc]

Все то, что является именованной сущностью, но не подходит под описания выше:

* слоганы 			                Just do it 		
* уникальные природные явления 	          	ураган Катрина
* эпохи, временные этапы 			Мезозойская эра 	
* и пр.

Фразеологизм [phrase]

Тип-помета, добавляется к одному из типов выше, если ИС является частью фразеологизма.

* Бог его знает
* болен как Лазарь
* язык до Киева доведет

Cущности, которые не размечаются как ИС:

* URL’ы (если не являются названием организации)
* должности (папа Римский, Далай-лама, президент РФ)
* денежные и временные сущности (даты, количества и пр.)

Типичные случаи омонимии

В некоторых случаях сущности могут относится к двум типам. Если по контексту выбор между ними не разрешается, то выделяются оба:

loc/title

Обычно встречается у произведений архитектуры, ландшафта

Триумфальная арка выполнена в античном стиле. - [title]

Мы встретились у Триумфальной арки. - [loc/title]

org/title

Обычно встречается у периодических изданий

Отдел редакторов газеты “Ведомости” устроил протест. - [org]
Ежедневно тысячи людей читают газету “Ведомости”. - [title]

Газета “Ведомости” сообщает о сложной политической ситуации. - [org/title]