Nermanual/1

Материал из OpenCorpora Вики
Перейти к: навигация, поиск

Инструкция по выделению именованных сущностей

Общая схема

Перед Вами текст, разделённый на абзацы. В каждом абзаце необходимо выделить все именованные сущности и указать их тип, после чего нажать кнопку «Я хочу закончить», после чего режим редактирования будет не доступен. Вы можете разметить весь текст целиком или остановиться после любого абзаца.

Этап 1. Поиск именованной сущности

Что считать именованной сущностью?

Именованной сущностью (ИС) считается слово или словосочетание, предназначенное для конкретного, вполне определённого предмета или явления, выделяющее этот предмет или явление из ряда однотипных предметов или явлений.

Именованная сущность:

1. Обычно пишется с заглавной буквы

2. Обязательно имеет референт, то есть того (тех), кому это имя принадлежит

Например,

На экраны вышел новый фильм братьев Коэнов.

“Коэны” имеют референт (конкретные два Коэна, являющиеся братьями друг другу), а значит перед нами именованная сущность.


В предложении

В Воткинске новорождённых девочек родители очень редко именуют Татьянами.

cлово «Татьянами» — именованной сущностью являться не будет, так как не имеет референта.

Этап 2. Определение границ именованной сущности

Именованной сущностью будет считаться самая длинная цепочка поcледовательных слов, отражающих имя.


Включение дескриптора

Дескриптором считается слово или словосочетание, указывающее на тип именованной сущности.

Дескриптор будет частью ИС:

0. Если является аббревиатурой/сокращением

* ОАО “Газпром”
* ЗАО “Ай-теко”
* г.Воркута 

1. Если ИС выражена прилагательным/причастием

* Санкт-Петербургский государственный университет

2. Если ИС относится к типу Местоположение [loc] и при этом не относится к Организации [org]

* Кавказские горы
* озеро Байкал
* улица Гоголя
* станция метро “Лубянка”
* город-герой Ленинград

Но:

* ресторан “Москва”
* школа “Радость”

Знаки препинания

Знаки препинания включаются только в том случае, если являются частью имени, а не используется в качестве разделителя. Кавычки входят в название, только в том случае, если в ИС включен дескриптор.

Например,

* фильм “Гардемарины, вперёд”  
* королева Греции Анна-Мария
* станция метро “Лубянка”

Но:

* Алексей Навальный (@navalny)
* Гатчина, Ленинградская область

Однородные члены

Если именованная сущность или дескриптор относится к однородным членам, то ИС выделяется отдельно, а дескриптор не выделяется вообще.

* Итан и Джоэл Коэны
* на станциях метро “Лубянка” и “Парк культуры”

Этап 3. Определение типа именованной сущности

На данный момент мы размечаем следующие типы именованных сущностей: Персона, Местоположение, Организация, Название произведения, Событие, Остальное.

Персона [person]

Относится к обозначению живых существ.

Может быть представлена следующими категориями:

* ФИО во всех вариациях 			Иван Михайлович, Лопе де Вега 
* Клички животных 				Мурзик, Шарик
* Имена и обозначения богов		        Зевс, Аллах, Бог
* Имена вымышленных персонажей  	        Амидала, Гарри Поттер
* Username/прозвище/псевдоним 		        @navalny
* Имя с прозвищем 				Эразм Роттердамский, Пётр Великий
* и т.п.

Все дополнения: фамильные приставки, признаки старшинства, родства (в случае написания через тире) и т.п. считаются частью именованной сущности

* Хуана де ла Морена
* Александр Дюма-старший
* Муми-мама 

Прилагательные/причастия, не являющиеся прозвищем или частью имени, не включаются в ИС.

* Святой Франциск
* Солнцеподобный Ким Чен Ын

Местоположение [loc]

Относится к обозначениям объектов, указывающих на положение в пространстве

Может быть представлена следующими категориями:

* природные объекты 	 		Кавказские горы, Баренцево море
* территориальные объекты 		Ростов-на-Дону, Липецкая область, Евразия
* публичные места 	 		ресторан “Москва”
* конструкции 				Троицкий мост, Биг Бен
* астрономические объекты 		астероид Веста, комета Галлея
* вымышленные места 		        Нарния, Атлантида
* и т.п.

Организация [org]

Относится к обозначениям любых типов организаций и объединений

* Apple
* благотворительная организация Перспективы
* Санкт-Петербургский государственный университет
* группа Metallica
* Кукрыниксы

Стоит отметить, что организации, не имеющие конкретного имени, не выделяются

* совет министров России
* Хор Московского государственного университета

Названия произведений [title]

Относится к обозначениям результатов деятельности человека

Может быть представлена следующими категориями:

* произведения искусства 		Вино из одуванчиков, Матрица, Мона Лиза,    

опера Дон Жуан, альбом Nevermind

* периодические издания		Ведомости, Аргументы и факты, Вокруг Света
* и пр. 	

События [event]

Относится к обозначениям общественных акций, событий, праздников, явлений

* Хэллоуин
* Пасха
* Великая Отечественная война
* вечерний спектакль Зелёный шатёр
* флешмоб Замирание 

Остальное [misc]

Все то, что является именованной сущностью, но не подходит под описания выше:

* слоганы 			                Just do it 		
* уникальные природные явления 		ураган Катрина
* эпохи, временные этапы 			Мезозойская эра 	
* названия ПО 					Ubuntu 13.04
* и пр.

Фразеологизм [phrase]

Тип-помета, добавляется к одному из типов выше, если ИС является частью фразеологизма.

* Бог его знает
* болен как Лазарь
* язык до Киева доведет

Cущности, которые не размечаются как ИС:

* URL’ы (если не являются названием организации)
* должности (папа Римский, Далай-лама, президент РФ)
* денежные и временные сущности (даты, количества и пр.)

Типичные случаи омонимии

В некоторых случаях сущности могут относится к двум типам. Если по контексту выбор между ними не разрешается, то выделяются оба.

Типичные случаи омонимии представлены в следующих типах:

loc/org

Обычно встречается у публичных мест.

У ресторана “Плакучая ива” было совершено покушение на убийство. -loc Недавно в Московском районе открылся ресторан “Плакучая ива”. -org

Ресторан “Плакучая ива” - самое посещаемый ресторан в городе. -org/loc

loc/title

Обычно встречается у произведений архитектуры, ландшафта

Триумфальная арка выполнена в античном стиле. - title

Мы встретились у Триумфальной арки. - loc/title

org/title

Обычно встречается у периодических изданий

Отдел редакторов газеты “Ведомости” устроил протест. - org Ежедневно тысячи людей читают газету “Ведомости”. - title

Газета “Ведомости” сообщает о сложной политической ситуации. - org/title