Nermanual/1: различия между версиями

Материал из OpenCorpora
Перейти к навигации Перейти к поиску
Нет описания правки
Нет описания правки
Строка 1: Строка 1:
=Инструкция по выделению именованных сущностей=
=Инструкция по определению именованных сущностей=


==Общая схема==
==Общая схема==


Перед Вами текст, разделённый на абзацы. В каждом абзаце необходимо выделить все именованные сущности и указать их тип, после чего нажать кнопку «Я хочу закончить». Обратите внимание, что после нажатия кнопки режим редактирования будет не доступен. Вы можете разметить весь текст целиком или остановиться после любого абзаца.
Перед Вами текст, разделённый на абзацы. В каждом абзаце необходимо выделить все именованные сущности и указать их тип, после чего нажать кнопку «<span style="background-color:#FFA07A">Я хочу закончить</span>». Обратите внимание, что !!!после нажатия кнопки режим редактирования будет не доступен!!!. Вы можете разметить весь текст целиком или остановиться после любого абзаца.


===Этап 1. Поиск именованной сущности===
===Этап 1. Поиск именованной сущности===
Строка 19: Строка 19:
Например,
Например,


  На экраны вышел новый фильм братьев Коэнов.
  На экраны вышел новый фильм братьев <span style="background-color:#D3D3D3">Коэнов</span>.


“Коэны” имеют референт (конкретные два Коэна, являющиеся братьями друг другу),  а значит перед нами именованная сущность.  
“Коэны” имеют референт (конкретные два Коэна, являющиеся братьями друг другу),  а значит перед нами именованная сущность.  
Строка 26: Строка 26:
В предложении
В предложении


  В Воткинске новорождённых девочек родители очень редко именуют Татьянами.
  В Воткинске новорождённых девочек родители очень редко именуют <span style="background-color:#D3D3D3">Татьянами</span>.


cлово «Татьянами» — именованной сущностью являться не будет, так как не имеет референта.
cлово «Татьянами» — именованной сущностью являться не будет, так как не имеет референта.
Строка 96: Строка 96:
Может быть представлена следующими категориями:
Может быть представлена следующими категориями:


  * ФИО во всех вариациях Иван Михайлович, Лопе де Вега  
  * ФИО во всех вариациях <span style="background-color:#B0C4DE">Иван Михайлович</span>, <span style="background-color:#B0C4DE">Лопе де Вега</span>
  * Клички животных Мурзик, Шарик
  * Клички животных <span style="background-color:#B0C4DE">Мурзик</span>, <span style="background-color:#B0C4DE">Шарик</span>
  * Имена и обозначения богов         Зевс, Аллах, Бог
  * Имена и обозначения богов         <span style="background-color:#B0C4DE">Зевс</span>, <span style="background-color:#B0C4DE">Аллах</span>, <span style="background-color:#B0C4DE">Бог</span>
  * Имена вымышленных персонажей          Амидала, Гарри Поттер
  * Имена вымышленных персонажей          <span style="background-color:#B0C4DE">Амидала</span>, <span style="background-color:#B0C4DE">Гарри Поттер</span>, <span style="background-color:#B0C4DE">Ктулху</span>
  * Username/прозвище/псевдоним         @navalny
  * Username/прозвище/псевдоним         <span style="background-color:#B0C4DE">@navalny</span>
  * Имя с прозвищем Эразм Роттердамский, Пётр Великий
  * Имя с прозвищем <span style="background-color:#B0C4DE">Эразм Роттердамский</span>, <span style="background-color:#B0C4DE">Пётр Великий</span>
  * и т.п.
  * и т.п.


Все дополнения: фамильные приставки, признаки старшинства, родства (в случае написания через тире) и т.п. '''считаются''' частью именованной сущности
Все дополнения: фамильные приставки, признаки старшинства, родства (в случае написания через тире) и т.п. '''считаются''' частью именованной сущности


  * Хуана де ла Морена
  * <span style="background-color:#B0C4DE">Хуана де ла Морена</span>
  * Александр Дюма-старший
  * <span style="background-color:#B0C4DE">Александр Дюма-старший</span>
  * Муми-мама  
  * <span style="background-color:#B0C4DE">Муми-мама</span>


Прилагательные/причастия, не являющиеся прозвищем или частью имени, '''не включаются''' в  ИС.
Прилагательные/причастия, не являющиеся прозвищем или частью имени, '''не включаются''' в  ИС.


  * Святой Франциск
  * Святой <span style="background-color:#B0C4DE">Франциск</span>
  * Солнцеподобный Ким Чен Ын
  * Солнцеподобный <span style="background-color:#B0C4DE">Ким Чен Ын</span>


====Местоположение [loc]====
====Местоположение [loc]====
Строка 120: Строка 120:
Может быть представлена следующими категориями:
Может быть представлена следующими категориями:


  * природные объекты Кавказские горы, Баренцево море
  * природные объекты <span style="background-color:#DDA0DD">Кавказские горы</span>, <span style="background-color:#DDA0DD">Баренцево море</span>
  * территориальные объекты Ростов-на-Дону, Липецкая область, Евразия
  * территориальные объекты <span style="background-color:#DDA0DD">Ростов-на-Дону</span>, <span style="background-color:#DDA0DD">Липецкая область</span>, <span style="background-color:#DDA0DD">Евразия</span>
  * публичные места ресторан “Москва”
  * публичные места ресторан “<span style="background-color:#DDA0DD">Москва</span>”
  * конструкции Троицкий мост, Биг Бен
  * конструкции <span style="background-color:#DDA0DD">Троицкий мост</span>, <span style="background-color:#DDA0DD">Биг Бен</span>
  * астрономические объекты астероид Веста, комета Галлея
  * астрономические объекты <span style="background-color:#DDA0DD">астероид Веста</span>, <span style="background-color:#DDA0DD">комета Галлея</span>
  * вымышленные места         Нарния, Атлантида
  * вымышленные места         <span style="background-color:#DDA0DD">Нарния</span>, <span style="background-color:#DDA0DD">Атлантида</span>
  * и т.п.
  * и т.п.



Версия от 10:48, 19 августа 2014

Инструкция по определению именованных сущностей

Общая схема

Перед Вами текст, разделённый на абзацы. В каждом абзаце необходимо выделить все именованные сущности и указать их тип, после чего нажать кнопку «Я хочу закончить». Обратите внимание, что !!!после нажатия кнопки режим редактирования будет не доступен!!!. Вы можете разметить весь текст целиком или остановиться после любого абзаца.

Этап 1. Поиск именованной сущности

Что считать именованной сущностью?

Именованной сущностью (ИС) считается слово или словосочетание, предназначенное для конкретного, вполне определённого предмета или явления, выделяющее этот предмет или явление из ряда однотипных предметов или явлений.

Именованная сущность:

1. Обычно пишется с заглавной буквы

2. Обязательно имеет референт, то есть того (тех), кому это имя принадлежит

Например,

На экраны вышел новый фильм братьев Коэнов.

“Коэны” имеют референт (конкретные два Коэна, являющиеся братьями друг другу), а значит перед нами именованная сущность.


В предложении

В Воткинске новорождённых девочек родители очень редко именуют Татьянами.

cлово «Татьянами» — именованной сущностью являться не будет, так как не имеет референта.

Этап 2. Определение границ именованной сущности

Именованной сущностью будет считаться самая длинная цепочка поcледовательных слов, отражающих имя.


Включение дескриптора

Дескриптором считается слово или словосочетание, указывающее на тип именованной сущности.

Дескриптор будет частью ИС:

0. Если является аббревиатурой

* ОАО “Газпром”
* ЗАО “Ай-теко”

1. Если ИС выражена прилагательным/причастием

* Санкт-Петербургский государственный университет

2. Если ИС относится к типу Местоположение [loc] и при этом не относится к Организации [org]

* Кавказские горы
* озеро Байкал
* улица Гоголя
* станция метро “Лубянка”
* город-герой Ленинград
* г.Воркута

Но:

* ресторан “Москва”
* школа “Радость

Знаки препинания

Знаки препинания включаются только в том случае, если являются частью имени, а не используется в качестве разделителя. Кавычки входят в название, только в том случае, если в ИС включен дескриптор.

Например,

* фильм “Гардемарины, вперёд”  
* королева Греции Анна-Мария
* ОАО "Газпром"

Но:

* Алексей Навальный  (@navalny)
* Гатчина, Ленинградская область

Однородные члены

Если именованная сущность или дескриптор относится к однородным членам, то ИС выделяется отдельно, а дескриптор не выделяется вообще.

* Итан и Джоэл Коэны
* на станциях метро “Лубянка” и “Парк культуры”
* пересечение Невского и Литейного проспектов

Этап 3. Определение типа именованной сущности

На данный момент мы размечаем следующие типы именованных сущностей: Персона, Местоположение, Организация, Название произведения, Событие, Остальное.

Персона [person]

Относится к обозначению живых существ.

Может быть представлена следующими категориями:

* ФИО во всех вариациях 			Иван Михайлович, Лопе де Вега 
* Клички животных 				Мурзик, Шарик
* Имена и обозначения богов		        Зевс, Аллах, Бог
* Имена вымышленных персонажей  	        Амидала, Гарри Поттер, Ктулху
* Username/прозвище/псевдоним 		        @navalny
* Имя с прозвищем 				Эразм Роттердамский, Пётр Великий
* и т.п.

Все дополнения: фамильные приставки, признаки старшинства, родства (в случае написания через тире) и т.п. считаются частью именованной сущности

* Хуана де ла Морена
* Александр Дюма-старший
* Муми-мама

Прилагательные/причастия, не являющиеся прозвищем или частью имени, не включаются в ИС.

* Святой Франциск
* Солнцеподобный Ким Чен Ын

Местоположение [loc]

Относится к обозначениям объектов, указывающих на положение в пространстве

Может быть представлена следующими категориями:

* природные объекты 	 		Кавказские горы, Баренцево море
* территориальные объекты 		Ростов-на-Дону, Липецкая область, Евразия
* публичные места 	 		ресторан “Москва”
* конструкции 				Троицкий мост, Биг Бен
* астрономические объекты 		астероид Веста, комета Галлея
* вымышленные места 		        Нарния, Атлантида
* и т.п.

Организация [org]

Относится к обозначениям любых типов организаций и объединений

* Apple
* благотворительная организация Перспективы
* Санкт-Петербургский государственный университет
* группа Metallica
* Кукрыниксы

Стоит отметить, что организации, не имеющие конкретного имени, не выделяются

* совет министров России
* Хор Московского государственного университета

Названия произведений [title]

Относится к обозначениям результатов деятельности человека

Может быть представлена следующими категориями:

* произведения искусства 		Вино из одуванчиков, Матрица, Мона Лиза,    

опера Дон Жуан, альбом Nevermind

* периодические издания		Ведомости, Аргументы и факты, Вокруг Света
* и пр. 	

События [event]

Относится к обозначениям общественных акций, событий, праздников, явлений

* Хэллоуин
* Пасха
* Великая Отечественная война
* вечерний спектакль Зелёный шатёр
* флешмоб Замирание 

Остальное [misc]

Все то, что является именованной сущностью, но не подходит под описания выше:

* слоганы 			                Just do it 		
* уникальные природные явления 		ураган Катрина
* эпохи, временные этапы 			Мезозойская эра 	
* названия ПО 					Ubuntu 13.04
* и пр.

Фразеологизм [phrase]

Тип-помета, добавляется к одному из типов выше, если ИС является частью фразеологизма.

* Бог его знает
* болен как Лазарь
* язык до Киева доведет

Cущности, которые не размечаются как ИС:

* URL’ы (если не являются названием организации)
* должности (папа Римский, Далай-лама, президент РФ)
* денежные и временные сущности (даты, количества и пр.)

Типичные случаи омонимии

В некоторых случаях сущности могут относится к двум типам. Если по контексту выбор между ними не разрешается, то выделяются оба.

Типичные случаи омонимии представлены в следующих типах:

loc/org

Обычно встречается у публичных мест.

У ресторана “Плакучая ива” было совершено покушение на убийство. -loc Недавно в Московском районе открылся ресторан “Плакучая ива”. -org

Ресторан “Плакучая ива” - самое посещаемый ресторан в городе. -org/loc

loc/title

Обычно встречается у произведений архитектуры, ландшафта

Триумфальная арка выполнена в античном стиле. - title

Мы встретились у Триумфальной арки. - loc/title

org/title

Обычно встречается у периодических изданий

Отдел редакторов газеты “Ведомости” устроил протест. - org Ежедневно тысячи людей читают газету “Ведомости”. - title

Газета “Ведомости” сообщает о сложной политической ситуации. - org/title