Nermanual/1: различия между версиями

Материал из OpenCorpora
Перейти к навигации Перейти к поиску
м (GranD переименовал страницу Инструкция по определению именованных сущностей в Nermanual/1 поверх перенаправления)
 
(не показаны 2 промежуточные версии 2 участников)
Строка 3: Строка 3:
==Общая схема==
==Общая схема==


Перед Вами текст, разделённый на абзацы. В каждом абзаце необходимо выделить все именованные сущности и указать их тип, после чего нажать кнопку «<span style="color:#FF6347">Я хочу закончить</span>». Обратите внимание, что '''после нажатия кнопки режим редактирования будет не доступен'''. Вы можете разметить весь текст целиком или остановиться после любого абзаца.
Перед Вами текст, разделённый на абзацы. В каждом абзаце необходимо выделить все именованные сущности и указать их тип, после чего нажать кнопку «<span style="color:#FF6347">Сохранить</span>». Обратите внимание, что '''после нажатия кнопки режим редактирования будет не доступен'''. Вы можете разметить весь текст целиком или остановиться после любого абзаца.


===Этап 1. Поиск именованной сущности===
===Этап 1. Поиск именованной сущности===
Строка 53: Строка 53:
'''Но:'''
'''Но:'''


  * город <span style="background-color:#EE82EE">Тула</span>
  * город <span style="background-color:#DDA0DD">Тула</span>
  * патриотическая организация<span style="background-color:#EE82EE">"Мау"</span>
  * патриотическая организация<span style="background-color:#EE82EE">"Мау"</span>



Текущая версия от 16:26, 30 октября 2015

Инструкция по определению именованных сущностей

Общая схема

Перед Вами текст, разделённый на абзацы. В каждом абзаце необходимо выделить все именованные сущности и указать их тип, после чего нажать кнопку «Сохранить». Обратите внимание, что после нажатия кнопки режим редактирования будет не доступен. Вы можете разметить весь текст целиком или остановиться после любого абзаца.

Этап 1. Поиск именованной сущности

Что считать именованной сущностью?

Именованной сущностью (ИС) считается слово или словосочетание, предназначенное для конкретного, вполне определённого предмета или явления, выделяющее этот предмет или явление из ряда однотипных предметов или явлений.

Именованная сущность:

1. Обычно пишется с заглавной буквы

2. Обязательно имеет референт, то есть того (тех), кому это имя принадлежит

Например,

На экраны вышел новый фильм братьев Коэнов.

“Коэны” имеют референт (конкретные два Коэна, являющиеся братьями друг другу), а значит перед нами именованная сущность.


В предложении

В Воткинске новорождённых девочек родители очень редко именуют Татьянами.

cлово «Татьянами» — именованной сущностью являться не будет, так как не имеет референта.

Этап 2. Определение границ именованной сущности

Именованной сущностью будет считаться самая длинная цепочка поcледовательных слов, отражающих имя.


Включение дескриптора

Дескриптором считается слово или словосочетание, указывающее на родовое понятие именованной сущности. Например, озеро Байкал - 'озеро', Комитет по безопасности - 'комитет'.

Дескриптор будет частью ИС:

0. Если является аббревиатурой

* ОАО “Газпром”
* ЗАО “Ай-теко”

1. Если дескриптор является вершиной именной группы, но при этом имя не является приложением.

* Санкт-Петербургский государственный университет
* Комитет по безопасности

Но:

* город Тула
* патриотическая организация"Мау"


Знаки препинания

Знаки препинания включаются только в том случае, если являются частью имени, а не используется в качестве разделителя. Кавычки входят в название, только в том случае, если в ИС включен дескриптор.

Например,

* фильм “Гардемарины, вперёд”  
* королева Греции Анна-Мария
* ОАО "Газпром"

Но:

* Алексей Навальный  (@navalny)
* Гатчина, Ленинградская область

Однородные члены

Если именованная сущность или дескриптор относится к однородным членам, то ИС выделяется отдельно, а дескриптор не выделяется вообще.

* Итан и Джоэл Коэны
* на станциях метро “Лубянка” и “Парк культуры”
* пересечение Невского и Литейного проспектов

Этап 3. Определение типа именованной сущности

На данный момент мы размечаем следующие типы именованных сущностей: Персона, Местоположение, Организация, Название произведения, Событие, Остальное.

Персона [person]

Относится к обозначению живых существ.

Может быть представлена следующими категориями:

* ФИО во всех вариациях 			Иван Михайлович, Лопе де Вега 
* Клички животных 				Мурзик, Шарик
* Имена и обозначения богов		        Зевс, Аллах, Бог
* Имена вымышленных персонажей  	        Амидала, Гарри Поттер, Ктулху
* Username/прозвище/псевдоним 		        @navalny
* Имя с прозвищем 				Эразм Роттердамский, Пётр Великий
* и т.п.

Все дополнения: фамильные приставки, признаки старшинства, родства (в случае написания через тире) и т.п. считаются частью именованной сущности

* Хуана де ла Морена
* Александр Дюма-старший
* Муми-мама

Прилагательные/причастия, не являющиеся прозвищем или частью имени, не включаются в ИС.

* Святой Франциск
* Солнцеподобный Ким Чен Ын

Кроме того, мы не размечаем имена в составе ИС типа loc и org (см. ниже). Это же касается конструкций типа им. Кирова и имени Кирова, даже если им. / имени опущено. Однако имена будут размечаться в названиях, похожих на org/loc, но являющихся типовыми обозначениями сущностей (родовыми понятиями?):

* детский сад Монтессори

Местоположение [loc]

Относится к обозначениям объектов, указывающих на положение в пространстве

Может быть представлена следующими категориями:

* природные объекты 	 		Кавказские горы, Баренцево море
* территориальные объекты		Ростов-на-Дону, Липецкая область, Евразия, парк им. Горького
* конструкции 				Троицкий мост, Биг Бен
* астрономические объекты 		астероид Веста, комета Галлея
* вымышленные места 		        Нарния, Атлантида
* и т.п.

Организация [org]

Если сущность может быть местом работы человека или в ней можно состоять в качестве члена и цепочка, включает какие-то слова, кроме указания на родовое понятие, то это сущность типа org.

Имя организации может быть выражено несколькими способами:

* личное имя                      компания Apple

[с дескриптором как частью имени]

* заимствованное имя             библиотека им. Маяковского
* номер                          школа №13
* название по месту              парламент Англии
* название по цели/деятельности  Центр управления полётами
* название по участникам         Клуб поклонников Формулы 1 
* и т.п.


В случае вложенных названий организаций мы размечаем самую длинную цепочку:

* Комитет по архитектуре и градостроительству города Москвы

Важно помнить, что все названия организаций, даже употребленные в значении местоположения, размечаются как org и только как org:

* Мы встретились в Комитете по культуре.

Названия произведений [title]

Относится к обозначениям результатов деятельности человека

Может быть представлена следующими категориями:

* произведения искусства 	Вино из одуванчиков, Матрица, Мона Лиза, опера Дон Жуан,альбом Nevermind
* работа СМИ	                Ведомости, Аргументы и факты, Вокруг Света
* научные тексты                диссертация "Влияние поэзии Блока на умы современности"
* разработки                    Ubuntu 14.04
* и пр.

В случае, если слова с основным значением "название организации" употребляются в значении "результат деятельности этой организации", им ставится тег title:

* искать Яндексом

События [event]

Относится к обозначениям общественных акций, событий, праздников, явлений

* Хэллоуин
* Пасха
* Великая Отечественная война
* вечерний спектакль Зелёный шатёр
* флешмоб Замирание

Остальное [misc]

Все то, что является именованной сущностью, но не подходит под описания выше:

* слоганы 			                Just do it 		
* уникальные природные явления 	          	ураган Катрина
* эпохи, временные этапы 			Мезозойская эра 	
* и пр.

Фразеологизм [phrase]

Тип-помета, добавляется к одному из типов выше, если ИС является частью фразеологизма.

* Бог его знает
* болен как Лазарь
* язык до Киева доведет

Cущности, которые не размечаются как ИС:

* URL’ы (если не являются названием организации)
* должности (папа Римский, Далай-лама, президент РФ)
* денежные и временные сущности (даты, количества и пр.)

Типичные случаи омонимии

В некоторых случаях сущности могут относится к двум типам. Если по контексту выбор между ними не разрешается, то выделяются оба:

loc/title

Обычно встречается у произведений архитектуры, ландшафта

Триумфальная арка выполнена в античном стиле. - [title]

Мы встретились у Триумфальной арки. - [loc/title]

org/title

Обычно встречается у периодических изданий

Отдел редакторов газеты “Ведомости” устроил протест. - [org]
Ежедневно тысячи людей читают газету “Ведомости”. - [title]

Газета “Ведомости” сообщает о сложной политической ситуации. - [org/title]