Обсуждение:Nermanual/2

Материал из OpenCorpora
Перейти к навигации Перейти к поиску

Сюда нужно писать комментарии и вопросы.

Для того, чтобы создать новый вопрос, нажмите кнопку "Добавить тему" вверху страницы. Если вы не видите этой кнопки, то вам нужно залогиниться на этой вики. Логины и пароли не синхронизированы с opencorpora.org. Чтобы писать на вики нужен отдельный логин.

Внимание! Если вы начали размечать абзац и не понимаете, как его разметить
...то не нажимайте пока на кнопку "Закончить разметку абзаца".
Вместо этого задайте вопрос на этой странице (обязательно скопируйте предложение) и дождитесь ответа. Торопиться не нужно.


Часть закончившихся обсуждений убрана в архив
Обсуждение:Nermanual/2/Архив



job + организация без имени + name + surname

в семье владельца сахарной плантации Анхеля Кастро-и-Аргиса

Владелец кафе Йохен Шарф не только принял под своё крыло необычных посетителей ...

Вариант разметки:

Пример


в семье владельца сахарной плантации Анхеля Кастро-и-Аргиса ...
Спаны:
  • владелец — job
  • сахарной плантации — org_descr
  • Анхеля — name
  • Кастро-и-Аргиса — surname
Упоминания:
  • Анхеля + Кастро-и-Аргиса — Person
  • сахарной плантации — Org
  • название компании внутри должности

    Пример


    со ссылкой на исполнительного директора компании Google по развивающимся рынкам ( Европа , Ближний Восток и Африка ) Мохамада Гавдата ...
    Спаны:
    • исполнительного директора — job
    • исполнительного директора компании Google по развивающимся рынкам — job
    • компании — org_descr
    • Google — org_name
    • Европа — loc_name
    • Ближний Восток — loc_name
    • Африка — loc_name
    • Мохамада — name
    • Гавдата — surname
    Упоминания:
  • Мохамада + Гавдата — Person
  • компании + Google — Org
  • Европа — Location
  • Ближний Восток — Location
  • Африка — Location
  • имеет ли смысл выделять дескриптор "представительство" без уточняющего слова, когда оно есть в тексте?

    Пример


    украинское представительство Google ...
    Спаны:
    • украинское представительство — org_descr
    • Google — org_name
    Упоминания:
  • украинское представительство + Google — Org
  • Google — Org
  • Кажется, что добавлять спан org_descr( представительство ) не нужно, т.к. он малоинформативен.

    Judez (обсуждение) 23:03, 17 декабря 2015 (MSK) Думаю, что надо добавлять спан org_descr( представительство ), как в этом примере:


    Пример


    Заведующая доменами верхнего уровня международная организация ICANN ...
    Спаны:
    • организация — org_descr
    • международная организация — org_descr
    • ICANN — org_name
    Упоминания:
  • организация + международная организация + ICANN — Org
  • Пример "украинское представительство Google": "представительство" нужно тоже выделить как org_descr, т.к. если сказать, что "Василий работает в представительстве Google" - это будет верно отражать реальность, хотя и менее конкретно. В этом соревновании решили не штрафовать за такие менее конкретные варианты.--Bocharov (обсуждение) 01:30, 19 декабря 2015 (MSK)


    Руководитель Роскосмоса

    В тексте не хватает примера на должность + организация: сначала слишком долго мусолятся простые примеры, потом резко очень сложные долго идут, а среднего уровня примеров очень не хватает.

    Я вот такой подобрал:

    Пример


    По словам руководителя Роскосмоса Анатолия Николаевича Перминова , уже идёт подготовка к ...
    Спаны:
    • руководителя — job
    • Роскосмоса — org_name
    • Анатолия — name
    • Николаевича — patronymic
    • Перминова — surname
    Упоминания:
  • Роскосмоса — LocOrg
  • Анатолия + Николаевича + Перминова — Person
  • (можно убрать ФИО для простоты, но я полагаю, что как раз это некритично, пусть потихоньку привыкает держать всё более реальные примеры (т.к. некоторые примеры, которые Виктор привёл в обсуждениях сложно понять с непривычки)

    Спасибо. Хороший пример. --Bocharov (обсуждение) 01:24, 27 ноября 2015 (MSK)

    Когда Россия - это Loc, а когда - LocOrg

    Интуитивно думаю, что в первом примере Loc, а во втором - LocOrg. Но хочу более ясные критерии, помимо "революционного чутья".

    • Спутник AMOS-5 изготовлен в России, его вес — 600
    • По словам руководителя Роскосмоса Анатолия Николаевича Перминова , Россия готовит соглашения

    Сначала я понял, что LocOrg - это когда должность+страна (президент РФ, посол Италии); потом понял, что LocOrg - это когда "организации, управляющей указанной территорией" (первый случай: Россия - это чисто страна, во втором случае это и страна и организация, которая управляет территорией Россия); потом я запутался.

    Первый - Loc (аналогично: в Москве, в лесу, на соседней поляне, в Африке), второй - LocOrg (аналогично: ЦКБ Рубин, правительство России). Страна (в ней есть должности, руководящие организации, она может совершать действия) - это организация. Местоположение не может готовить, говорить, выступать, разрабатывать, забивать гол, выигрывать, атаковать и т.д. --Bocharov (обсуждение) 01:24, 27 ноября 2015 (MSK)


    Площадь у памятника Юрию Долгорукому

    Ммммм... Вот реальный пример:


    Пример


    ... занимать площадь у памятника Юрию Долгорукому ещё с ...
    Спаны:
    • Юрию — name
    • Долгорукому — surname
    Упоминания:
  • Юрию + Долгорукому — Person
  • В общем-то, это совершенно конкретная локация, но как её верно разметить? Пока понимаю только как ФИО разметить. Andrey Kruglov (обсуждение) 01:20, 26 ноября 2015 (MSK)

    памятник - loc_descr, Юрию - name, Долгорукому - surname, упоминания: Person (ты всё правильно сделал) и Location (все три спана). --Bocharov (обсуждение) 01:24, 27 ноября 2015 (MSK)

    Нехорошо на один спан вешать два типа?

    Юрий Долгорукий -- здесь Юрий это имя. А вот Долгорукий -- это толи чисто прозвище (никнейм по-нашему), толи и прозвище и фамилия. Интерфейс разметки затрещал, но дал навесить на Долгорукий и никнейм и фамилию.

    Ставь оба. Это ок. --Bocharov (обсуждение) 01:24, 27 ноября 2015 (MSK)

    Насколько это правильно с точки зрения интерфейса? (Баг, фича?)

    Насколько это плохо с точки зрения разметки? Есть ли ещё случаи, когда слово имеет два типа одновременно?

    Это ок. Были в других версиях инструкции. Специально не выключали для таких случаях. --Bocharov (обсуждение) 01:24, 27 ноября 2015 (MSK)

    Насколько плохо, если в случаях неочевидных (Лок или ЛокОрг) я тупо буду набрасывать сразу оба варианта, а там модератор умный, пусть сам лишнюю снимет? (Вопрос не праздный, а шибко практический. Пощупать бы интерфейс модератора разметки NER, чтобы кожей почувствовать, каково оно. Согласен на скриншот хотя бы)

    У типов упоминания не делали множественные типы. Интерфейса модератора пока нет. --Bocharov (обсуждение) 01:24, 27 ноября 2015 (MSK)

    Не Loc, а Location

    Нужно поправить в шаблонах (это особенно критично: не показывается вообще тип упоминания) и в текстах (не забыть про заголовки) Andrey Kruglov (обсуждение) 13:54, 3 декабря 2015 (MSK)

    Локация или организация

    До сих пор доставка сырой нефти осуществлялись по железной дороге в тихоокеанский порт Козьмино.

    Порт Козьмино является локацией или организацией? в случае указания LocOrg, порт это loc_descr или org_descr? и почему?

    Судя по комментарию Виктора - это локация. (См. в архиве пример про директора поляны). Есть локация, у неё есть местоположение. На локации есть организация, в организации можно состоять в какой-либо должности. Речь не идёт про профессию - ставим локация. Всё. Порт значит будет loc_descr. Andrey Kruglov (обсуждение) 18:47, 15 декабря 2015 (MSK)
    С поляной пример не очень подходит т.к. директором поляны быть нельзя, а вот директором порта или стадиона быть можно
    Начинаем с конца (т.е. с типа упоминания): это контекст локации, т.к. речь идёт о направлении, куда идёт доставка (см. пример "поставки Китаю" vs. "поставки в Китай"). Про спаны: поскольку это локация, то спаны будут loc_name и loc_descr. Если бы было написано про директора порта, то да, это была бы организация (org_name, org_descr и Org). LocOrg ставим в случаях, когда название географического объекта (чаще всего страны, региона или города), отмеченное спанами loc_name и loc_descr, употреблено в контексте организации. В частности, когда у него подразумеваются свойства, присущие организации: возможность иметь руководство, действовать, принимать решения. --Bocharov (обсуждение) 21:41, 16 декабря 2015 (MSK)

    Прошу проверить

    Пример


    Министерства сельского хозяйства Германии ...
    Спаны:
    • Министерства сельского хозяйства Германии — org_name
    • Министерства — org_descr
    • Германии — loc_name
    Упоминания:
  • Германии — LocOrg
  • Министерства сельского хозяйства Германии — Org
  • Трудно для понимания, зачем называть org_name такое описательное название. Ведь оно выделяется как упоминание типа Org, а имени собственного в данном названии нет. Judez (обсуждение) 22:54, 17 декабря 2015 (MSK)

    Вот так правильно:

    Пример


    Министерства сельского хозяйства Германии ...
    Спаны:
    • Министерства сельского хозяйства — org_name
    • Министерства — org_descr
    • Германии — loc_name
    Упоминания:
  • Германии — LocOrg
  • Министерства сельского хозяйства Германии — Org
  • Упоминание объекта напрямую с цепочками слов уже не связано - только через спаны. Поэтому, если убрать спан org_name, то полного названия организации уже не будет.
    Ну, да. Названия гос. учреждений не очень похожи на имена собственные, но если этого не учитывать, то их вообще не будет в списке организаций. В реальной жизни (когда текст обрабатывает машина) это не удобно. Поэтому решили выделять то, что есть.
    --Bocharov (обсуждение) 12:57, 18 декабря 2015 (MSK)

    Как размечать частицы (фон, ди, сан, ибн) внутри фамилии?

    В рассылке обсуждали, что это всё частицы, а не существительные - не имеют признаков существительного (не изменяются). А тут в разметке я так понимаю, не особо критично, что это не существительное - но вопрос, куда их записывать: в имя, фамилию, отчетство? Andrey Kruglov (обсуждение) 13:35, 18 декабря 2015 (MSK)

    Да. Давайте считать цепочки "ибн ..." и "бен ..." отчеством. Вроде бы это ближе всего к реальному положению вещей. --Bocharov (обсуждение) 14:29, 18 декабря 2015 (MSK)

    Арабы. Как у них делится имя-фамилия-отчество?

    Абу Машар, он же Абу Машар аль-Балхи, он же Абу Машар Джафар ибн Мухаммад аль-Балхи. В тексте встретилось в варианте "Абу Машар", видимо это два имени, т.е. два спана типа name, одно упоминание из двух спанов name. Вариант Абу Машар аль-Балхи, википедия говорит, что "аль" - это определённый артикль, который относится к следующему слову. Видимо, аль-Балхи - это фамилия, что вариант "Абу Машар Джафар ибн Мухаммад аль-Балхи" можно было считать как Абу Name + Машар Name + Джафар Name + ибн Мухаммад (Patronymic) + аль-Балхи (Surn). Есть вообще какой-нибудь краткий очерк, как у арабов с ФИО? Andrey Kruglov (обсуждение) 13:46, 18 декабря 2015 (MSK)

    "абу/аби Х" - отец Х. Т.е. Абу Машар Джафар ибн Мухаммад - это отец Машара Джафар сын Мухаммада. Давайте не отрезать абу/аби от последующего слова и считать всю эту часть (абу Машар) тоже именем.
    Краткий очерк про арабское имя: https://ru.wikipedia.org/wiki/%D0%90%D1%80%D0%B0%D0%B1%D1%81%D0%BA%D0%BE%D0%B5_%D0%B8%D0%BC%D1%8F
    --Bocharov (обсуждение) 14:29, 18 декабря 2015 (MSK)

    Нужно ли выделять в иностранных терминах, названиях спаны?

    Пример:

    Доля правительства Китая в Industrial and Commercial Bank of China составляет

    Здесь мне кажется достаточно объявить "Industrial and Commercial Bank of China" как org_name не разбивая на "Industrial and Commercial Bank" + "Of China", т.к. это всё целиком иностранный язык (наша цель - в русском научиться выделять). Верно? (А выделять иностранные целиком - всё же нужно: см. пример Вильма Эспин ( Vilma Espin ) - там фио латиницей тоже выделена)Andrey Kruglov (обсуждение) 23:59, 18 декабря 2015 (MSK)

    Да, "Industrial and Commercial Bank of China" нужно выделять как один спан org_name. Логика именно такая. --Bocharov (обсуждение) 01:07, 19 декабря 2015 (MSK)

    Администрация президента Обамы - сколько организаций?

    Я насчитал три максимум, но думаю, что вписать нужно только две (а просто "администрация" - слишком обобщённая). Нужно ли все указывать? Пример полностью разобран в шпаргалке, он показался характерным. Andrey Kruglov (обсуждение) 00:23, 19 декабря 2015 (MSK)

    по аналогии с "университет Лос-Анджелеса", т.е. так:

    Пример


    ... администрация президента Обамы ...
    Спаны:
    • администрация — org_descr
    • президента — job
    • Обамы — surname
    Упоминания:
  • администрация + президента + Обамы — Org
  • Обамы — Person
  • Может я чего-то не вижу. Как получились три?--Bocharov (обсуждение) 01:17, 19 декабря 2015 (MSK)
    Ну как, как... Администрация - раз упоминание, администрация + президента - два упоминание, администрация + президента + Обамы - три упоминание. Поскольку я уже знаю правильный ответ - то могу сказать, в чём разница с примером "отдел А департамента Б компании В" (там такая же матрёшка от общего к частному, как я тебе рисую): разница в том, что организацией является только "администрация", затем идёт профессия, затем человек. Andrey Kruglov (обсуждение) 11:24, 19 декабря 2015 (MSK)


    В этом же топике - пример "пресс-служба президента Украины" - это три организации или пресс-служба слишком общая? Andrey Kruglov (обсуждение) 00:38, 19 декабря 2015 (MSK)

    Аналогично предыдущему примеру. Если после ответа на вопрос "как получилось три?" у меня ничего не прояснится.--Bocharov (обсуждение) 01:17, 19 декабря 2015 (MSK)

    Автономная республика Крым

    В примере "видит будущее населения автономной республики Крым" -- как это размечать? Просто "автономная республика" (org_desc) и Крым (loc_name), упоминание одно -- "автономная республика Крым" (LocOrg)?

    Всё какие-то химеры мерещатся вложенные: так и хочет "республика Крым" продублировать LogOrg.

    Можно править прямо здесь:

    Пример


    ... видит будущее населения автономной республики Крым ...
    Спаны:
    • республика — org_descr
    • Крым — loc_name
    Упоминания:
  • Крым — LocOrg
  • Andrey Kruglov (обсуждение) 00:45, 19 декабря 2015 (MSK)

    Правильно так:

    Пример


    ... видит будущее населения автономной республики Крым ...
    Спаны:
    • автономная республика — loc_descr
    • республика — loc_descr
    • Крым — loc_name
    Упоминания:
  • автономная республика + республика + Крым — LocOrg
  • Этот пример аналогичен случаю "город Москва", т.е. дескриптор + имя. loc_descr, т.к. это географическое название, для которых на уровне спанов мы не обращаем внимания на организационный контекст. Его мы учитываем, когда определяем тип упоминания.
    Почему два дескриптора: что с одним, что с другим дескриптором получается осмысленное название. Если такое выделит машина, её не нужно за это штрафовать. Размечая два варианта дескриптора мы явно говорим об этом (о том, что не нужно штрафовать) компаратору.н
    Выделяя упоминания объектов не нужно их размножать: одно упоминание объекта в тексте - один пункт в списке упоминаний. Со спанами это не так - в некоторых случаях мы явно отмечаем альтернативные версии (как в случае с "автономная республика" + "республика").--Bocharov (обсуждение) 01:17, 19 декабря 2015 (MSK)

    baltinfo.ru - сайт-СМИ как организация

    примет участие в работе жюри конкурса , сообщает baltinfo.ru

    ... получается » , сообщает Лента.ру .

    Нужно ли расценивать название сайта как организацию? Тут -- явно организация, СМИ: по идее надо. Верно? Andrey Kruglov (обсуждение) 18:00, 19 декабря 2015 (MSK)

    Что-то не стыкуется в организациях по местоположению

    В тексте инструкции два примера: МИД Японии и Унивеситет Лос-Анджелеса. Они идентичны, можете положить их рядом и сравнить.

    Основной вопрос: почему в первом примере Японии - это LocOrg, а во втором Лос-Анджелес - это только Location? (Имху - оба Location)

    Другие вопросы: есть ли какая-то разница в этих примерах или они одинаковы? Я вижу лишь одно различие: в Японии может быть только один МИД, а в Лос-Анджелесе гипотетически может быть много университетов, насколько это важно? Andrey Kruglov (обсуждение) 19:44, 19 декабря 2015 (MSK)