Обсуждение:Nermanual/2

Материал из OpenCorpora Вики
Перейти к: навигация, поиск

Сюда нужно писать комментарии и вопросы.

Для того, чтобы создать новый вопрос, нажмите кнопку "Добавить тему" вверху страницы. Если вы не видите этой кнопки, то вам нужно залогиниться на этой вики. Логины и пароли не синхронизированы с opencorpora.org. Чтобы писать на вики нужен отдельный логин.

Внимание! Если вы начали размечать абзац и не понимаете, как его разметить
...то не нажимайте пока на кнопку "Закончить разметку абзаца".
Вместо этого задайте вопрос на этой странице (обязательно скопируйте предложение) и дождитесь ответа. Торопиться не нужно.


Часть закончившихся обсуждений убрана в архив
Обсуждение:Nermanual/2/Архив



job + организация без имени + name + surname

в семье владельца сахарной плантации Анхеля Кастро-и-Аргиса

Владелец кафе Йохен Шарф не только принял под своё крыло необычных посетителей ...

Вариант разметки:

Пример


в семье владельца сахарной плантации Анхеля Кастро-и-Аргиса ...
Спаны:
  • владелец — job
  • сахарной плантации — org_descr
  • Анхеля — name
  • Кастро-и-Аргиса — surname
Упоминания:
  • Анхеля + Кастро-и-Аргиса — Person
  • сахарной плантации — Org
  • название компании внутри должности

    Пример


    со ссылкой на исполнительного директора компании Google по развивающимся рынкам ( Европа , Ближний Восток и Африка ) Мохамада Гавдата ...
    Спаны:
    • исполнительного директора — job
    • исполнительного директора компании Google по развивающимся рынкам — job
    • компании — org_descr
    • Google — org_name
    • Европа — loc_name
    • Ближний Восток — loc_name
    • Африка — loc_name
    • Мохамада — name
    • Гавдата — surname
    Упоминания:
  • Мохамада + Гавдата — Person
  • компании + Google — Org
  • Европа — Location
  • Ближний Восток — Location
  • Африка — Location
  • имеет ли смысл выделять дескриптор "представительство" без уточняющего слова, когда оно есть в тексте?

    Пример


    украинское представительство Google ...
    Спаны:
    • украинское представительство — org_descr
    • Google — org_name
    Упоминания:
  • украинское представительство + Google — Org
  • Google — Org
  • Кажется, что добавлять спан org_descr( представительство ) не нужно, т.к. он малоинформативен.

    Judez (обсуждение) 23:03, 17 декабря 2015 (MSK) Думаю, что надо добавлять спан org_descr( представительство ), как в этом примере:


    Пример


    Заведующая доменами верхнего уровня международная организация ICANN ...
    Спаны:
    • организация — org_descr
    • международная организация — org_descr
    • ICANN — org_name
    Упоминания:
  • организация + международная организация + ICANN — Org
  • Руководитель Роскосмоса

    В тексте не хватает примера на должность + организация: сначала слишком долго мусолятся простые примеры, потом резко очень сложные долго идут, а среднего уровня примеров очень не хватает.

    Я вот такой подобрал:

    Пример


    По словам руководителя Роскосмоса Анатолия Николаевича Перминова , уже идёт подготовка к ...
    Спаны:
    • руководителя — job
    • Роскосмоса — org_name
    • Анатолия — name
    • Николаевича — patronymic
    • Перминова — surname
    Упоминания:
  • Роскосмоса — LocOrg
  • Анатолия + Николаевича + Перминова — Person
  • (можно убрать ФИО для простоты, но я полагаю, что как раз это некритично, пусть потихоньку привыкает держать всё более реальные примеры (т.к. некоторые примеры, которые Виктор привёл в обсуждениях сложно понять с непривычки)

    Спасибо. Хороший пример. --Bocharov (обсуждение) 01:24, 27 ноября 2015 (MSK)

    Когда Россия - это Loc, а когда - LocOrg

    Интуитивно думаю, что в первом примере Loc, а во втором - LocOrg. Но хочу более ясные критерии, помимо "революционного чутья".

    • Спутник AMOS-5 изготовлен в России, его вес — 600
    • По словам руководителя Роскосмоса Анатолия Николаевича Перминова , Россия готовит соглашения

    Сначала я понял, что LocOrg - это когда должность+страна (президент РФ, посол Италии); потом понял, что LocOrg - это когда "организации, управляющей указанной территорией" (первый случай: Россия - это чисто страна, во втором случае это и страна и организация, которая управляет территорией Россия); потом я запутался.

    Первый - Loc (аналогично: в Москве, в лесу, на соседней поляне, в Африке), второй - LocOrg (аналогично: ЦКБ Рубин, правительство России). Страна (в ней есть должности, руководящие организации, она может совершать действия) - это организация. Местоположение не может готовить, говорить, выступать, разрабатывать, забивать гол, выигрывать, атаковать и т.д. --Bocharov (обсуждение) 01:24, 27 ноября 2015 (MSK)


    Площадь у памятника Юрию Долгорукому

    Ммммм... Вот реальный пример:


    Пример


    ... занимать площадь у памятника Юрию Долгорукому ещё с ...
    Спаны:
    • Юрию — name
    • Долгорукому — surname
    Упоминания:
  • Юрию + Долгорукому — Person
  • В общем-то, это совершенно конкретная локация, но как её верно разметить? Пока понимаю только как ФИО разметить. Andrey Kruglov (обсуждение) 01:20, 26 ноября 2015 (MSK)

    памятник - loc_descr, Юрию - name, Долгорукому - surname, упоминания: Person (ты всё правильно сделал) и Location (все три спана). --Bocharov (обсуждение) 01:24, 27 ноября 2015 (MSK)

    Нехорошо на один спан вешать два типа?

    Юрий Долгорукий -- здесь Юрий это имя. А вот Долгорукий -- это толи чисто прозвище (никнейм по-нашему), толи и прозвище и фамилия. Интерфейс разметки затрещал, но дал навесить на Долгорукий и никнейм и фамилию.

    Ставь оба. Это ок. --Bocharov (обсуждение) 01:24, 27 ноября 2015 (MSK)

    Насколько это правильно с точки зрения интерфейса? (Баг, фича?)

    Насколько это плохо с точки зрения разметки? Есть ли ещё случаи, когда слово имеет два типа одновременно?

    Это ок. Были в других версиях инструкции. Специально не выключали для таких случаях. --Bocharov (обсуждение) 01:24, 27 ноября 2015 (MSK)

    Насколько плохо, если в случаях неочевидных (Лок или ЛокОрг) я тупо буду набрасывать сразу оба варианта, а там модератор умный, пусть сам лишнюю снимет? (Вопрос не праздный, а шибко практический. Пощупать бы интерфейс модератора разметки NER, чтобы кожей почувствовать, каково оно. Согласен на скриншот хотя бы)

    У типов упоминания не делали множественные типы. Интерфейса модератора пока нет. --Bocharov (обсуждение) 01:24, 27 ноября 2015 (MSK)

    Не Loc, а Location

    Нужно поправить в шаблонах (это особенно критично: не показывается вообще тип упоминания) и в текстах (не забыть про заголовки) Andrey Kruglov (обсуждение) 13:54, 3 декабря 2015 (MSK)

    Локация или организация

    До сих пор доставка сырой нефти осуществлялись по железной дороге в тихоокеанский порт Козьмино.

    Порт Козьмино является локацией или организацией? в случае указания LocOrg, порт это loc_descr или org_descr? и почему?

    Судя по комментарию Виктора - это локация. (См. в архиве пример про директора поляны). Есть локация, у неё есть местоположение. На локации есть организация, в организации можно состоять в какой-либо должности. Речь не идёт про профессию - ставим локация. Всё. Порт значит будет loc_descr. Andrey Kruglov (обсуждение) 18:47, 15 декабря 2015 (MSK)
    С поляной пример не очень подходит т.к. директором поляны быть нельзя, а вот директором порта или стадиона быть можно
    Начинаем с конца (т.е. с типа упоминания): это контекст локации, т.к. речь идёт о направлении, куда идёт доставка (см. пример "поставки Китаю" vs. "поставки в Китай"). Про спаны: поскольку это локация, то спаны будут loc_name и loc_descr. Если бы было написано про директора порта, то да, это была бы организация (org_name, org_descr и Org). LocOrg ставим в случаях, когда название географического объекта (чаще всего страны, региона или города), отмеченное спанами loc_name и loc_descr, употреблено в контексте организации. В частности, когда у него подразумеваются свойства, присущие организации: возможность иметь руководство, действовать, принимать решения. --Bocharov (обсуждение) 21:41, 16 декабря 2015 (MSK)

    Прошу проверить

    Пример


    Министерства сельского хозяйства Германии ...
    Спаны:
    • Министерства сельского хозяйства Германии — org_name
    • Министерства — org_descr
    • Германии — loc_name
    Упоминания:
  • Германии — LocOrg
  • Министерства сельского хозяйства Германии — Org
  • Трудно для понимания, зачем называть org_name такое описательное название. Ведь оно выделяется как упоминание типа Org, а имени собственного в данном названии нет. Judez (обсуждение) 22:54, 17 декабря 2015 (MSK)

    Вот так правильно:

    Пример


    Министерства сельского хозяйства Германии ...
    Спаны:
    • Министерства сельского хозяйства — org_name
    • Министерства — org_descr
    • Германии — loc_name
    Упоминания:
  • Германии — LocOrg
  • Министерства сельского хозяйства Германии — Org
  • Упоминание объекта напрямую с цепочками слов уже не связано - только через спаны. Поэтому, если убрать спан org_name, то полного названия организации уже не будет.
    Ну, да. Названия гос. учреждений не очень похожи на имена собственные, но если этого не учитывать, то их вообще не будет в списке организаций. В реальной жизни (когда текст обрабатывает машина) это не удобно. Поэтому решили выделять то, что есть.
    --Bocharov (обсуждение) 12:57, 18 декабря 2015 (MSK)

    Как размечать частицы (фон, ди, сан, ибн) внутри фамилии?

    В рассылке обсуждали, что это всё частицы, а не существительные - не имеют признаков существительного (не изменяются). А тут в разметке я так понимаю, не особо критично, что это не существительное - но вопрос, куда их записывать: в имя, фамилию, отчетство? Andrey Kruglov (обсуждение) 13:35, 18 декабря 2015 (MSK)

    Да. Давайте считать цепочки "ибн ..." и "бен ..." отчеством. Вроде бы это ближе всего к реальному положению вещей. --Bocharov (обсуждение) 14:29, 18 декабря 2015 (MSK)

    Арабы. Как у них делится имя-фамилия-отчество?

    Абу Машар, он же Абу Машар аль-Балхи, он же Абу Машар Джафар ибн Мухаммад аль-Балхи. В тексте встретилось в варианте "Абу Машар", видимо это два имени, т.е. два спана типа name, одно упоминание из двух спанов name. Вариант Абу Машар аль-Балхи, википедия говорит, что "аль" - это определённый артикль, который относится к следующему слову. Видимо, аль-Балхи - это фамилия, что вариант "Абу Машар Джафар ибн Мухаммад аль-Балхи" можно было считать как Абу Name + Машар Name + Джафар Name + ибн Мухаммад (Patronymic) + аль-Балхи (Surn). Есть вообще какой-нибудь краткий очерк, как у арабов с ФИО? Andrey Kruglov (обсуждение) 13:46, 18 декабря 2015 (MSK)

    "абу/аби Х" - отец Х. Т.е. Абу Машар Джафар ибн Мухаммад - это отец Машара Джафар сын Мухаммада. Давайте не отрезать абу/аби от последующего слова и считать всю эту часть (абу Машар) тоже именем.
    Краткий очерк про арабское имя: https://ru.wikipedia.org/wiki/%D0%90%D1%80%D0%B0%D0%B1%D1%81%D0%BA%D0%BE%D0%B5_%D0%B8%D0%BC%D1%8F
    --Bocharov (обсуждение) 14:29, 18 декабря 2015 (MSK)

    Нужно ли выделять в иностранных терминах, названиях спаны?

    Пример:

    Доля правительства Китая в Industrial and Commercial Bank of China составляет

    Здесь мне кажется достаточно объявить "Industrial and Commercial Bank of China" как org_name не разбивая на "Industrial and Commercial Bank" + "Of China", т.к. это всё целиком иностранный язык (наша цель - в русском научиться выделять). Верно? (А выделять иностранные целиком - всё же нужно: см. пример Вильма Эспин ( Vilma Espin ) - там фио латиницей тоже выделена)Andrey Kruglov (обсуждение) 23:59, 18 декабря 2015 (MSK)