Синтаксическая разметка — различия между версиями

Материал из OpenCorpora Вики
Перейти к: навигация, поиск
(комментарии)
 
Строка 4: Строка 4:
 
# Синтаксический разбор отвечает на вопрос о том, как связаны между собой слова в предложении.
 
# Синтаксический разбор отвечает на вопрос о том, как связаны между собой слова в предложении.
 
# Токены, вместе с их однозначной морфологической интерпретацией, являются минимальными элементами синтаксической структуры, чем бы она ни была.
 
# Токены, вместе с их однозначной морфологической интерпретацией, являются минимальными элементами синтаксической структуры, чем бы она ни была.
## Это значит, что в одной синтаксической гипотезе используется только одна морфологическая гипотеза для каждого токена. Если у нас несколько правильных морфологических гипотез, то предложение имеет и несколько синтаксических гипотез. Иначе бы мы сняли морфологическую неоднозначность и морфологических гипотез не было бы.
+
## Это значит, что в одной синтаксической гипотезе используется только одна морфологическая гипотеза для каждого токена. Если у нас несколько правильных морфологических гипотез, то предложение имеет и несколько синтаксических гипотез. Иначе бы мы сняли морфологическую неоднозначность и морфологических гипотез не было бы. '''Дима: не всегда обязательно снимать морфологическую неоднозначность, прежде чем делать группу.'''
 
## Единицы, меньшие чем один токен, не могут быть элементами синтаксической структуры. ''Здесь есть контрпримеры (я их не помню), нужно найти их в блоге mitrius.''
 
## Единицы, меньшие чем один токен, не могут быть элементами синтаксической структуры. ''Здесь есть контрпримеры (я их не помню), нужно найти их в блоге mitrius.''
  
Строка 13: Строка 13:
 
# из каких сущностей состоит синтаксическая разметка (одна синтаксическая гипотеза)? Предлагаю вот такое вариант ответа (сущности + определения):
 
# из каких сущностей состоит синтаксическая разметка (одна синтаксическая гипотеза)? Предлагаю вот такое вариант ответа (сущности + определения):
 
## слово - токен, имеющий граммему из поддерева POST (т.е. токен, для которого указана часть речи). Словами не являются знаки препинания.
 
## слово - токен, имеющий граммему из поддерева POST (т.е. токен, для которого указана часть речи). Словами не являются знаки препинания.
## синтаксический элемент - слово, синтаксическая группа или мультиворд.
+
## синтаксический элемент - слово, синтаксическая группа или мультиворд. '''Дима: думаю, всё-таки мультиворды это такое подмножество групп, где нет вершины'''
 
## синтаксические отношения. Предлагаемое определение - связь, образуемая парой синтаксических единиц и имеющая тип. Отношением могут быть связаны и не контактные слова.
 
## синтаксические отношения. Предлагаемое определение - связь, образуемая парой синтаксических единиц и имеющая тип. Отношением могут быть связаны и не контактные слова.
 
## тип синтаксического отношения. Предлагаемое определение - название типа и логическая функция, аргументами которой являются грамматические характеристики связываемых элементов. Согласование - некоторое подмножество граммем должно пересекаться. Возможна омонимия, когда несколько функций с разными названиями типа возвращают 1?
 
## тип синтаксического отношения. Предлагаемое определение - название типа и логическая функция, аргументами которой являются грамматические характеристики связываемых элементов. Согласование - некоторое подмножество граммем должно пересекаться. Возможна омонимия, когда несколько функций с разными названиями типа возвращают 1?

Текущая версия на 17:19, 23 апреля 2014

Уверждения, которые, вероятно, не вызывают вопросов:

  1. Объектом синтаксического разбора является одно предложение или его часть. Но не более одного предложения.
  2. Синтаксический разбор отвечает на вопрос о том, как связаны между собой слова в предложении.
  3. Токены, вместе с их однозначной морфологической интерпретацией, являются минимальными элементами синтаксической структуры, чем бы она ни была.
    1. Это значит, что в одной синтаксической гипотезе используется только одна морфологическая гипотеза для каждого токена. Если у нас несколько правильных морфологических гипотез, то предложение имеет и несколько синтаксических гипотез. Иначе бы мы сняли морфологическую неоднозначность и морфологических гипотез не было бы. Дима: не всегда обязательно снимать морфологическую неоднозначность, прежде чем делать группу.
    2. Единицы, меньшие чем один токен, не могут быть элементами синтаксической структуры. Здесь есть контрпримеры (я их не помню), нужно найти их в блоге mitrius.
  1. Поскольку результатом синтаксической разметки является какая-то синтаксическая структура, то мы будем строить её постепенно: вначале одни части этой структуры, потом другие.

Для того, чтобы начать синтаксическую разметку, нам нужно ответить ещё на несколько вопросов:

  1. из каких сущностей состоит синтаксическая разметка (одна синтаксическая гипотеза)? Предлагаю вот такое вариант ответа (сущности + определения):
    1. слово - токен, имеющий граммему из поддерева POST (т.е. токен, для которого указана часть речи). Словами не являются знаки препинания.
    2. синтаксический элемент - слово, синтаксическая группа или мультиворд. Дима: думаю, всё-таки мультиворды это такое подмножество групп, где нет вершины
    3. синтаксические отношения. Предлагаемое определение - связь, образуемая парой синтаксических единиц и имеющая тип. Отношением могут быть связаны и не контактные слова.
    4. тип синтаксического отношения. Предлагаемое определение - название типа и логическая функция, аргументами которой являются грамматические характеристики связываемых элементов. Согласование - некоторое подмножество граммем должно пересекаться. Возможна омонимия, когда несколько функций с разными названиями типа возвращают 1?
    5. синтаксические группы. Предлагаемое определение - неразрывная цепочка синтаксических элементов, между которыми есть синтаксическое отношение, и один из которых является вершиной группы, грамматические свойства которой наследуются всей группой. Примеры: ПРИЛАГАТЕЛЬНОЕ + СУЩЕСТВИТЕЛЬНОЕ, СУЩЕСТВИТЕЛЬНОЕ + СУЩЕСТВИТЕЛЬНОЕ(В РОД. ПАДЕЖЕ), ПРЕДЛОГ + СУЩЕСТВИТЕЛЬНОЕ.
    6. многословные целые мультиворды. Предлгагаемое определение - неразрывная цепочка слов, между которыми есть синтаксическое отношение. При этом главное слово не выделяется и о наследовании свойств речи не идёт. Примеры: составные предлоги.
    7. если синтаксические элементы объединены в группу, то между ними есть синтаксическое отношение. Но если есть синтаксическое отношение, но элементы, которые оно связывает, стоят не контактно, то группа не получается. Описывает ли этот случай всю непроективность?

Вариант нужно дорабатывать таким образом, чтобы с его помощью можно было описывать все предложения, которые мы можем придумать.

  1. как разделить задачу создания синтаксической разметки на простые задания, которые бы мог выполнять обычный носитель языка?
    1. Вопросы типа "вот мы сделали разбор цепочки / связали два слова, правильно ли?"
    2. Вопросы типа "вот слово и список других слов, с которыми оно может быть связано. Выберите правильную связь"
    3. Вопросы типа "вот предложение и ещё одно, которое мы получили из первого путём удаления группы или замены группы на местоимение. Является ли второе предложение грамматически правильным?"
      1. Если после удаления группы предложение остаётся грамматически правильным, то удалённая группа не имела зависимых от неё элементов хотя бы в одной правильной синтаксической гипотезе. Верно ли это?
      2. Возможность замены на местоимение говорит о том, заменяемая цепочка слов являлась группой. Верно ли это?

2Света: приведи, пожалуйста, примеры для перечисленных выше вопросов.

Что мы можем делать ещё с участием носителей языка, не являющихся лингвистами?

Ближайшие планы:

  1. Составить списки сложны предлогов, найти элементы этих списов в корпусе, отсмотреть эти предложения и, если все вхождения являются действительно сложными предлогами, отметить их в корпусе.