Коллокации

Материал из OpenCorpora
Перейти к навигации Перейти к поиску

Коллокации

Общие замечания

Необходимо

  • выделять коллокации по леммам и по формам
  • учитывать порядок коллокатов в коллокациях (аб != ба)

Дополнение

  • обычно используются коллокации без знаков препинания и латиницы
  • необходимо помнить, что значение некоторых мер (например, MI) зависит от объема корпуса -> для сравнения данных, полученных с разных корпусов обычно используются ранги коллокаций, но также предлагается использовать не абсолютные частоты, а ipm

Что делать с морфологической омонимией?

они (ЛП, ЕЯ) брали первую из возможных лемм, но у них был еще какой-то модуль синтаксического анализа (который использовался для частичного снятия морфологической омонимии)

Как интерпретировать результаты?

Пересечение коллокации по формам и по леммам (ЛП, ЕЯ: среди 100 первых)

  1. есть в списке с леммами, но нет с формами: нет особых семантико-синтаксических ролей
  2. есть с формами, нет с леммами: определенная семантико-синтаксическая роль / !Сюда попадают части устойчивых сочетаний (обычно 2 прилагательных): женской теннисной /
  3. есть и там, и там: считаются наиболее информативными / ! сюда попадают сокращения и собственные неизменяемые имена (РАО ЕЭС) /

Синтаксические шаблоны

Браславский для индексирования учитывал шаблоны (в какой статье?):

[Прил. + Сущ.] файловая система [Прич. + Сущ.] вытесняющая многозадачность [Сущ. + Сущ., Род.п.] менеджер памяти [Сущ. + Сущ., Твор.п.] управление ресурсами [Сущ. + ‘-’ + Сущ.] файл-сервер

Метрики сочетаемости

Формулы для метрик (MI (для биграмм и n-грамм), MI3-Score, Log-log, t-score, log-likelihood, Dice, Sketch Engine: AScore, logDice) можно найти здесь: https://picasaweb.google.com/108610209501067280468/Collocations?authkey=Gv1sRgCNaCoYbxv53hmgE#5656603029822446210

Mutual Information

Википедия (англ.): Mutual information

Википедия (рус.): Взаимная информация

Значения

статистически значимыми являются биграммы со значением больше 3, некоторые считают, что - 1 Если MI < 0 нуля -> слова в дополнительной дистрибуции

Поведение

MI поднимает наверх сочетания с редкими словами, опечатками, иностранными словами -> необходим порог снизу по частности (берем слова с частотой от D) + Есть варианты этой меры, пытающиеся бороться с этим (MI3-Score, Log-log ) Слова, у которых MI-score принимает наибольшую величину, менее частотны и обладают ограниченной сочетаемостью. Выбор порога (D) [ЛП, ЕЯ] 6600000 словоупотреблений (новости) - порог по частоте от 40 (t-score этого не требует, но для этой меры также использовался порог) МI описывает предметную область: выделяются имена собственные, специальные термины (в новостях сюда попадали коллокации следующих структурных типов: прил + сущ, сущ + сущ (род пад) ) MI (mutual information, коэффициент взаимной информации) сравнивает зависимые контекстно-связанные частоты с независимыми, как если бы слова появлялись в тексте совершенно случайно: мера MI зависит от размера корпуса — чем больше исследуемый корпус, тем выше в среднем получаемые по нему значения MI. Это свойство, видимо, должно отражать большую степень доверия к данным полученным на материале большего корпуса. На корпусе в 6600000 (новостные тексты) - МI хорошо работает (если они не забыли написать про морфологический фильтер)

220000 (коллекция научных текстов) - не очень -> применение частеречного фильтра: явно удалялись коллокации с предлогами за счет, глаголами представляет собой, порядковыми числительными первую очередь, возможно, местоименными прилагательными наш взгляд, сокращениями млн словоупотреблений). + Сюда попали те коллокации, которые должны быть t-score из-за того, что перед нами монотематическая выборка, нужно неоднородные тексты по тематике, чтобы мера хорошо работала

В ссылке есть формула для коллокации от 3-х элементов (больше 5 они не делали)

t-score

Википедия: ?

не требует порога снизу (однако ЛП и ЕЯ проводили эксперимент с тем же порогом, что и для МI)

t-score описывает жанровые характеристики, выделяются

  • предложные группы и обстоятельства (например, времени),
  • числа,
  • суммы
  • общие для текстов выборки именные сочетания
  • коллокации со служебными словами

-> рекомендуется (Хохлова) создавать стоп лист из таких слова (Ягунова и Пивоварова не делают) t-score учитывает частоту совместной встречаемости целевого слова и его коллоката, отвечая на вопрос, насколько не случайной является сила ассоциации (связанности) между коллокатами. Приблизительно равна частоте коллокации, но с поправочным компонентом, чтобы не поднимать биграммы типа союз + предлог -> Чем длиннее коллокация, тем меньше вероятность встретить такие неинформативные конструкции -> замена на простую частоту для коллокаций от трех элементов

Log-Likelihood

Википедия (англ.): Log-likelihood

Википедия (рус.): Функция правдоподобия

отношение функций правдоподобия, соответствующих двум гипотезам – о случайной и неслучайной природе двусловия Хохлова: совпадает приблизительно с T-score для многословных сущностей пока формулу не нашла

Мера Дайса

Википедия: Dice's coefficient

Викиучебник: Реализация на C++, Java, Python и Ruby

Мера Дайса - алгоритм для поиска n-словных сущностей в тексте

Сначала для всех пар слов по всей коллекции считается коэффициент Дайса. Затем для каждого конкретного текста, представляющего собой цепочку слов или вернее цепочку пересекающихся пар (слово х с предшествующим словом и слово х с последующим словом), осуществляется «сборка» связанных сегментов. При последовательном прохождении от слова к слову в каждом тексте уже известны соответствующие значения коэффициента Дайса для всех пересекающихся пар. На основании значений этой статистической меры слова объединяются в связанные группы с учетом ближайшего контекста (принимается решение о том, надо ли присоединить текущее слово к предыдущему). Слово не присоединяется к предыдущему, если значение коэффициента Дайса для данной пары ниже порогового, или если оно ниже, чем среднее арифметическое того же коэффициента для левой и правой пары. Во всех остальных случаях слово присоединяется. Программа, реализующая этот алгоритм, доступна для скачивания с сайта ее создателя: http://donelaitis.vdu.lt/~vidas/tools.htm .

Коллокации в системе Sketch Engine

В системе Sketch Engine статистический анализ строится на вычислении частот для троек следующего вида: (слово1, грамматическое_отношение, слово2). грамматическое отношение - это морфологический шаблон

Таким образом, (X, gram_rel, Y) – общее количество сочетаний; (X, gram_rel, *) – количество сочетаний слова X в определенном грамматическом отношении с любым словом; (*, *, Y) – количество сочетаний слова Y в любом грамматическом отношении с любым словом; (*, *, *) – количество сочетаний любых двух слов в любом грамматическом отношении, т.е. число всевозможных троек. Сначала (до 2006 года) в системе Sketch Engine использовался модифицированный вариант (для увеличения веса коллокации) меры MI, а именно AScore. Сейчас в системе используется мера logDice

Литература

  1. Исследование структуры новостного текста как последовательности связных сегментов, Ягунова Е. В., Пивоварова Л. М., Диалог-2011

Видео и презентации

  1. «Коллокации и сочетаемостные особенности: методы исследования», Мини-конференция состоялась 17 апреля 2010
  2. "Автоматическое выделение коллокаций", доклад Марии Хохоловой (ИЛИ РАН) 10 октября 2009