Коллокации
Коллокации
Общие замечания
Необходимо
- выделять коллокации по леммам и по формам
- учитывать порядок коллокатов в коллокациях (аб != ба)
Дополнение
- обычно используются коллокации без знаков препинания и латиницы
- необходимо помнить, что значение некоторых мер (например, MI) зависит от объема корпуса -> для сравнения данных, полученных с разных корпусов обычно используются ранги коллокаций, но также предлагается использовать не абсолютные частоты, а ipm
Что делать с морфологической омонимией?
они (ЛП, ЕЯ) брали первую из возможных лемм, но у них был еще какой-то модуль синтаксического анализа (который использовался для частичного снятия морфологической омонимии)
Как интерпретировать результаты?
Пересечение коллокации по формам и по леммам (ЛП, ЕЯ: среди 100 первых)
- есть в списке с леммами, но нет с формами: нет особых семантико-синтаксических ролей
- есть с формами, нет с леммами: определенная семантико-синтаксическая роль / !Сюда попадают части устойчивых сочетаний (обычно 2 прилагательных): женской теннисной /
- есть и там, и там: считаются наиболее информативными / ! сюда попадают сокращения и собственные неизменяемые имена (РАО ЕЭС) /
Синтаксические шаблоны
Браславский для индексирования учитывал шаблоны (в какой статье?):
[Прил. + Сущ.] файловая система [Прич. + Сущ.] вытесняющая многозадачность [Сущ. + Сущ., Род.п.] менеджер памяти [Сущ. + Сущ., Твор.п.] управление ресурсами [Сущ. + ‘-’ + Сущ.] файл-сервер
Метрики сочетаемости
Формулы для метрик (MI (для биграмм и n-грамм), MI3-Score, Log-log, t-score, log-likelihood, Dice, Sketch Engine: AScore, logDice) можно найти здесь: https://picasaweb.google.com/108610209501067280468/Collocations?authkey=Gv1sRgCNaCoYbxv53hmgE#5656603029822446210
Mutual Information
Википедия (англ.): Mutual information
Википедия (рус.): Взаимная информация
Значения
статистически значимыми являются биграммы со значением больше 3, некоторые считают, что - 1 Если MI < 0 нуля -> слова в дополнительной дистрибуции
Поведение
MI поднимает наверх сочетания с редкими словами, опечатками, иностранными словами -> необходим порог снизу по частности (берем слова с частотой от D) + Есть варианты этой меры, пытающиеся бороться с этим (MI3-Score, Log-log ) Слова, у которых MI-score принимает наибольшую величину, менее частотны и обладают ограниченной сочетаемостью. Выбор порога (D) [ЛП, ЕЯ] 6600000 словоупотреблений (новости) - порог по частоте от 40 (t-score этого не требует, но для этой меры также использовался порог) МI описывает предметную область: выделяются имена собственные, специальные термины (в новостях сюда попадали коллокации следующих структурных типов: прил + сущ, сущ + сущ (род пад) ) MI (mutual information, коэффициент взаимной информации) сравнивает зависимые контекстно-связанные частоты с независимыми, как если бы слова появлялись в тексте совершенно случайно: мера MI зависит от размера корпуса — чем больше исследуемый корпус, тем выше в среднем получаемые по нему значения MI. Это свойство, видимо, должно отражать большую степень доверия к данным полученным на материале большего корпуса. На корпусе в 6600000 (новостные тексты) - МI хорошо работает (если они не забыли написать про морфологический фильтер)
220000 (коллекция научных текстов) - не очень -> применение частеречного фильтра: явно удалялись коллокации с предлогами за счет, глаголами представляет собой, порядковыми числительными первую очередь, возможно, местоименными прилагательными наш взгляд, сокращениями млн словоупотреблений). + Сюда попали те коллокации, которые должны быть t-score из-за того, что перед нами монотематическая выборка, нужно неоднородные тексты по тематике, чтобы мера хорошо работала
В ссылке есть формула для коллокации от 3-х элементов (больше 5 они не делали)
t-score
Википедия: ?
не требует порога снизу (однако ЛП и ЕЯ проводили эксперимент с тем же порогом, что и для МI)
t-score описывает жанровые характеристики, выделяются
- предложные группы и обстоятельства (например, времени),
- числа,
- суммы
- общие для текстов выборки именные сочетания
- коллокации со служебными словами
-> рекомендуется (Хохлова) создавать стоп лист из таких слова (Ягунова и Пивоварова не делают) t-score учитывает частоту совместной встречаемости целевого слова и его коллоката, отвечая на вопрос, насколько не случайной является сила ассоциации (связанности) между коллокатами. Приблизительно равна частоте коллокации, но с поправочным компонентом, чтобы не поднимать биграммы типа союз + предлог -> Чем длиннее коллокация, тем меньше вероятность встретить такие неинформативные конструкции -> замена на простую частоту для коллокаций от трех элементов
Log-Likelihood
Википедия (англ.): Log-likelihood
Википедия (рус.): Функция правдоподобия
отношение функций правдоподобия, соответствующих двум гипотезам – о случайной и неслучайной природе двусловия Хохлова: совпадает приблизительно с T-score для многословных сущностей пока формулу не нашла
Мера Дайса
Википедия: Dice's coefficient
Викиучебник: Реализация на C++, Java, Python и Ruby
Мера Дайса - алгоритм для поиска n-словных сущностей в тексте
Сначала для всех пар слов по всей коллекции считается коэффициент Дайса. Затем для каждого конкретного текста, представляющего собой цепочку слов или вернее цепочку пересекающихся пар (слово х с предшествующим словом и слово х с последующим словом), осуществляется «сборка» связанных сегментов. При последовательном прохождении от слова к слову в каждом тексте уже известны соответствующие значения коэффициента Дайса для всех пересекающихся пар. На основании значений этой статистической меры слова объединяются в связанные группы с учетом ближайшего контекста (принимается решение о том, надо ли присоединить текущее слово к предыдущему). Слово не присоединяется к предыдущему, если значение коэффициента Дайса для данной пары ниже порогового, или если оно ниже, чем среднее арифметическое того же коэффициента для левой и правой пары. Во всех остальных случаях слово присоединяется. Программа, реализующая этот алгоритм, доступна для скачивания с сайта ее создателя: http://donelaitis.vdu.lt/~vidas/tools.htm .
Коллокации в системе Sketch Engine
В системе Sketch Engine статистический анализ строится на вычислении частот для троек следующего вида: (слово1, грамматическое_отношение, слово2). грамматическое отношение - это морфологический шаблон
Таким образом, (X, gram_rel, Y) – общее количество сочетаний; (X, gram_rel, *) – количество сочетаний слова X в определенном грамматическом отношении с любым словом; (*, *, Y) – количество сочетаний слова Y в любом грамматическом отношении с любым словом; (*, *, *) – количество сочетаний любых двух слов в любом грамматическом отношении, т.е. число всевозможных троек. Сначала (до 2006 года) в системе Sketch Engine использовался модифицированный вариант (для увеличения веса коллокации) меры MI, а именно AScore. Сейчас в системе используется мера logDice