О проекте

Публикации

2014

Опыт анафорической разметки корпуса и разрешения анафоры с использованием машинного обучения
(доклад на конференции «Диалог»)

выходные данные
Protopopova E.V., Bodrova A.A., Volskaya S.A., Krylova I.V., Chuchunkov A.S., Alexeeva S.V., Bocharov V.V., Granovsky D.V. Anaphoric annotation and corpus-based anaphora resolution: an experiment // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 4–8 июня 2014 г.). Вып. 13 (20). — М.: РГГУ, 2014.
pdf

2013

Морфологическая разметка корпуса силами волонтёров
(доклад на конференции «Диалог»)

выходные данные
Bocharov V.V., Alexeeva S.V., Granovsky D.V., Protopopova E.V., Stepanova M.E., Surikov A.V. Crowdsourcing morphological annotation // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 29 мая–2 июня 2013 г.). Вып. 12 (19). — М.: РГГУ, 2013.
pdf

2012

Лингвистический ресурс как процесс. Создание морфологической разметки в проекте «Открытый корпус»
(презентация для семинара по корпусной и компьютерной лингвистике, филологический факультет СПбГУ)
pdf  
«Он видел их семью своими глазами»
(пост на Хабрахабре)
HTML

Сегментация текста в проекте Открытый корпус
(доклад на конференции «Диалог»)

выходные данные
Бочаров В.В., Алексеева С.В., Грановский Д.В., Остапук Н.А., Степанова М.Е., Суриков А.В. Сегментация текста в проекте «Открытый корпус» // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 30 мая–3 июня 2012 г.). Вып. 11 (18). — М.: РГГУ, 2012.
pdf

Вероятностная модель токенизации в проекте Открытый корпус
(доклад на 15-м семинаре «Новые информационные технологии в автоматизированных системах»)

выходные данные
Бочаров В.В., Грановский Д.В., Суриков А.В. Вероятностная модель токенизации в проекте Открытый корпус // Новые информационные технологии в автоматизированных системах: материалы пятнадцатого научно-практического семинара. Моск. гос. ин-т электроники и математики. — М., 2012.
pdf TeX

2011

Корпусная лингвистика: проект Открытый корпус и место компьютерной лингвистики в народном хозяйстве
(презентация для семинара в компании Witology, см. также видео)
pdf  

Программное обеспечение для коллективной работы над морфологической разметкой корпуса
(доклад на конференции «Корпусная лингвистика–2011»)

выходные данные
Бочаров В.В., Грановский Д.В. Программное обеспечение для коллективной работы над морфологической разметкой корпуса // Труды международной конференции «Корпусная лингвистика – 2011». 27–29 июня 2011 г., Санкт-Петербург. — СПб.: С.-Петербургский гос. университет, Филологический факультет, 2011. — 348 с.
pdf TeX

Инструменты контроля качества данных в проекте Открытый Корпус
(доклад на конференции «Диалог»)

выходные данные
Bocharov V., Bichineva S., Granovsky D., Ostapuk N., Stepanova M. Quality assurance tools in the OpenCorpora project // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 25–29 мая 2011 г.). Вып. 10 (17). — М.: РГГУ, 2011.
pdf TeX
pdf (англ.) TeX (англ.)
Как и зачем мы делаем Открытый корпус
(презентация для Семинара по автоматической обработке текста, см. также видео)
pdf TeX

2010

Открытый корпус: принципы работы и перспективы
(доклад на конференции «Интернет и современное общество»)

выходные данные
Грановский Д.В., Бочаров В.В., Бичинева С.В. Открытый корпус: принципы работы и перспективы // Компьютерная лингвистика и развитие семантического поиска в Интернете: Труды научного семинара XIII Всероссийской объединенной конференции «Интернет и современное общество». Санкт-Петербург, 19–22 октября 2010 г. / Под ред. В.Ш. Рубашкина. — СПб., 2010. — 94 с.
pdf TeX