FAQ: различия между версиями
GranD (обсуждение | вклад) (Новая страница: «== Общие вопросы == === В чём суть проекта? === Если в двух словах, то мы собираем большую базу да...») |
GranD (обсуждение | вклад) |
||
Строка 14: | Строка 14: | ||
По состоянию на сентябрь 2012 г. данные у нас такие: | По состоянию на сентябрь 2012 г. данные у нас такие: | ||
* морфологический словарь русского языка (основанный на словаре проекта АОТ), описание формата [http://opencorpora.org/?page=export здесь]; | * морфологический словарь русского языка (основанный на словаре проекта АОТ), описание формата [http://opencorpora.org/?page=export здесь]; | ||
* непосредственно корпус с морфологической разметкой (омонимия не снята, но мы уже её снимаем), актуальный объём | * непосредственно корпус с морфологической разметкой (омонимия не снята, но мы уже её снимаем), актуальный объём можно посмотреть на [http://opencorpora.org/?page=stats странице статистики]; | ||
* разные частотные списки слов, составленные по этому корпусу; | * разные частотные списки слов, составленные по этому корпусу; | ||
* списки коллокаций по метрике MI. | * списки коллокаций по метрике MI. | ||
Всё это можно взять на [http://opencorpora.org/?page=downloads странице Downloads]. | Всё это можно взять на [http://opencorpora.org/?page=downloads странице Downloads]. | ||
=== На каких условиях я могу использовать ваши данные? === | === На каких условиях я могу использовать ваши данные? === | ||
На условиях лицензии [http://creativecommons.org/licenses/by-sa/3.0/deed.ru Creative Commons Attribution-ShareAlike 3.0]. То есть бесплатно, но при создании чего-либо на основе этих данных вы обязаны, во-первых, указать, что эти данные взяли у нас, во-вторых, лицензировать свой продукт или данные на тех же условиях. | На условиях лицензии [http://creativecommons.org/licenses/by-sa/3.0/deed.ru Creative Commons Attribution-ShareAlike 3.0]. То есть бесплатно, но при создании чего-либо на основе этих данных вы обязаны, во-первых, указать, что эти данные взяли у нас, во-вторых, лицензировать свой продукт или данные на тех же условиях. |
Версия от 15:18, 17 сентября 2012
Общие вопросы
В чём суть проекта?
Если в двух словах, то мы собираем большую базу данных, состоящую из текстов на русском языке и разнообразной информации, добавленной к текстам и отдельным словам. Такая база называется корпусом. Это нужно для создания, во-первых, инструментов анализа текста, во-вторых, разных производных продуктов и технологий. См. Компьютерная лингвистика, о проекте.
Кто участники проекта? Кто его спонсирует?
Список разработчиков есть на этой странице, список участников — на этой. Проект не спонсирует никто, мы занимаемся им в свободное время.
Проект ещё жив?
По состоянию на осень 2012 г. проекту три года и он вполне жив. В любой момент времени можно убедиться в этом, заглянув в список последних изменений в коде и в статистику разметки корпуса.
Есть другие корпуса, чем ваш лучше?
Главное — все наши данные доступны под открытой лицензией. Подробно мы описали свою мотивацию в этой статье и в этом видео.
Что означает слово OpenCorpora?
Это перевод словосочетания "открытые корпуса" на английский язык. Corpora — это множественное число от corpus.
Данные и их использование
Какие у вас есть данные?
По состоянию на сентябрь 2012 г. данные у нас такие:
- морфологический словарь русского языка (основанный на словаре проекта АОТ), описание формата здесь;
- непосредственно корпус с морфологической разметкой (омонимия не снята, но мы уже её снимаем), актуальный объём можно посмотреть на странице статистики;
- разные частотные списки слов, составленные по этому корпусу;
- списки коллокаций по метрике MI.
Всё это можно взять на странице Downloads.
На каких условиях я могу использовать ваши данные?
На условиях лицензии Creative Commons Attribution-ShareAlike 3.0. То есть бесплатно, но при создании чего-либо на основе этих данных вы обязаны, во-первых, указать, что эти данные взяли у нас, во-вторых, лицензировать свой продукт или данные на тех же условиях.
Я нашёл в данных ошибку. Как мне сделать так, чтобы её исправили?
Можно ли использовать ваш движок или его часть в своём проекте?
Да, наш код находится здесь и лицензирован под GPLv2.
Это означает, в том числе, что если вы хотите использовать код в коммерческом проекте или в проекте с закрытым кодом, то мы не гарантируем, что это легально, поскольку некоторые компоненты, которые мы используем, могут быть лицензионно несовместимы с таким использованием. В случае сомнений спросите у нас.
Как помочь
Мы ещё не написали этот раздел, основные пункты указаны на главной странице.
У меня остались вопросы
Можно написать нам на [email protected], мы будем рады и обязательно вам ответим.