FAQ — различия между версиями

Материал из OpenCorpora Вики
Перейти к: навигация, поиск
(У меня остались вопросы)
Строка 6: Строка 6:
 
=== Проект ещё жив? ===
 
=== Проект ещё жив? ===
 
По состоянию на осень 2012 г. проекту три года и он вполне жив. В любой момент времени можно убедиться в этом, заглянув в [http://code.google.com/p/opencorpora/source/list список последних изменений в коде] и в [http://opencorpora.org/?page=stats статистику разметки корпуса].
 
По состоянию на осень 2012 г. проекту три года и он вполне жив. В любой момент времени можно убедиться в этом, заглянув в [http://code.google.com/p/opencorpora/source/list список последних изменений в коде] и в [http://opencorpora.org/?page=stats статистику разметки корпуса].
 +
=== Как быть в курсе ваших новостей? ===
 +
# [http://opencorpora.org/?page=about Подписаться на рассылку]
 +
# [http://twitter.com/opencorpora Зафолловить нас в Твиттере]
 +
# [http://vk.com/opencorpora Подписаться на нашу страницу ВКонтакте]
 
=== Есть другие корпуса, чем ваш лучше? ===
 
=== Есть другие корпуса, чем ваш лучше? ===
 
Главное — все наши данные доступны под открытой лицензией. Подробно мы описали свою мотивацию в [http://opencorpora.org/doc/articles/2010_IMS.pdf этой статье] и в [http://video.yandex.ru/users/nataxane/view/2/ этом видео].
 
Главное — все наши данные доступны под открытой лицензией. Подробно мы описали свою мотивацию в [http://opencorpora.org/doc/articles/2010_IMS.pdf этой статье] и в [http://video.yandex.ru/users/nataxane/view/2/ этом видео].
Строка 22: Строка 26:
 
=== На каких условиях я могу использовать ваши данные? ===
 
=== На каких условиях я могу использовать ваши данные? ===
 
На условиях лицензии [http://creativecommons.org/licenses/by-sa/3.0/deed.ru Creative Commons Attribution-ShareAlike 3.0]. То есть бесплатно, но при создании чего-либо на основе этих данных вы обязаны, во-первых, указать, что эти данные взяли у нас, во-вторых, лицензировать свой продукт или данные на тех же условиях.
 
На условиях лицензии [http://creativecommons.org/licenses/by-sa/3.0/deed.ru Creative Commons Attribution-ShareAlike 3.0]. То есть бесплатно, но при создании чего-либо на основе этих данных вы обязаны, во-первых, указать, что эти данные взяли у нас, во-вторых, лицензировать свой продукт или данные на тех же условиях.
 +
 +
Кстати, если вы будете использовать наши данные, напишите нам об этом, нам будет приятно.
 
=== Я нашёл в данных ошибку. Как мне сделать так, чтобы её исправили? ===
 
=== Я нашёл в данных ошибку. Как мне сделать так, чтобы её исправили? ===
 
* если ошибка в том, что у слова не снята неоднозначность, [http://opencorpora.org/tasks.php присоединяйтесь к разметке] и помогите нам это исправить,
 
* если ошибка в том, что у слова не снята неоднозначность, [http://opencorpora.org/tasks.php присоединяйтесь к разметке] и помогите нам это исправить,

Версия 18:38, 17 сентября 2012

Общие вопросы

В чём суть проекта?

Если в двух словах, то мы собираем большую базу данных, состоящую из текстов на русском языке и разнообразной информации, добавленной к текстам и отдельным словам. Такая база называется корпусом. Это нужно для создания, во-первых, инструментов анализа текста, во-вторых, разных производных продуктов и технологий. См. Компьютерная лингвистика, о проекте.

Кто участники проекта? Кто его спонсирует?

Список разработчиков есть на этой странице, список участников — на этой. Проект не спонсирует никто, мы занимаемся им в свободное время.

Проект ещё жив?

По состоянию на осень 2012 г. проекту три года и он вполне жив. В любой момент времени можно убедиться в этом, заглянув в список последних изменений в коде и в статистику разметки корпуса.

Как быть в курсе ваших новостей?

  1. Подписаться на рассылку
  2. Зафолловить нас в Твиттере
  3. Подписаться на нашу страницу ВКонтакте

Есть другие корпуса, чем ваш лучше?

Главное — все наши данные доступны под открытой лицензией. Подробно мы описали свою мотивацию в этой статье и в этом видео.

Что означает слово OpenCorpora?

Это перевод словосочетания "открытые корпуса" на английский язык. Corpora — это множественное число от corpus.

Данные и их использование

Какие у вас есть данные?

По состоянию на сентябрь 2012 г. данные у нас такие:

  • морфологический словарь русского языка (основанный на словаре проекта АОТ), описание формата здесь;
  • непосредственно корпус с морфологической разметкой (омонимия не снята, но мы уже её снимаем), актуальный объём можно посмотреть на странице статистики;
  • разные частотные списки слов, составленные по этому корпусу;
  • списки коллокаций по метрике MI.

Всё это можно взять на странице Downloads.

На каких условиях я могу использовать ваши данные?

На условиях лицензии Creative Commons Attribution-ShareAlike 3.0. То есть бесплатно, но при создании чего-либо на основе этих данных вы обязаны, во-первых, указать, что эти данные взяли у нас, во-вторых, лицензировать свой продукт или данные на тех же условиях.

Кстати, если вы будете использовать наши данные, напишите нам об этом, нам будет приятно.

Я нашёл в данных ошибку. Как мне сделать так, чтобы её исправили?

Можно ли использовать ваш движок или его часть в своём проекте?

Да, наш код находится здесь и лицензирован под GPLv2.

Это означает, в том числе, что если вы хотите использовать код в коммерческом проекте или в проекте с закрытым кодом, то мы не гарантируем, что это легально, поскольку некоторые компоненты, которые мы используем, могут быть лицензионно несовместимы с таким использованием. В случае сомнений спросите у нас.

Как помочь

Мы ещё не написали этот раздел, основные пункты указаны на главной странице.

У меня остались вопросы

Можно написать нам на opencorpora@opencorpora.org, мы будем рады и обязательно вам ответим.