FAQ: различия между версиями
GranD (обсуждение | вклад) |
GranD (обсуждение | вклад) Нет описания правки |
||
Строка 26: | Строка 26: | ||
Всё это можно взять на [http://opencorpora.org/?page=downloads странице Downloads]. | Всё это можно взять на [http://opencorpora.org/?page=downloads странице Downloads]. | ||
=== Какие ещё данные планируются? === | |||
* подкорпус со снятой грамматической неоднозначностью, | |||
* неразмеченные тексты с метаинформацией, | |||
* n-граммы с лемматизацией, | |||
* коллокации по другим метрикам, кроме MI. | |||
=== Как можно добавить в корпус ещё один или несколько текстов? === | === Как можно добавить в корпус ещё один или несколько текстов? === | ||
В данный момент, к сожалению, процедура добавления текстов очень сложная и не очень интересная, поэтому мы пока приостановили добавление вовсе, а в будущем, вероятно, будем делать это сами. Если ваш текст подходит нам по лицензии, то напишите нам и мы его добавим. | В данный момент, к сожалению, процедура добавления текстов очень сложная и не очень интересная, поэтому мы пока приостановили добавление вовсе, а в будущем, вероятно, будем делать это сами. Если ваш текст подходит нам по лицензии, то напишите нам и мы его добавим. | ||
Строка 37: | Строка 41: | ||
* если ошибка в том, что у слова не снята неоднозначность, [http://opencorpora.org/tasks.php присоединяйтесь к разметке] и помогите нам это исправить, | * если ошибка в том, что у слова не снята неоднозначность, [http://opencorpora.org/tasks.php присоединяйтесь к разметке] и помогите нам это исправить, | ||
* если это что-то другое, вы можете создать сообщение об ошибке [http://code.google.com/p/opencorpora/issues/list здесь] или [mailto:[email protected] написать нам письмо]. | * если это что-то другое, вы можете создать сообщение об ошибке [http://code.google.com/p/opencorpora/issues/list здесь] или [mailto:[email protected] написать нам письмо]. | ||
== Код и его использование == | |||
=== Можно ли использовать ваш движок или его часть в своём проекте? === | === Можно ли использовать ваш движок или его часть в своём проекте? === | ||
Да, наш код находится [http://opencorpora.googlecode.com здесь] и лицензирован под GPLv2. | Да, наш код находится [http://opencorpora.googlecode.com здесь] и лицензирован под GPLv2. | ||
Это означает, в том числе, что если вы хотите использовать код в коммерческом проекте или в проекте с закрытым кодом, то мы не гарантируем, что это легально, поскольку некоторые компоненты, которые мы используем, могут быть лицензионно несовместимы с таким использованием. В случае сомнений спросите у нас. | Это означает, в том числе, что если вы хотите использовать код в коммерческом проекте или в проекте с закрытым кодом, то мы не гарантируем, что это легально, поскольку некоторые компоненты, которые мы используем, могут быть лицензионно несовместимы с таким использованием. В случае сомнений спросите у нас. | ||
=== Вы делаете какой-то сопутствующий софт, кроме непосредственно корпуса? === | |||
Да, у нас сейчас есть [http://search.cpan.org/~ksuri/Lingua-RU-OpenCorpora-Tokenizer/ модуль токенизации], написанный на Perl. | |||
В будущем, предположительно, появится какой-то сегментатор более высокого уровня (для деления текста на предложения) и, возможно, POS-tagger. Следите за новостями. | |||
== Разное == | |||
=== На сайте что-то не работает или работает странно === | |||
Напишите нам, пожалуйста, об этом [http://code.google.com/p/opencorpora/issues/list сюда]. | |||
== Как помочь == | == Как помочь == | ||
=== Я программист, как вам помочь? === | === Я программист, как вам помочь? === | ||
У нас про это есть [[Задачи для разработчиков|целая страница]]. | У нас про это есть [[Задачи для разработчиков|целая страница]]. Если там не нашлось ничего подходящего — напишите нам. | ||
=== Я не программист, как вам помочь? === | === Я не программист, как вам помочь? === |
Версия от 14:07, 9 октября 2012
Общие вопросы
В чём суть проекта?
Если в двух словах, то мы собираем большую базу данных, состоящую из текстов на русском языке и разнообразной информации, добавленной к текстам и отдельным словам. Такая база называется корпусом. Это нужно для создания, во-первых, инструментов анализа текста, во-вторых, разных производных продуктов и технологий. См. Компьютерная лингвистика, о проекте.
Всё, что мы делаем в рамках OpenCorpora, распространяется бесплатно и под свободными лицензиями. Это принципиальная позиция и так будет всегда.
Кто участники проекта? Кто его спонсирует?
Список разработчиков есть на этой странице, список участников — на этой. Проект не спонсирует никто, мы занимаемся им в свободное время.
Проект ещё жив?
По состоянию на осень 2012 г. проекту три года и он вполне жив. В любой момент времени можно убедиться в этом, заглянув в список последних изменений в коде и в статистику разметки корпуса.
Как быть в курсе ваших новостей?
Есть другие корпуса, чем ваш лучше?
Главное — все наши данные доступны под открытой лицензией. Подробно мы описали свою мотивацию в этой статье и в этом видео.
Что означает слово OpenCorpora?
Это перевод словосочетания "открытые корпуса" на английский язык. Corpora — это множественное число от corpus.
Данные и их использование
Какие у вас есть данные?
По состоянию на сентябрь 2012 г. данные у нас такие:
- морфологический словарь русского языка (основанный на словаре проекта АОТ), описание формата здесь;
- непосредственно корпус с морфологической разметкой (омонимия не снята, но мы уже её снимаем), актуальный объём можно посмотреть на странице статистики;
- разные частотные списки слов, составленные по этому корпусу;
- списки коллокаций по метрике MI.
Всё это можно взять на странице Downloads.
Какие ещё данные планируются?
- подкорпус со снятой грамматической неоднозначностью,
- неразмеченные тексты с метаинформацией,
- n-граммы с лемматизацией,
- коллокации по другим метрикам, кроме MI.
Как можно добавить в корпус ещё один или несколько текстов?
В данный момент, к сожалению, процедура добавления текстов очень сложная и не очень интересная, поэтому мы пока приостановили добавление вовсе, а в будущем, вероятно, будем делать это сами. Если ваш текст подходит нам по лицензии, то напишите нам и мы его добавим.
На каких условиях я могу использовать ваши данные?
На условиях лицензии Creative Commons Attribution-ShareAlike 3.0. То есть бесплатно, но при создании чего-либо на основе этих данных вы обязаны указать, что эти данные взяли у нас, а распространять их дальше можно только на этих же условиях.
Кстати, если вы будете использовать наши данные, напишите нам об этом, нам будет приятно.
Я нашёл в данных ошибку. Как мне сделать так, чтобы её исправили?
- если ошибка в том, что у слова не снята неоднозначность, присоединяйтесь к разметке и помогите нам это исправить,
- если это что-то другое, вы можете создать сообщение об ошибке здесь или написать нам письмо.
Код и его использование
Можно ли использовать ваш движок или его часть в своём проекте?
Да, наш код находится здесь и лицензирован под GPLv2.
Это означает, в том числе, что если вы хотите использовать код в коммерческом проекте или в проекте с закрытым кодом, то мы не гарантируем, что это легально, поскольку некоторые компоненты, которые мы используем, могут быть лицензионно несовместимы с таким использованием. В случае сомнений спросите у нас.
Вы делаете какой-то сопутствующий софт, кроме непосредственно корпуса?
Да, у нас сейчас есть модуль токенизации, написанный на Perl.
В будущем, предположительно, появится какой-то сегментатор более высокого уровня (для деления текста на предложения) и, возможно, POS-tagger. Следите за новостями.
Разное
На сайте что-то не работает или работает странно
Напишите нам, пожалуйста, об этом сюда.
Как помочь
Я программист, как вам помочь?
У нас про это есть целая страница. Если там не нашлось ничего подходящего — напишите нам.
Я не программист, как вам помочь?
- Примите участие в разметке корпуса (инструкция, скоро перепишем сюда).
- В этом списке есть некоторые задачи, для которых не нужно уметь программировать.
- Расскажите о нас тем, кому это может быть интересно. Подпишитесь на наш твиттер и делайте ретвиты.
- Если вы знаете источник текстов под открытой лицензией (чей-то блог, новостной сайт или ещё что-нибудь), запишите его сюда.
- Придумайте, что можно было бы добавить в проект или улучшить, и расскажите нам.
- Если вы хорошо знаете русский язык (и особенно если вы лингвист), помогите нам с модерацией разметки (пишите).
- Если вы умеете рисовать, нарисуйте нам хороший логотип :)
- Если всё это не подходит, напишите нам и мы что-нибудь придумаем.
У меня остались вопросы
Можно написать нам на [email protected], мы будем рады и обязательно вам ответим.