Для решения многих лингвистических задач используются так называемые текстовые корпуса — специальным образом подобранные и структурированные коллекции текстов. Наиболее информативными являются размеченные корпуса, то есть такие, в которых частям текста приписана лингвистическая информация — например, каждое слово отнесено к той или иной части речи.
Создание размеченного корпуса — очень трудоёмкий процесс, требующий времени и сил многих людей. По этой причине чаще всего размеченные корпуса создаются коллективами исследователей при государственных учреждениях, и таких корпусов не очень много. Однажды созданный корпус может быть использован многими исследователями для решения различных задач. Способы применения корпуса могут быть самыми разнообразными, в том числе и такими, о которых не думали его создатели. Чтобы корпус мог приносить максимальную отдачу научному сообществу, нужно, чтобы он был доступен не только для просмотра через предусмотренный его разработчиками интерфейс, но и для скачивания целиком на компьютер пользователя.
OpenCorpora — это проект по созданию размеченного корпуса текстов силами сообщества. Корпус будет доступен бесплатно и в полном объёме (под лицензией CC-BY-SA). Мы создаём хранилище текстов, специально предназначенное для текстов с лингвистической разметкой, удобный интерфейс редактирования разметки и исправления ошибок, инструменты для контроля качества и стандарт разметки для русского языка.