Уровни разметки — различия между версиями

Материал из OpenCorpora Вики
Перейти к: навигация, поиск
(Новая страница: «== Тексты, метаинформация == Корпус состоит из '''текстов''', подходящих для включения в корп…»)
 
(Сегментация)
Строка 8: Строка 8:
 
Существует некоторое количество [https://github.com/OpenCorpora/opencorpora/tree/master/scripts/validators валидаторов], которые проверяют наличие и корректность некоторых тегов. Результаты работы валидаторов отображаются [http://opencorpora.org/qa.php?act=book_tags здесь].
 
Существует некоторое количество [https://github.com/OpenCorpora/opencorpora/tree/master/scripts/validators валидаторов], которые проверяют наличие и корректность некоторых тегов. Результаты работы валидаторов отображаются [http://opencorpora.org/qa.php?act=book_tags здесь].
 
== Сегментация ==
 
== Сегментация ==
 +
Текст членится на абзацы (это разделение берётся из источника) и '''предложения'''. Деление на предложения производится вручную по [[Инструкция по делению на предложения|некоторым правилам]].
 +
 +
=== Контроль качества ===
 +
Тривиальный не очень точный [https://github.com/OpenCorpora/opencorpora/blob/master/scripts/tokenizer/check_sentence_split.pl классификатор], результаты видны [http://opencorpora.org/qa.php?act=sent_split здесь].
 +
 
== Токенизация ==
 
== Токенизация ==
 
== Морфология ==
 
== Морфология ==
 
== Морфологический словарь ==
 
== Морфологический словарь ==

Версия 10:15, 6 июня 2014

Тексты, метаинформация

Корпус состоит из текстов, подходящих для включения в корпус с лицензионной точки зрения. Тексты организованы иерархически; относительно короткая статья или новостная заметка целиком включается в один текст, более длинные произведения могут быть разбиты на несколько текстов (например, по главам, разделам и т.п.).

Любому тексту может соответствовать любое количество тегов, содержащих информацию о тексте целиком: автор, дата создания, источник (по возможности указывается url) и т.д.

Добавление текстов производится вручную. Решение о том, разбивать текст на более мелкие или нет, оставляется на усмотрение добавляющего. Простановка тегов по возможности автоматизируется (например, для Викиновостей), но для некоторых источников их нужно проставлять вручную при добавлении текста (см. инструкцию).

Контроль качества

Существует некоторое количество валидаторов, которые проверяют наличие и корректность некоторых тегов. Результаты работы валидаторов отображаются здесь.

Сегментация

Текст членится на абзацы (это разделение берётся из источника) и предложения. Деление на предложения производится вручную по некоторым правилам.

Контроль качества

Тривиальный не очень точный классификатор, результаты видны здесь.

Токенизация

Морфология

Морфологический словарь