Уровни разметки: различия между версиями

Версия от 10:49, 6 июня 2014

Тексты, метаинформация

Корпус состоит из текстов, подходящих для включения в корпус с лицензионной точки зрения. Тексты организованы иерархически; относительно короткая статья или новостная заметка целиком включается в один текст, более длинные произведения могут быть разбиты на несколько текстов (например, по главам, разделам и т.п.).

Любому тексту может соответствовать любое количество тегов, содержащих информацию о тексте целиком: автор, дата создания, источник (по возможности указывается url) и т.д.

Добавление текстов производится вручную. Решение о том, разбивать текст на более мелкие или нет, оставляется на усмотрение добавляющего. Простановка тегов по возможности автоматизируется (например, для Викиновостей), но для некоторых источников их нужно проставлять вручную при добавлении текста (см. инструкцию).

Контроль качества

Существует некоторое количество валидаторов, которые проверяют наличие и корректность некоторых тегов. Результаты работы валидаторов отображаются здесь.

Сегментация

Текст членится на абзацы (это разделение берётся из источника) и предложения. Деление на предложения производится вручную по некоторым правилам.

Контроль качества

Тривиальный не очень точный классификатор, результаты видны здесь.

Токенизация

Токенизация - процесс деления предложения на токены. Токен - минимальная адресуемая единица корпуса, чаще всего это слово. Внутри токена не может быть пробелов, других ограничений не накладывается. (Это имеет побочный эффект: если в исходном тексте допущена опечатка и токен разбит пробелом, мы не можем его склеить обратно.)

Деление текста на токены производится автоматически при добавлении текста (описание классификатора). Иногда классификатор ошибается, поэтому в случаях, когда он не уверен, его проверяет человек по инструкции.

Контроль качества

Тот же самый классификатор умеет находить странные, с его точки зрения, случаи токенизации в корпусе (обновляемый список здесь). Можно добавлять исключения.

@@ Строка 14: / Строка 14: @@
 == Токенизация ==
+Токенизация - процесс деления предложения на '''токены'''. Токен - минимальная адресуемая единица корпуса, чаще всего это слово. Внутри токена не может быть пробелов, других ограничений не накладывается. (Это имеет побочный эффект: если в исходном тексте допущена опечатка и токен разбит пробелом, мы не можем его склеить обратно.)
+Деление текста на токены производится автоматически при добавлении текста ([http://opencorpora.org/doc/articles/2012_Dialog.pdf описание классификатора]). Иногда классификатор ошибается, поэтому в случаях, когда он не уверен, его проверяет человек по [[Инструкция по токенизации|инструкции]].
+=== Контроль качества ===
+Тот же самый классификатор умеет находить странные, с его точки зрения, случаи токенизации в корпусе (обновляемый список [http://opencorpora.org/qa.php?act=tokenizer здесь]). Можно добавлять [https://github.com/OpenCorpora/opencorpora/blob/master/scripts/tokenizer/tokenizer_exceptions.txt исключения].
 == Морфология ==
 == Морфологический словарь ==

Уровни разметки: различия между версиями

Версия от 10:49, 6 июня 2014

Содержание

Тексты, метаинформация

Контроль качества

Сегментация

Контроль качества

Токенизация

Контроль качества

Морфология

Морфологический словарь

Навигация

Уровни разметки: различия между версиями

Версия от 10:49, 6 июня 2014

Тексты, метаинформация

Контроль качества

Сегментация

Контроль качества

Токенизация

Контроль качества

Морфология

Морфологический словарь

Навигация

Поиск