Инструкция по добавлению текстов

Материал из OpenCorpora Вики
Перейти к: навигация, поиск

Эта инструкция о том, как добавлять к корпус новые тексты. Добавление текстов включает в себя простановку границ слов и предложений.

Шаг №1: Получение прав

Для того, чтобы добавлять тексты в корпус, нужно получить права. Если у Вас на главной странице нет ссылки "Координация заливки", значит прав на добавление текстов нет. Чтобы получить права, сделайте следующее:

  • дочитайте эту инструкцию до конца
  • напишите письмо bocharov@opencorpora.org с текстом "Права на добавление текстов" в поле "Тема"
  • дождитесь ответа
  • получив права, выйдите и войдите на OpenCorpora.org
  • если появилась ссылка "Координация заливки", значит права выданы

Шаг №2: Выбор документа

  1. Выбрать никем ещё не выбранный (белая строчка) документ из списка документов для заливки и указать себя (нажать “я хочу”) в качестве ответственного за заливку.
  2. В колонке “Провязка” нажать “добавить”, а потом “создать”.
  3. Вместо слова “Название” ввести правильное название раздела. Как правильно называть раздел - см. “Источник” / Метаинформация / Название раздела. Нажать “Ок” (при этом произойдёт две вещи: создастся новый раздел и ссылка на него появится в колонке “Провязка” вместо слова “добавить”). Перейти по ссылке в колонке “Провязка”.
  4. Скопировать текст из источника (в браузере) в поле ввода на открывшейся странице
  5. Удалить из текста:
    • картинки и подписи под картинками
    • таблицы и подписи под таблицами
  6. Проставить границы абзацев (двойной перевод строки) и предложений (одинарный перевод строки). См. “Правила разделения на предложения”.
  7. В документах, взятых из первоисточника, опечатки оставляем как есть. Является ли данный источник первоисточником написано в соответствующем разделе (см. ниже). Если документ не является первоисточником, нужно сверять с авторитетным печатным изданием и заливать как там написано (= как было написано у автора).
  8. Когда разделение на предложения и абзацы завершено. нажать “Проверить” и подождать, пока слова ищутся в словаре.
  9. Проверить, правильно ли предложения разбиты на токены (см. “Инструкция по токенизации”).
  10. Если разделение на токены выполнено неверно, то нажать на ссылку “внести исправления”. Развернётся поле ввода. В нём граница токенов обозначена двойной крышкой (^^). Лишние границы токенов нужно удалить. Недостающие - проставить.
  11. Когда все границы токенов проверены и исправлены, выбрать название ранее созданного раздела и нажать “Добавить”.
  12. На странице добавленного раздела проставить теги так, как указано в “Источник” / Метаинформация / Теги.
  13. После того, как будет указан url (один или несколько), около каждого url надо нажать на ссылку “скачать” и дождаться пока текст ссылки сменится на “сохранённая копия”. Проверить, что по клику на на ссылке “сохранённая копия” открывается именно копия добавленного документа, а не что-то ещё и не сообщение об ошибке. NB: визуально закачанный документ чаще всего отличается от оригинала, т.к. слетают css и картинки. Это нормально.

Копия оригинального документа сохраняется на тот случай, если кто-то захочет совместить типографскую разметку (шрифты, цвета, подчёркнутость, ссылки, …) и лингвистическую. Поскольку всю типографику при заливке мы удаляем, эта задача решается только обращением к оригиналу. Оригинал же может измениться или вообще исчезнуть (иной раз и вместе с сайтом). Чтобы это не угрожало пригодности наших данных, мы сохраняем оригинал при заливке указанным выше способом. Через некоторое время эти сохранённые копии тоже будут доступны для скачивания отдельным архивом.

См. также