Инструкция по добавлению текстов
Эта инструкция о том, как добавлять к корпус новые тексты. Добавление текстов включает в себя простановку границ слов и предложений.
Шаг №1: Получение прав
Для того, чтобы добавлять тексты в корпус, нужно получить права. Если у Вас на главной странице нет ссылки "Координация заливки", значит прав на добавление текстов нет. Чтобы получить права, сделайте следующее:
- дочитайте эту инструкцию до конца
- напишите письмо [email protected] с текстом "Права на добавление текстов" в поле "Тема"
- дождитесь ответа
- получив права, выйдите и войдите на OpenCorpora.org
- если появилась ссылка "Координация заливки", значит права выданы
Шаг №2: Выбор документа
- Выбрать никем ещё не выбранный (белая строчка) документ из списка документов для заливки и указать себя (нажать “я хочу”) в качестве ответственного за заливку.
- В колонке “Провязка” нажать “добавить”, а потом “создать”.
- Вместо слова “Название” ввести правильное название раздела. Как правильно называть раздел - см. “Источник” / Метаинформация / Название раздела. Нажать “Ок” (при этом произойдёт две вещи: создастся новый раздел и ссылка на него появится в колонке “Провязка” вместо слова “добавить”). Перейти по ссылке в колонке “Провязка”.
- Скопировать текст из источника (в браузере) в поле ввода на открывшейся странице
- Удалить из текста:
- картинки и подписи под картинками
- таблицы и подписи под таблицами
- Проставить границы абзацев (двойной перевод строки) и предложений (одинарный перевод строки). См. “Правила разделения на предложения”.
- В документах, взятых из первоисточника, опечатки оставляем как есть. Является ли данный источник первоисточником написано в соответствующем разделе (см. ниже). Если документ не является первоисточником, нужно сверять с авторитетным печатным изданием и заливать как там написано (= как было написано у автора).
- Когда разделение на предложения и абзацы завершено. нажать “Проверить” и подождать, пока слова ищутся в словаре.
- Проверить, правильно ли предложения разбиты на токены (см. “Инструкция по токенизации”).
- Если разделение на токены выполнено неверно, то нажать на ссылку “внести исправления”. Развернётся поле ввода. В нём граница токенов обозначена двойной крышкой (^^). Лишние границы токенов нужно удалить. Недостающие - проставить.
- Когда все границы токенов проверены и исправлены, выбрать название ранее созданного раздела и нажать “Добавить”.
- На странице добавленного раздела проставить теги так, как указано в “Источник” / Метаинформация / Теги.
- После того, как будет указан url (один или несколько), около каждого url надо нажать на ссылку “скачать” и дождаться пока текст ссылки сменится на “сохранённая копия”. Проверить, что по клику на на ссылке “сохранённая копия” открывается именно копия добавленного документа, а не что-то ещё и не сообщение об ошибке. NB: визуально закачанный документ чаще всего отличается от оригинала, т.к. слетают css и картинки. Это нормально.
Копия оригинального документа сохраняется на тот случай, если кто-то захочет совместить типографскую разметку (шрифты, цвета, подчёркнутость, ссылки, …) и лингвистическую. Поскольку всю типографику при заливке мы удаляем, эта задача решается только обращением к оригиналу. Оригинал же может измениться или вообще исчезнуть (иной раз и вместе с сайтом). Чтобы это не угрожало пригодности наших данных, мы сохраняем оригинал при заливке указанным выше способом. Через некоторое время эти сохранённые копии тоже будут доступны для скачивания отдельным архивом.