Система находится в режиме «только для чтения». Функции разметки и редактирования временно не работают.

Материалы для скачивания

Размеченные тексты

Весь корпус, XML ( XML Schema) обновлён 19.09.2020 05:17 MSK
предложений: 110302, токенов: 1989538, слов: 1539979

* Морфологическая разметка. Неоднозначность снята частично (там, где хватило данных).

Со снятой омонимией

Подкорпус со снятой омонимией*, XML | .bz2 (1.70 Мб) | .zip (2.68 Мб) обновлён 19.09.2020 05:17 MSK
предложений: 13277, токенов: 93876, слов: 63323

* В подкорпус включены только целые предложения, не имеющие в своём составе ни одного неоднозначно разобранного слова — как изначально однозначные предложения, так и те, в которых неоднозначность была снята вручную.

Подкорпус со снятой омонимией без UNKN, XML | .bz2 (1.37 Мб) | .zip (2.18 Мб) обновлён 19.09.2020 05:17 MSK
предложений: 10958, токенов: 72601, слов: 50383

Подкорпус со снятой омонимией (без модерации)*, XML | .bz2 (4.25 Мб) | .zip (6.86 Мб) обновлён 19.09.2020 05:18 MSK
предложений: 26004, токенов: 256297, слов: 188340

* В подкорпус включены предложения, где неоднозначность снята по ответам пользователей, в том числе не проверенным модераторами.

Частотные списки

Тип n-граммы:

Учёт регистра:

Тип токенов:

  Леммы Учёт регистра Только слова*   Обновлено
1_exact_cyr_lc + архив .bz2 (0.68 Мб) архив .zip (0.99 Мб) top100 19.09.2020 05:20 MSK
1_exact_cyr + + архив .bz2 (0.77 Мб) архив .zip (1.12 Мб) top100 19.09.2020 05:20 MSK
1_exact_lc архив .bz2 (0.73 Мб) архив .zip (1.06 Мб) top100 19.09.2020 05:19 MSK
1_exact + архив .bz2 (0.82 Мб) архив .zip (1.20 Мб) top100 19.09.2020 05:18 MSK
2_exact_cyrA_lc + (A**) архив .bz2 (5.03 Мб) архив .zip (7.89 Мб) top100 19.09.2020 05:25 MSK
2_exact_cyrB_lc + (B**) архив .bz2 (4.04 Мб) архив .zip (6.35 Мб) top100 19.09.2020 05:26 MSK
2_exact_cyrA + + (A**) архив .bz2 (5.28 Мб) архив .zip (8.29 Мб) top100 19.09.2020 05:23 MSK
2_exact_cyrB + + (B**) архив .bz2 (4.24 Мб) архив .zip (6.68 Мб) top100 19.09.2020 05:24 MSK
2_exact_lc архив .bz2 (5.23 Мб) архив .zip (8.18 Мб) top100 19.09.2020 05:22 MSK
2_exact + архив .bz2 (5.51 Мб) архив .zip (8.61 Мб) top100 19.09.2020 05:21 MSK
3_exact_cyrA_lc + (A**) архив .bz2 (9.07 Мб) архив .zip (14.15 Мб) top100 19.09.2020 05:31 MSK
3_exact_cyrB_lc + (B**) архив .bz2 (6.19 Мб) архив .zip (9.74 Мб) top100 19.09.2020 05:32 MSK
3_exact_cyrA + + (A**) архив .bz2 (9.35 Мб) архив .zip (14.61 Мб) top100 19.09.2020 05:29 MSK
3_exact_cyrB + + (B**) архив .bz2 (6.37 Мб) архив .zip (10.05 Мб) top100 19.09.2020 05:30 MSK
3_exact_lc архив .bz2 (10.25 Мб) архив .zip (15.98 Мб) top100 19.09.2020 05:28 MSK
3_exact + архив .bz2 (10.57 Мб) архив .zip (16.49 Мб) top100 19.09.2020 05:27 MSK

* Словами мы считаем токены, имеющие в своём составе хотя бы одну кириллическую букву.

** Тип A: токены, не являющиеся словами, игнорируются, т.е. в биграмму могут входить, например, слова, разделённые запятой. Тип B: никакие токены не игнорируются, но из списка исключаются цепочки, где хотя бы один токен не является словом.

Коллокации

(На данный момент только двусловные и рассчитываются только по метрике MI. На термы наложено ограничение по частоте снизу: не менее корня 4-й степени от объёма корпуса.)

Обновлено 19.09.2020 05:32 MSK

Морфологический словарь

XML ( XML Schema), обновлён 13.09.2020 05:23 MSK, см. описание формата

Plain text, обновлён 13.09.2020 05:25 MSK

Копия базы данных

Информация о пользователях не включена. Обновляется раз в неделю.