Материалы для скачивания

Размеченные тексты

Весь корпус, XML ( XML Schema) обновлён 21.09.2017 05:33 MSK
предложений: 108960, токенов: 1966897, слов: 1522265

Со снятой омонимией

Подкорпус со снятой омонимией*, XML | .bz2 (1.55 Мб) | .zip (2.43 Мб) обновлён 21.09.2017 05:34 MSK
предложений: 12349, токенов: 84520, слов: 56241

* В подкорпус включены целые предложения, не имеющие в своём составе ни одного неоднозначно разобранного слова — как изначально однозначные предложения, так и те, в которых неоднозначность была снята вручную.

Подкорпус со снятой омонимией без UNKN, XML | .bz2 (1.20 Мб) | .zip (1.90 Мб) обновлён 21.09.2017 05:34 MSK
предложений: 9872, токенов: 62408, слов: 42875

Подкорпус со снятой омонимией (без модерации)*, XML | .bz2 (0.00 Мб) | .zip (0.00 Мб) обновлён 21.09.2017 05:34 MSK
предложений: 0, токенов: 0, слов: 0

* В подкорпус включены предложения, где неоднозначность снята по ответам пользователей, в том числе не проверенным модераторами.

Частотные списки

Тип n-граммы:

Учёт регистра:

Тип токенов:

  Леммы Учёт регистра Только слова*   Обновлено
1_exact_cyr_lc + архив .bz2 (0.67 Мб) архив .zip (0.98 Мб) top100 21.09.2017 05:38 MSK
1_exact_cyr + + архив .bz2 (0.76 Мб) архив .zip (1.11 Мб) top100 21.09.2017 05:37 MSK
1_exact_lc архив .bz2 (0.71 Мб) архив .zip (1.05 Мб) top100 21.09.2017 05:36 MSK
1_exact + архив .bz2 (0.80 Мб) архив .zip (1.18 Мб) top100 21.09.2017 05:35 MSK
2_exact_cyrA_lc + (A**) архив .bz2 (4.96 Мб) архив .zip (7.79 Мб) top100 21.09.2017 05:43 MSK
2_exact_cyrB_lc + (B**) архив .bz2 (3.98 Мб) архив .zip (6.27 Мб) top100 21.09.2017 05:45 MSK
2_exact_cyrA + + (A**) архив .bz2 (5.21 Мб) архив .zip (8.19 Мб) top100 21.09.2017 05:41 MSK
2_exact_cyrB + + (B**) архив .bz2 (4.18 Мб) архив .zip (6.60 Мб) top100 21.09.2017 05:42 MSK
2_exact_lc архив .bz2 (5.17 Мб) архив .zip (8.09 Мб) top100 21.09.2017 05:40 MSK
2_exact + архив .bz2 (5.43 Мб) архив .zip (8.50 Мб) top100 21.09.2017 05:39 MSK
3_exact_cyrA_lc + (A**) архив .bz2 (8.95 Мб) архив .zip (13.97 Мб) top100 21.09.2017 05:51 MSK
3_exact_cyrB_lc + (B**) архив .bz2 (6.11 Мб) архив .zip (9.62 Мб) top100 21.09.2017 05:52 MSK
3_exact_cyrA + + (A**) архив .bz2 (9.23 Мб) архив .zip (14.43 Мб) top100 21.09.2017 05:49 MSK
3_exact_cyrB + + (B**) архив .bz2 (6.29 Мб) архив .zip (9.92 Мб) top100 21.09.2017 05:50 MSK
3_exact_lc архив .bz2 (10.12 Мб) архив .zip (15.79 Мб) top100 21.09.2017 05:47 MSK
3_exact + архив .bz2 (10.43 Мб) архив .zip (16.29 Мб) top100 21.09.2017 05:46 MSK

* Словами мы считаем токены, имеющие в своём составе хотя бы одну кириллическую букву.

** Тип A: токены, не являющиеся словами, игнорируются, т.е. в биграмму могут входить, например, слова, разделённые запятой. Тип B: никакие токены не игнорируются, но из списка исключаются цепочки, где хотя бы один токен не является словом.

Коллокации

(На данный момент только двусловные и рассчитываются только по метрике MI. На термы наложено ограничение по частоте снизу: не менее корня 4-й степени от объёма корпуса.)

Обновлено 21.09.2017 05:53 MSK

Морфологический словарь

XML ( XML Schema), обновлён 13.09.2017 05:54 MSK, см. описание формата

Plain text, обновлён 13.09.2017 05:56 MSK

Копия базы данных

Информация о пользователях не включена. Обновляется раз в неделю.