Материалы для скачивания

Размеченные тексты

Весь корпус, XML ( XML Schema) обновлён 22.05.2019 05:06 MSK
предложений: 109121, токенов: 1970173, слов: 1524851

Со снятой омонимией

Подкорпус со снятой омонимией*, XML | .bz2 (1.69 Мб) | .zip (2.67 Мб) обновлён 22.05.2019 05:06 MSK
предложений: 13198, токенов: 93341, слов: 62928

* В подкорпус включены целые предложения, не имеющие в своём составе ни одного неоднозначно разобранного слова — как изначально однозначные предложения, так и те, в которых неоднозначность была снята вручную.

Подкорпус со снятой омонимией без UNKN, XML | .bz2 (1.31 Мб) | .zip (2.09 Мб) обновлён 22.05.2019 05:06 MSK
предложений: 10590, токенов: 69236, слов: 48154

Подкорпус со снятой омонимией (без модерации)*, XML | .bz2 (4.10 Мб) | .zip (6.50 Мб) обновлён 22.05.2019 05:07 MSK
предложений: 25590, токенов: 250785, слов: 183997

* В подкорпус включены предложения, где неоднозначность снята по ответам пользователей, в том числе не проверенным модераторами.

Частотные списки

Тип n-граммы:

Учёт регистра:

Тип токенов:

  Леммы Учёт регистра Только слова*   Обновлено
1_exact_cyr_lc + архив .bz2 (0.67 Мб) архив .zip (0.98 Мб) top100 22.05.2019 05:09 MSK
1_exact_cyr + + архив .bz2 (0.76 Мб) архив .zip (1.11 Мб) top100 22.05.2019 05:09 MSK
1_exact_lc архив .bz2 (0.72 Мб) архив .zip (1.05 Мб) top100 22.05.2019 05:08 MSK
1_exact + архив .bz2 (0.81 Мб) архив .zip (1.19 Мб) top100 22.05.2019 05:07 MSK
2_exact_cyrA_lc + (A**) архив .bz2 (4.98 Мб) архив .zip (7.81 Мб) top100 22.05.2019 05:14 MSK
2_exact_cyrB_lc + (B**) архив .bz2 (4.00 Мб) архив .zip (6.30 Мб) top100 22.05.2019 05:15 MSK
2_exact_cyrA + + (A**) архив .bz2 (5.23 Мб) архив .zip (8.21 Мб) top100 22.05.2019 05:12 MSK
2_exact_cyrB + + (B**) архив .bz2 (4.19 Мб) архив .zip (6.62 Мб) top100 22.05.2019 05:13 MSK
2_exact_lc архив .bz2 (5.19 Мб) архив .zip (8.11 Мб) top100 22.05.2019 05:11 MSK
2_exact + архив .bz2 (5.45 Мб) архив .zip (8.53 Мб) top100 22.05.2019 05:10 MSK
3_exact_cyrA_lc + (A**) архив .bz2 (8.98 Мб) архив .zip (14.01 Мб) top100 22.05.2019 05:20 MSK
3_exact_cyrB_lc + (B**) архив .bz2 (6.13 Мб) архив .zip (9.64 Мб) top100 22.05.2019 05:21 MSK
3_exact_cyrA + + (A**) архив .bz2 (9.26 Мб) архив .zip (14.46 Мб) top100 22.05.2019 05:18 MSK
3_exact_cyrB + + (B**) архив .bz2 (6.31 Мб) архив .zip (9.94 Мб) top100 22.05.2019 05:19 MSK
3_exact_lc архив .bz2 (10.15 Мб) архив .zip (15.82 Мб) top100 22.05.2019 05:17 MSK
3_exact + архив .bz2 (10.46 Мб) архив .zip (16.33 Мб) top100 22.05.2019 05:16 MSK

* Словами мы считаем токены, имеющие в своём составе хотя бы одну кириллическую букву.

** Тип A: токены, не являющиеся словами, игнорируются, т.е. в биграмму могут входить, например, слова, разделённые запятой. Тип B: никакие токены не игнорируются, но из списка исключаются цепочки, где хотя бы один токен не является словом.

Коллокации

(На данный момент только двусловные и рассчитываются только по метрике MI. На термы наложено ограничение по частоте снизу: не менее корня 4-й степени от объёма корпуса.)

Обновлено 22.05.2019 05:21 MSK

Морфологический словарь

XML ( XML Schema), обновлён 16.05.2019 05:22 MSK, см. описание формата

Plain text, обновлён 16.05.2019 05:24 MSK

Копия базы данных

Информация о пользователях не включена. Обновляется раз в неделю.