Весь корпус, XML ( XML Schema) обновлён 03.02.2026 01:46 MSK
предложений: 110304, токенов: 1989538, слов: 1539972
* Морфологическая разметка. Неоднозначность снята частично (там, где хватило данных).
Подкорпус со снятой омонимией*, XML
| .bz2
(1.70 Мб)
| .zip
(2.68 Мб)
обновлён 03.02.2026 01:46 MSK
предложений: 13290, токенов: 93990, слов: 63410
* В подкорпус включены только целые предложения, не имеющие в своём составе ни одного неоднозначно разобранного слова — как изначально однозначные предложения, так и те, в которых неоднозначность была снята вручную.
Подкорпус со снятой омонимией без UNKN, XML
| .bz2
(1.37 Мб)
| .zip
(2.17 Мб)
обновлён 03.02.2026 01:46 MSK
предложений: 10972, токенов: 72731, слов: 50483
Подкорпус со снятой омонимией (без модерации)*, XML
| .bz2
(0.00 Мб)
| .zip
(0.00 Мб)
обновлён 03.02.2026 01:46 MSK
предложений: 0, токенов: 0, слов: 0
* В подкорпус включены предложения, где неоднозначность снята по ответам пользователей, в том числе не проверенным модераторами.
| Леммы | Учёт регистра | Только слова* | Обновлено | ||||
|---|---|---|---|---|---|---|---|
| 1_exact_cyr_lc | — | — | + | архив .bz2 (0.00 Мб) | архив .zip (0.00 Мб) | top100 | 03.02.2026 16:57 MSK |
| 1_exact_cyr | — | + | + | архив .bz2 (0.00 Мб) | архив .zip (0.00 Мб) | top100 | 03.02.2026 16:57 MSK |
| 1_exact_lc | — | — | — | архив .bz2 (0.00 Мб) | архив .zip (0.00 Мб) | top100 | 03.02.2026 16:57 MSK |
| 1_exact | — | + | — | архив .bz2 (0.00 Мб) | архив .zip (0.00 Мб) | top100 | 03.02.2026 16:57 MSK |
| 2_exact_cyrA_lc | — | — | + (A**) | архив .bz2 (0.00 Мб) | архив .zip (0.00 Мб) | top100 | 03.02.2026 16:57 MSK |
| 2_exact_cyrB_lc | — | — | + (B**) | архив .bz2 (0.00 Мб) | архив .zip (0.00 Мб) | top100 | 03.02.2026 16:57 MSK |
| 2_exact_cyrA | — | + | + (A**) | архив .bz2 (0.00 Мб) | архив .zip (0.00 Мб) | top100 | 03.02.2026 16:57 MSK |
| 2_exact_cyrB | — | + | + (B**) | архив .bz2 (0.00 Мб) | архив .zip (0.00 Мб) | top100 | 03.02.2026 16:57 MSK |
| 2_exact_lc | — | — | — | архив .bz2 (0.00 Мб) | архив .zip (0.00 Мб) | top100 | 03.02.2026 16:57 MSK |
| 2_exact | — | + | — | архив .bz2 (0.00 Мб) | архив .zip (0.00 Мб) | top100 | 03.02.2026 16:57 MSK |
| 3_exact_cyrA_lc | — | — | + (A**) | архив .bz2 (0.00 Мб) | архив .zip (0.00 Мб) | top100 | 03.02.2026 16:57 MSK |
| 3_exact_cyrB_lc | — | — | + (B**) | архив .bz2 (0.00 Мб) | архив .zip (0.00 Мб) | top100 | 03.02.2026 16:57 MSK |
| 3_exact_cyrA | — | + | + (A**) | архив .bz2 (0.00 Мб) | архив .zip (0.00 Мб) | top100 | 03.02.2026 16:57 MSK |
| 3_exact_cyrB | — | + | + (B**) | архив .bz2 (0.00 Мб) | архив .zip (0.00 Мб) | top100 | 03.02.2026 16:57 MSK |
| 3_exact_lc | — | — | — | архив .bz2 (0.00 Мб) | архив .zip (0.00 Мб) | top100 | 03.02.2026 16:57 MSK |
| 3_exact | — | + | — | архив .bz2 (0.00 Мб) | архив .zip (0.00 Мб) | top100 | 03.02.2026 16:57 MSK |
* Словами мы считаем токены, имеющие в своём составе хотя бы одну кириллическую букву.
** Тип A: токены, не являющиеся словами, игнорируются, т.е. в биграмму могут входить, например, слова, разделённые запятой. Тип B: никакие токены не игнорируются, но из списка исключаются цепочки, где хотя бы один токен не является словом.
(На данный момент только двусловные и рассчитываются только по метрике MI. На термы наложено ограничение по частоте снизу: не менее корня 4-й степени от объёма корпуса.)
Обновлено 03.02.2026 16:57 MSK
XML ( XML Schema), обновлён 01.02.2026 01:46 MSK, см. описание формата
Plain text, обновлён 01.02.2026 01:47 MSK
Информация о пользователях не включена. Обновляется раз в неделю.