Статистика

Наполнение корпуса

Таблица показывает, какие тексты и в каком количестве сейчас есть в корпусе.

Источник Текстов Предложений Токенов Словоупотреблений
ЧасКор (статьи) 318 25 779 451 779

355 504 = 142%

ЧасКор (новости) 1 092 15 388 284 842

226 463 = 181%

Википедия 390 13 864 267 140

200 347 = 100%

Викиновости 588 9 184 164 842

130 624 = 104%

Блоги 790 8 803 129 779

100 527 = 100%

Худож. литература 93 10 043 148 092

114 923 = 114%

Нон-фикшн 127 12 025 236 584

182 775 = 91%

Юридические тексты 441 4 895 128 222

102 276 = 102%

Другое 39 7 085 114 834

90 403 = 0%

Всего 4 022 108 960 1 966 819

1 535 947 = 127%