Статистика

Наполнение корпуса

Таблица показывает, какие тексты и в каком количестве сейчас есть в корпусе.

Источник Текстов Предложений Токенов Словоупотреблений
ЧасКор (статьи) 318 25 779 451 779

355 504 = 142%

ЧасКор (новости) 1 092 15 388 284 846

226 465 = 181%

Википедия 390 13 864 267 148

200 355 = 100%

Викиновости 588 9 184 164 840

130 623 = 104%

Блоги 790 8 803 129 781

100 528 = 100%

Худож. литература 93 10 043 148 092

114 923 = 114%

Нон-фикшн 127 12 025 236 584

182 775 = 91%

Юридические тексты 441 4 895 128 234

102 288 = 102%

Другое 39 7 085 114 888

90 457 = 0%

Всего 4 022 108 960 1 966 897

1 536 023 = 128%