Статистика

Наполнение корпуса

Таблица показывает, какие тексты и в каком количестве сейчас есть в корпусе.

Источник Текстов Предложений Токенов Словоупотреблений
ЧасКор (статьи) 318 25 779 451 758

355 499 = 142%

ЧасКор (новости) 1 092 15 388 284 842

226 463 = 181%

Википедия 390 13 864 267 133

200 344 = 100%

Викиновости 588 9 184 164 842

130 624 = 104%

Блоги 790 8 803 129 778

100 527 = 100%

Худож. литература 93 10 043 148 090

114 923 = 114%

Нон-фикшн 127 12 025 236 585

182 775 = 91%

Юридические тексты 441 4 895 128 212

102 271 = 102%

Другое 39 7 085 114 834

90 403 = 0%

Всего 4 022 108 960 1 966 780

1 535 934 = 127%