Статистика

Наполнение корпуса

Таблица показывает, какие тексты и в каком количестве сейчас есть в корпусе.

Источник Текстов Предложений Токенов Словоупотреблений
ЧасКор (статьи) 317 26 702 466 545

367 115 = 146%

ЧасКор (новости) 1 083 15 550 287 807

228 859 = 183%

Википедия 396 14 032 270 203

202 854 = 101%

Викиновости 586 9 205 165 128

130 897 = 104%

Блоги 787 8 912 131 538

101 898 = 101%

Худож. литература 93 10 043 148 164

114 905 = 114%

Нон-фикшн 127 12 025 236 289

182 639 = 91%

Юридические тексты 441 4 895 128 109

102 266 = 102%

Другое 39 7 085 114 789

90 382 = 0%

Всего 4 030 110 306 1 989 618

1 554 359 = 129%