Словарный запас журнала

21 февраля отмечался Международный день родного языка, и по такому случаю я решил проанализировать словарь журнала x32. В нём — почти 33 тысячи словоформ.

Как считал. Взял выборку всех статей. Для чистоты эксперимента выбрал только слова, написанные кириллицей, их вышло около 170 тысяч. Затем несложным скриптом на языке Python сосчитал дубли и отсортировал. Получилось 32 927 словоформ. Первыми по частоте идут, конечно же, предлоги: «и», «в» встречаются около шести тысяч раз, то есть их в тексте примерно 3,7%.

Интересно, что существительные в списке наиболее часто употребляемых начинаются примерно с двадцатых-тридцатых строк. Значит — тексты достаточно разнообразны. Из наиболее частых, например, существительное «время» (во всех падежах) встречается 384 раза, а глагол «быть» (во всех глагольных формах) — 1761 раз.

Сколько же тогда слов, то есть лексем в исходных формах, в словаре? Собрать все склонения-спряжения-падежи весьма непросто, здесь нужен опорный словарь и целый ряд ухищрений, но можно грубо разделить на три — около 10 тысяч. Как-то мало, да? На самом деле — это приблизительная оценка, да и не все слова нашей речи попадают в тексты. Значит 10 тысяч лексем и 33 тысячи словоформ — это минимум, на самом деле в моём лексиконе больше.


Protected by Copyscape Online Plagiarism Test
Вы не можете высказаться или оставить ссылку здесь...

Обсуждение закрыто.

Powered by WordPress | Thanks to NewWpThemes | Александр Божок