Статистические+(частотные)+автоматические+словари

О степени распространенности слова в речи можно судить по **частотным словарям**, составляемых на основе статистических данных словоупотребления. Это создает объективную базу для рационального отбора лексики, включаемой в школьные учебники, словари-минимумы, словари для машинного перевода. Обычно частотные словари строятся на основе корпусов текстов: берется набор текстов, представительный для языка в целом, для некоторой предметной области или данного автора и из него извлекаются словоформы, леммы и части речи (последние извлекаются в случае, если корпус имеет морфологическую разметку). В качестве пособия для преподавателей был издан «Частотный словарь современного русского литературного языка» Д.А. Штейнфельдт (1963 г.). В словаре, содержащем свыше 2,5 тыс. слов, даются списки слов по частоте употребления, по частям речи (с указанием частотности некоторых форм), общий список слов по алфавиту. В 1970 г. вышел «Частотный словарь общенаучной лексики» под ред. Е.М. Степановой, а в 1971 г. – «Частотный словарь языка газеты» Г.П. Поляковой и Г.Я. Соманика. Весьма полным является «Частотный словарь русского языка» под ред. Л.Н. Засориной (1977 г.), содержащий свыше 40 тыс. слов, отобранных на основании обработки средствами вычислительной техники 1 млн словоупотреблений. Частотные словари обеспечивают возможность сравнить два корпуса, чтобы определить слова, наиболее характерные для каждого из них. В связи с тем, что размеры корпусов могут быть различны, более надёжная оценка частоты слов основывается на приведении их к чмс (частота на миллион словоформ, ipm, instances per million words). Слово //и// имеет частоту около 30000 чмс, слово //старость// — около 30.