Статистика+текста


 * Статистический анализ**

В связи с бурным развитием массовой и деловой коммуникации, ростом информационных потоков, интенсивным накоплением информации, предназначенной для систематизации, хранения и использования актуальной становится задача извлечения информации (информационного поиска) и ее анализа. Компьютерный анализ текстов в настоящее время начинает приобретать самостоятельное значение в проблематике гуманитарной информатики. Наиболее разработанным направлением является использование //статистических методов для обработки текста//, например, построение частотных словарей, конкордансов (словарей словосочетаний) и т.п. Анализ может вестись на разных уровнях - от грамматических форм до смысловых категорий, обнаруживаемых в тексте (контент-анализ). //Цель анализа - выявить некоторые закономерности, характеризующие текст, и сделать выводы, например, об авторстве текста или политических пристрастиях автора.// Известны различные методы выбора ключевых слов: статистические, выбор с помощью анкет или кодограмм, выбор по совпадению данного слова со словами некоторого положительного словаря и ряд других. Определение ключевых слов является основой для создания тезаурусов, используемых в процессах автоматического поиска информации, автоматического аннотирования, реферирования и перевода. Статистические методы выделения специфичной лексики основываются на анализе частоты употребления того или иного слова в определенной совокупности текстов. О них и пойдет речь далее.

Статистику и статический анализ, как понятия, имеет смысл разъединить. И то и другое понятие описывают по сути различные ситуации. И в силу этого становятся вполне самостоятельными объектами, решающие каждый раз свои специальные задачи в специальной области бытия. Так, статистика это знание, которое описывает некую совокупность специальных методов и методик исследования, применительно потенциально к различным, но однородных в своей основе сферам бытия и решения соответствующих задач. Статический анализ предполагает процесс применение статистики, как совокупности возможных методик и специального знания. В частности, анализ предполагает: исследование, рассмотрение, разбирательство, разложение, считывание; критика, обзор, обсуждение, оценка, синтез и пр. Соответственно статистический анализ имеет свои особые методы исследования и свои блоки знаний. На основании этого знания вырабатываются методические приемы для получения и развития уже существующего статистического знания.


 * Методы организации статистического наблюдения над текстом.**

Успех каждого лингвистического исследования зависит от организации статистического наблюдения, которая предусматривает, во-первых, выбор лингвистического признака и установление единицы совокупности, во-вторых, определение способа наблюдения.

Статистика предполагает следующие приемы выборочного наблюдения: 1. Случайный отбор. Здесь выбор отдельных единиц осуществляется либо по жребию, путем подбрасывания монет или игральной кости и т. д., либо путем использования таблиц случайных чисел. При этом каждая единица совокупности имеет равную возможность попасть в выборку. Это обеспечивает Достаточную близость средней выборочной величины к средней генеральной величине. Этот вид отбора ввиду его громоздкости сравнительно редко используется в лингвистике. " 2. Механический отбор. Здесь единицы совокупности выбираются в определенном, формально установленном порядке. Например, желая исследовать распределение гласных, мы нумеруем все фонемы текста, после чего фиксируем присутствие или отсутствие гласной во всех фонемных позициях, номер которых кратен 10 (или 5, 3 и т. п.). 3. Серийный отбор. В противоположность рассмотренным выше видам выборки, где отбор каждой единицы проводится в индивидуальном порядке, серийная выборка предполагает отбор сериями. Эти серии отбираются в случайном порядке, чаще бесповторным способом. Отобрав таким образом серии, исследователь проводит внутри их сплошное наблюдение. 4. Типический отбор. Общий недостаток первых трех приемов выборочного обследования текста состоит в том, что они не учитывают смысловых и жанрово-стилистических своеобразий отдельных частей текста, выступающего в роли генеральной совокупности. Эти различия оказывают заметное воздействие на статистику знаков — в первую очередь слов, словоформ и словосочетаний.

//Все созданные человеком тексты построены по единым правилам. Какой бы язык ни использовался, кто бы ни писал - внутренняя структура текста останется неизменной. Она описывается законами **Зипфа (G.K. Zipf).**//

//Первый закон Зипфа "**ранг - частота**".// Выбирается любое слово и подсчитывается, сколько раз оно встречается в тексте. Эта величина называется частота вхождения слова. Измеряется частота каждого слова текста. Некоторые слова будут иметь одинаковую частоту, то есть входить в текст равное количество раз. Сгруппируем их, взяв только одно значение из каждой группы. Расположим частоты по мере их убывания и пронумеруем. Порядковый номер частоты называется ранг частоты. Так, наиболее часто встречающиеся слова будут иметь ранг 1, следующие за ними -- 2 и т.д. Вероятность встретить слово путем случайного выбора, будет равна отношению частоты вхождения этого слова к общему числу слов в тексте.

//Вероятность = Частота вхождения слова / Число слов.//

Зипф обнаружил интересную закономерность. Оказывается, если умножить вероятность обнаружения слова в тексте на ранг частоты, то получившаяся величина (С) приблизительно постоянна!

//С = (Частота вхождения слова х Ранг частоты) / Число слов.//

//Второй закон Зипфа "**количество - частота**".// Рассматривая первый закон, факта, что разные слова входят в текст с одинаковой частотой не рассматривался. Зипф установил, что частота и количество слов, входящих в текст с этой частотой, тоже связаны между собой.

Если построить график, отложив по одной оси (оси Х) частоту вхождения слова, а по другой (оси Y) -- количество слов в данной частоте, то получившаяся кривая будет сохранять свои параметры для всех без исключения созданных человеком текстов! Как и в предыдущем случае, это утверждение верно в пределах одного языка. Однако и межъязыковые различия невелики. На каком бы языке текст ни был написан, форма кривой Зипфа останется неизменной. Могут немного отличаться лишь коэффициенты, отвечающие за наклон кривой (в логарифмическом масштабе, за исключением нескольких начальных точек, график - прямая линия).

Что дают законы Зипфа? Как с их помощью извлечь слова, отражающие смысл текста? Если воспользоваться первым законом Зипфа и построить график зависимости ранга от частоты, то исследования показывают, что наиболее значимые слова лежат в средней части диаграммы. Слова, которые попадаются слишком часто, в основном оказываются предлогами, местоимениями, в английском - артиклями и т.п. Редко встречающиеся слова тоже, в большинстве случаев, не имеют решающего смыслового значения.

Далее следует список некоторых программ, осуществляющих статистический ананлиз текста:

TextSTAT WORDSTAT

Источники: Аверьянов Л.Я. "Контент-анализ", file://localhost/H:/статьи/ссылки/Библиотека%20РГИУ%20___%20Контент-анализ%20___.mht// //Законы Зипфа http://www.itstan.ru/poiskovye-sistemy/zakony-zipfa.html// //Пиотровский Р.Г. "Математическая лингвистика".// //Дополнительно - ссылка на скачивание http://www.twirpx.com/file/41901/ (необходима регистрация)//

Ю.В. Рогушина. Использование критериев оценки удобочитаемости текста для поиска информации, соответствующей реальным потребностям пользователя @http://dspace.nbuv.gov.ua/dspace/bitstream/handle/123456789/302/%D0%A0%D0%BE%D0%B3%D1%83%D1%88%D0%B8%D0%BD%D0%B0_1.pdf?sequence=1

Проверка удобочитаемости документа в Word @http://office.microsoft.com/ru-ru/word-help/HP010148506.aspx

Online анализ и статистика текста @http://www.gsgen.ru/index.php?id=4

Сервисы анализа статистики текста: считаем предложения, слова, знаки: @http://refcontent.ru/servisy-analiza-statistiki-teksta-schitaem-predlozheniya-slova-znaki/

= = = =