автоматизация+анализа+и+синтеза+письменных+текстов

Анализ (греч. «analysis» – разложение) – метод научного исследования (познания) явлений и процессов, в основе которого лежит изучение составных частей, элементов изучаемой системы.

Аналитические методы широко распространены в социуме, поэтому термин «Анализ» часто воспринимается как синоним исследования вообще и особенно при решении познавательных задач. Анализа является составной частью любого научного исследования, образуя, как правило, его первую стадию, когда исследователь выявляет в описании изучаемого объекта его строение, состав, свойства, признаки и т.п. Он используется как метод получения новых результатов в процессе мыслительной деятельности человека.

Мыслительный анализ совершается с помощью понятий и суждений, выражаемых в естественных или искусственных языках. Такой анализ ориентирован на выявление структуры целого, предполагая фиксацию его частей и установление отношений между ними.

В современном обществе важным средством оформления, фиксации, сохранения, передачи информации и обмена ею являются документы. В данном пособии рассматриваются вопросы, связанные с анализом информации (текстов документов, представляющих, как правило, результат осмысления и определённого оформления знаний в какой-либо предметной области, их отношения к другим структурам, сферам и т.д.).

Более 33% отечественных топ-менеджеров к перспективным информационным технологиям, предназначенным для решения инновационных задач, относят сбор и анализ информации. Предполагая с их помощью «ускорить решение таких задач, как прогнозирование тенденций и выявление изменений в поведении и в требованиях клиентов».

Анализ документов – это метод сбора первичных данных, при котором документы используются в качестве главного источника информации; это также совокупность методических приёмов и процедур, применяемых для извлечения информации из документальных источников при изучении процессов и явлений в целях решения определённых задач.

Анализ текста – это процесс получения на естественном языке высококачественной информации из этого текста.

Такой анализ осуществляет практически каждый человек не задумываясь, что он делает именно это. Например, любой читатель книги анализирует содержание, читая её по частям. Одной из наиболее популярных форм анализа текстов является подготовка аналитических справок.

Аналитические справки обычно делятся на два вида. Первые представляют справки с выводами (например, какого-нибудь контрольного органа или эксперта); вторые – с вариантами решений (действий) в предполагаемой ситуации и оценкой последствий каждого варианта. С помощью таких аналитических справок лицо, принимающее решение (ЛПР) видит сущность проблемы и получает информацию, необходимую для принятия решения. Такая справка, кроме текстового описательного материала, может содержать в себе таблицы, диаграммы и графики.

В общем случае всем, особенно трудоспособному населению, постоянно приходится работать с текстовыми и иными видами документов, явно или неявно анализируя их содержание и другие компоненты, например, качество изготовление, форму, размер и т.д. Таким образом, важной задачей практически любых индивидов является нахождение (получение) нужных им документов, а также анализ их содержания на предмет подготовки различных документов (рефератов, аннотаций, справок, отчётов, учебных работ, производственных заданий и др.). При этом нередко возникают ситуации, когда в течение незначительного периода времени необходимо подготовить некоторый (как правило, аналитический) материал.

Анализ текстов на естественном языке (ЕЯ) был актуальным практически с момента их появления. При таком анализе необходимо определить правила, с помощью которых, по мнению специалистов, «формальная система (набор структурных элементов текста) преобразуется в систему содержательную (осмысленное сообщение».

Анализ текста использовался и продолжает использоваться для классификации текстов, содержащихся в них слов и словосочетаний (например, для определения частоты встречаемости тех или иных терминов в определённых текстах), аннотирования и реферирования текстов, проведения семантически ориентированного поиска текстов по заданным концептам, определения авторского права претендента на соответствующий текст и др.

Считается, что в реальной жизни правила чтения текстов не формализуются. Человек постигает их годами, активно работая в определённой сфере деятельности и предметной области. Специалисты отмечают, что разные контексты порождают различные правила их прочтения, которые со временем меняются, поэтому трудно научить таким правилам компьютер, а значит автоматически учитывать содержательные аспекты обрабатываемого текста. В результате для выполнения заданного набора операций производят сопряжение информационного и семантического пространств с пространством формальных правил чтения текстов. При этом информационное пространство порождается семантическим.

Методы анализа документов многообразны. Они постоянно совершенствуются. Так, методы анализа логической структуры текста позволяют при чтении черпать из текста документа больше, чем её содержится в самом документе, а при составлении на его основе сжатого текста – делать его логически стройным, легко понимаемым и убедительным.

Особенность анализа текстового материала заключается в потребности исследователя проникать в смысл рассматриваемого им произведения и в акцентировании подвижной структуры текста. Предлагается в процессе анализа теста, для получения семантического представления, рассматривать его как некоторую иерархическую структуру. Как правило, для этого применяется метод шаблонов: входной текст разделяется с помощью шаблонов, затем производится обработка полученных данных.

Таким образом, очевидно, что используются различные варианты анализа текстовых материалов документов, в которых выделяют два основных типа: 1. Традиционный, или классический. 2. Формализованный, или количественный (например, контент-анализ).

Различаясь между собой, они не исключают, а взаимно дополняют друг друга, позволяя компенсировать недостатки каждого.

Традиционный анализ представляет собой совокупность определённых логических построений, направленных на раскрытие основного содержания изучаемого материала и позволяет преобразовать первоначальную форму содержащейся в документе информации в форму, интересующую исследователя (аналитика).

Он включает многообразие умственных операций, направленных на интерпретацию сведений, содержащихся в документе, с определённой точки зрения принятой исследователем в каждом конкретном случае. Традиционный анализ является самостоятельным, творческим процессом, зависящим от: 1) содержания и направленности исследуемого документа; 2) условий, целей и задач проводимого исследования; 3) научной квалификации, богатства опыта и творческой интуиции исследователя (в этом случае он таит в себе возможность субъективной оценки и интерпретации изучаемого документа).

Проведение такого анализа заключается в преобразовании первоначальной формы исследуемой информации в необходимую с точки зрения исследователя. Фактически такой способ означает интерпретацию содержания документа, то есть его толкование исследователем при выполнении поставленной перед ним задачи.

Традиционный классический анализ позволяет охватывать скрытые части содержания документа, поскольку исследователь может, а порой и должен, проникать вглубь документа, исчерпывая его содержание.

Различают внешний и внутренний традиционный анализ.

Внешний анализ предназначен для установления вида документа, формы, времени и места его появления, автора, цели создания, надёжности и достоверности, его контекста. Фактически основные его компоненты входят в состав библиографического описания документа. Пренебрежение таким анализом может привести к неверному толкованию содержания документа.

Внутренний анализ ориентирован на исследование содержания документа. Отмечается, что анализ документа в рамках этого метода представляет самостоятельный творческий процесс, зависящий от формы и содержания исследуемого документа, целей и условий проведения исследования, опыта и творческой интуиции исследователя. Примером такого анализа является аннотирование документов.

Основная слабость данного метода – субъективность, ибо любая интерпретация документа исследователем в большей или меньшей степени субъективна. Попытки избавиться от субъективности традиционного анализа привели к появлению формализованных, количественных методов анализа документов – к контент-анализу.

Контент-анализ

Контент-анализ (англ. «content-analysis») – анализ содержания.

Он является частным случаем анализа документов. Суть данного метода заключается в том, чтобы найти легко подсчитываемые признаки и свойства (например, частота использования определённых терминов), отражающие существенные стороны содержания документа. При этом содержание документа становится измеримым. Одним из вариантов статистического анализа текстов, позволяющим вычислить сколько раз то или иное слово встречается в выбранном тексте (обычно с расширением .txt, .htm или .html), является программа Wordstat. В ней можно получить общую статистику по нескольким обрабатываемым файлам. Результаты подсчёта сохраняются в отдельном файле.

Контент-анализ является, прежде всего, количественным методом, предполагающим числовую оценку компонентов текста, дополняемую различными качественными классификациями и выявлением тех или иных структурных закономерностей.

Исторически этот метод явился наиболее ранним систематическим подходом к изучению текста. Самый первый упоминаемый в литературе контент-аналитический опыт был проведён в XVIII веке в Швеции при анализе сборника, содержащего 90 церковных гимнов, прошедших государственную цензуру и приобретших большую популярность, но обвиненных в несоответствии религиозным догматам. Анализ проводился путём подсчёта в текстах этих гимнов религиозных символов и сравнения их с другими религиозными текстами. В конце XIX – начале XX веков в США появились первые контент-аналитические исследования текстов массовой информации.

В 1930-1940-е годы выполняются исследования, признанные затем классикой контент-анализа. В 1930-е годы применять контент-анализ в сфере политики и пропаганды начал известный социолог Г. Лассуэл. Широкое распространение метод получил начиная с 1950-х годов, когда в США вышел фундаментальный труд Б. Берельсона «Контент-анализ в коммуникационных исследованиях». С этого же времени контент-анализ, как исследовательский метод, активно используется практически во всех науках, применяющих анализ текстовых источников.

Контент-анализ основан на стандартизации процедур поиска, определении в содержании изучаемого документа единиц счёта, в качестве которых выступают отдельные слова (термины, имена людей, географические названия и т.п.), суждения, выраженные в форме предложений, абзацев, фрагментов текстов, оценки, точки зрения, аргументы, а также различные виды публикаций (по тематике, жанру, типам авторов и др.). Определение единиц счёта зависит от целей исследования.

Таким образом, основой контент-анализа является подсчёт встречаемости некоторых компонентов в анализируемом информационном массиве, дополняемый выявлением статистических взаимосвязей и анализом структурных связей между ними, а также снабжением их теми или иными количественными или качественными характеристиками. Отсюда понятно, что главная предпосылка контент-анализа – это выяснение того, что считать – иными словами, определение единиц анализа.

От единиц контент-анализа обычно требуется некоторая субъективная, зависящая от контекста значимость, то есть единицы анализа должны быть интересными для последующей интерпретации. При этом такие единицы (например, темы) носят содержательный характер. Их идентификация в общем случае предполагает семантический анализ текста, проблема автоматизации которого, несмотря на многолетние усилия лингвистов и программистов, далека от решения.

Конкретное разнообразие единиц контент-анализа практически безгранично, однако среди них можно выделить несколько основных типов. Самый простой вариант контент-анализа предполагает количественный подсчёт встречаемости слов в тексте. К числу наиболее часто употребляемых единиц контент-анализа относят: 1) Понятие, выраженное отдельным словом, термином или сочетанием слов. 2) Тема, отражающая единичные суждения, смысловые абзацы или целостные тексты. Выбор темы в качестве единицы контент-анализа подразумевает внутреннее разделение изучаемого текста на определённые части, являющиеся органическими единицами контекста, внутри которых тема может быть более или менее честно определена. Темой контент-анализа изучаемого текста может быть как общая тема, так и определённая её часть. 3) Персонаж («герой») некоего действия или отношений, отраженных в изучаемом тексте. 4) Ситуация, например сложившаяся где-то экстремальная ситуация и др. 5) Действие, осуществляемое отдельными индивидами или их группами, в пределах избранной для контент-анализа темы, например, действия читателей, библиотечных работников и др.

В большинстве случаев контент-аналитик интересуется не словами как таковыми и не грамматическими категориями, а стоящими за словами значимыми для него понятиями, темами, проблемами. Их называют понятийно-тематическими единицами.

Еще одним типом являются пропозициональные единицы и оценки. Они представляют собой высказывания, в основе которых лежат пропозиции – описания конкретных положений дел или ситуаций безотносительно к их модальности (требования, констатации и др.), например, «Карфаген должен быть разрушен» или «Ни шагу назад».

Большой интерес для контент-анализа представляют оценки, например, «Это неверное решение». С логической точки зрения они обладают важными отличиями от пропозиций. При этом для контент-анализа пропозицию и оценку можно рассматривать как результат связывания некоторого объекта с некоторым атрибутом.

Выделяют также и макроструктурные единицы – сложные понятийные конструкции, образующие «верхние этажи» человеческих представлений о мире.

В ряде случаев (например, в социологии) используют два вида контент-анализа, отличающиеся характером представления содержания текста: качественный и количественный.

Качественный контент-анализ основан на использовании нечастотной модели содержания текста и позволяет выявить типы качественных характеристик содержания текста вне зависимости от частоты (т.е. количества) встречаемости каждого из этих типов.

Количественный контент-анализ основан на использовании количественных мер, его задача – получить количественную характеристику содержания изучаемого текста.

Чаще всего единицы контент-анализа являются содержательными и их выделение основывается на семантических (смысловых) критериях.

Содержательная интерпретация результатов зависит от целей анализа. Она является, прежде всего, творческим актом, результаты которого во многом предопределены квалификацией и интуицией аналитиков.

Метод контент-анализа характеризуется высокой степенью формализованности и возможностью массового охвата исследуемых объектов, поэтому он часто применяется при анализе материалов СМИ. При этом не исключена возможность проведения контент-анализа единичных документов, например, при изучении поступающих в различные организации и органы управления писем, в политологии, библиотечном деле, педагогике и т.д. Следует отметить наличие методологических проблем, возникающих в процессе практической реализации этого метода.

Аналитиков обычно интересуют не одномоментные срезы, а различные макроединицы (темы и/или проблемы, образы и т.д.). Их в отдельно взятых текстах обычно бывает немного. Метод контент-анализа применяется как к отдельно взятому тексту, так и к информационному массиву или информационному потоку, состоящему из большого количества текстов. При этом статистические закономерности в выборке более проявляются в большом её объеме, поскольку оценить их динамику можно на большом временном промежутке или при сопоставлении большого количества документов.

Специалисты отмечают, что контент-анализ занимает особое место среди аналитических методов, поскольку является самым технологичным из них и в силу этого в наибольшей степени подходящим для систематического мониторинга больших информационных потоков. В истории контент-анализа отмечается проект, связанный с анализом 427 школьных учебников и др. Таким образом, идея контент-анализа предполагает анализ больших информационных массивов.

С точки зрения лингвистов и специалистов по информатике, контент-анализ являет собой типичный пример прикладного информационного анализа текста, сводящегося к извлечению из всего разнообразия имеющейся в нём информации специально интересующих исследователя компонентов и представлению их в удобной для восприятия и последующего анализа форме.

Будучи в основе своей количественным методом, контент-анализ в определённой степени поддаётся формализации, а значит и компьютеризации.

Очевидно, что наибольший эффект от использования данного метода можно получить, применяя соответствующие технические (компьютерные) средства. Подобные методы применяются с 1950-х годов. Для осуществления компьютерного контент-анализа необходимо наличие электронных или оцифрованных и распознанных текстовых материалов.

А. Н. Петров выделяет два метода контент-анализа: «метод для автоматической классификации документов по содержанию и метод для раскрытия значения слов и идей».

Кодирование данных при контент-анализе обычно осуществляется с помощью достаточно простых компьютерных программ, в которых фиксируется каждое появление в анализируемом тексте искомой единицы. Это могут быть, например, результаты подсчёта частоты упоминания одних и тех же тем для различных выпусков одного и того же печатного издания. Перевод данных в числовую форму, их математическая и, в частности, статистическая обработка может осуществляться многими разными программными средствами, в том числе стандартными статистическими пакетами типа SPSS.

Помимо анализа частотного распределения, можно осуществлять анализ корреляций между переменными, ассоциаций, сопряженности и др. Единицы контент-анализа могут объединяться в различные более широкие категории. В сочетании с результатами контент-анализа оценка использованных единиц анализа (тематических) по указанным шкалам даёт трёхмерную схему.

Возвращаясь к рассмотрению проблем, непосредственно связанных с анализом документов, следует заметить, что к различным видам отражения популярной, научной и других форм деятельности социума относят справки и отчёты, статьи и доклады, тезисы и записки, аннотации, рефераты и монографии, правила, законы и другие документы.

Выделим в них два основных вида: 1. Текстовые или смешанные документы (тексты с графиками, диаграммами, таблицами и т.п.), в которых анализируются только текстовые материалы с целью выявления значимой информации (например, цитат), а главным образом, для сжатия этих текстов на предмет получения таких типов документов, как: отчёты, справки, аннотации, рефераты, учебные и учебно-научные (курсовые, дипломные и иные подобные) работы. Последние аспекты рассматриваются в данной главе. 2. Смешанные документы или только табличные данные, необходимые для получения из них таких документов, как отчёты и справки. Главным образом эти документы включают табличные материалы (электронные таблицы, базы и банки данных), на основе которых формируются вторичные данные, входящие в состав различных отчётов, справок и т.п. аналитических материалов, используемых как для формирования некоторых статистических данных, так и для подготовки вариантов принятия решений. Этот вид данных может представлять собой только компьютерные табличные данные. Обычно такие данные сопровождаются текстовыми материалами. Аналитические компьютерные системы, нацеленные на работу с данным видом документов, рассматриваются в четвёртой главе настоящего пособия.

С этой целью используются разные системы, разновидности которых представлены ниже.

Системы подготовки текстовых документов включают: текстовые редакторы и текстовые процессоры (Microsoft Word); настольные издательские системы (PageMaker).

Системы математических расчётов, моделирования и анализа экспериментальных данных, включают также редакторы математических формул, программы статистического анализа данных и др.

Системы обработки финансово-экономической информации предназначены для обработки числовых данных, характеризующих различные производственно-экономические и финансовые явления и объекты, и для составления соответствующих управленческих документов и информационно-аналитических материалов.

Системы управления базами данных служат для создания, хранения и манипулирования массивами данных большого объёма. Различаются способами организации хранения данных и обработки запросов на поиск информации, а также характером данных, хранящихся в базе. На их основе создаются базы и банки данных, информационно-поисковые системы.

Экспертные системы (ЭС) и системы поддержки принятия решений (СППР) используются для реализации технологий информационного обеспечения процессов принятия управленческих решений на основе применения экономико-математического моделирования и принципов искусственного интеллекта.

Личные информационные системы предназначены для информационного обслуживания рабочего места пользователя. Они направлены не только на сбор и поиск необходимых личности данных, но и на развитие таких личностных качеств, как компетентность, уверенность поведения, креативность и т. п.

Из сказанного очевидно, что не только целесообразно, но и, как никогда ранее, возможно и необходимо сохранять информацию в электронной форме, например, в электронных базах данных (БД). Очевидно, что любая подобная БД фактически может быть представлена и как личная (личностная) база сведений (ЛБС). В учебных заведениях она ориентирована, в первую очередь, на своевременное и успешное выполнение студентами учебных письменных заданий. Накопленные в ней сведения (данные, информация, знания и т.д.) в дальнейшем могут и должны использоваться в различных направлениях.

ЛБС – это не склад электронных материалов, которые порой не только не структурированы, но и не имеют никаких связей между собой. Известно, что любая БД хоть каким-либо образом структурирована. Однако к внутренней структуре отдельных материалов (в нашем случае учебных работ), входящих в состав таких БД каких-либо системных требований обычно не предъявляется. В лучшем случае внутренняя структура материалов в БД представляет традиционное содержание работ, подобных сочинениям или дипломам (введение, главы и параграфы, заключение и т.д.). Этот способ вполне приемлем, но его следует дополнить более мелкими элементами. Такая работа осуществляется путём глубокого анализа, на основе которого реализуется оптимальная структуризация подобных текстов.

Важным видом документов (формой их сжатия) являются аннотации и рефераты. Рассмотрим их подробнее.