Извлечение+знаний+из+текстов

Основную часть знаний аналитики получают в результате сравнения, анализа и синтеза информации из разрозненных фактов, размещенных в текстах. При работе с большими потоками документов процесс автоматического структурирования текстовой информации заменяет экспертный процесс выделения фактографической информации и объектов, выполняемый вручную. В статье рассматриваются примеры использования новых технологий извлечения знаний из текстов на русском языке, ориентированных на работу с большими хранилищами данных.

До 85% новых знаний аналитики получают, изучая тексты и в ближайшем будущем наиболее востребованными будут системы с максимально автоматизированными ETL-процессами (extract, transfer, load -- сбор, выделение, преобразование, загрузка) структурирования контента. Другой важной чертой современных технологий является наличие функции оперативного анализа информации, полученной по запросу для выбора дальнейшего направления исследования документов (автопилотирование направления исследования), выполняемой с помощью методов интеллектуального анализа текста.

К наиболее актуальным средствам интеллектуального анализа текстов относятся технологии выделения фактографической информации об объектах с учетом анафорических ссылок (ссылочные местоимения на объект, поименованный в тексте ранее) на них [2]; нечеткий поиск; тематическое и тональное (точность и полнота) рубрицирование; кластерный анализ хранилищ и подборок документов; выделение ключевых тем; построение аннотаций; построение многомерных частотных распределений документов и их исследование с помощью OLAP технологии; использование методов интеллектуального анализа текста для определения направления исследования больших подборок документов и извлечения новых знаний.

В современных системах используется двухфазная технология аналитической обработки. В первой фазе (ETL) производится автоматизированный анализ отдельных документов, структуризация их контента и формирование хранилищ исходной и аналитической информации. Во второй фазе (OLAP, Text Mining и Data Mining) – извлечение в оперативном режиме знаний из хранилища или из полученной по запросу подборки документов.

В области обработки текстовой информации успешно работает ряд систем, отвечающих современным требованиям как по архитектуре, так и по функциональным возможностям. На наш взгляд, к интересным изделиям относятся: инструменты компании ClearForest, Convera RetrievalWare, Hummingbird KM, IBM Text Miner, инструменты компании IQMen, Inxight Smart Discovery Extraction Server, Ontos Miner, Oracle Text, ODB-Text, TextAnalyst, инструменты компании Smartware, XANALYS Link Explorer, «Аналитический курьер», инструменты компании Гарант-Парк-Интернет, «Медиалогия», «Система управления досье X-Files», и целый ряд других. Каждый из представленных изделий имеет свои преимущества в определенных технологиях. Авторы анализируют состояние технологий на примерах систем «Аналитический курьер» и «Система управления досье X-Files».

Первичная аналитическая обработка в фазе ETL требует существенных ресурсов. Наш опыт эксплуатации систем с объемом фондов от 5 до 10 млн. единиц хранения показывает, что если объем входных документов и время построения индекса принять за 1, тогда каждый из следующих видов обработки требует дополнительной памяти на диске (dV) и времени (dT). При выполнении индексирования dV =0,3-2, T =1; построение семантические сети dV=0,2-0,4, dT =2-3; построение рубрик -- dV = 0,001, dT =0,1; создание аннотации и ключевых тем -- dV = 0,1, dT =1-2; терминологические вектора документов -- dV =0,1, dT = 0,02; хранилище аналитических данных -- dV =0,3, dT =0,5; база данных фактографической информации, объединенной в досье -- dV = 0,3, dT =3. Видно, что объем вторичных данных может быть в 3-4 раза больше объема документов, а время, необходимое на извлечение новых знаний, больше времени индексирования в 7-9 раз.

В ходе аналитической обработки происходит выделение текста фактографической информации об объекте, причем с учетом всех ссылок. Для этого сначала выделяются все предложения с упоминаниями об объекте (создается дайджест), в которых могут встречаться названия объекта («Иванов»), ссылки на него (анафория: «он», «который», …), а также обобщающие определения (кореференты: «воин», «семьянин», …). Нахождение и разрешение кореферентов и анафор дает увеличение объема дайджеста на 15-30%, а, значит, и объема фактографической информации. Для решения этих задач в программе «Аналитический курьер» за счет функции разрешения анафорических ссылок достигнуто приращение объема выделяемой фактографической информации (на 10-20%), повышение качества определения тональности публикаций -- на 30% (качество рубрицирования может быть оценено, например, как произведение точности и полноты рубрицирования), при увеличении времени обработки потока -- на 50%.

В начале исследования аналитики в первую очередь стремятся к полноте запроса, а не к его точности, поэтому объем релевантной подборки документов составляет сотни или тысячи единиц. Дальнейшее исследование проблемы производится уже после получения подборки документов с помощью кластерных, семантических карт или других методов. Такая технология работы аналитика сегодня типична как для работы в Сети, так и при работе со специализированными системами. Русский язык плохо поддаётся описанию формализмами различных уровней: морфологией, синтаксисом, семантикой. Например, для идентификации морфологических признаков лексемы на русском языке необходимо для снятия омонимии выполнить также предсинтаксический анализ предложения, и т.д. В любом случае реализации этих формализмов используют нечеткую модель анализа текста.

К наиболее актуальным направлениям извлечения знаний из текста на сегодня относятся: Аналитическая обработка фактов. Ведение досье. Извлечение и структурирование фактографической информации. Поиск информации по запросам на естественном языке с использованием тезаурусов. Направления поиска информации, объектов в хранилище документов, в подборке документов. Аннотирование документов, построение дайджестов по объектам. Проведение тематического анализа документов (кластеризация и рубрицирование). Построение и динамический анализ семантической структуры текстов. Выделение ключевых тем и информационных объектов. Определение общей и объектной тональности сообщений. Исследование частотных характеристик текстов. Поиск

Исторически, первой и присутствующей во всех системах является векторная модель поиска, изобретённая Джерардом Сэлтоном в 1960-х [6]. Большинство машин работают по принципу наличия в релевантном документе всех терминов запроса, учёта их встречаемости в документах и их средней языковой частотности. Эта модель используется при обработке запросов на естественном языке, особенно на поисковых страницах сайтов, она же применяется для поиска похожих документов.

Продолжает активно использоваться булева модель поиска, которая позволяет вводить в запрос логические операторы, контекстные ограничения на расстояние между словами, строить разветвлённые мощные запросы, использовать стоп-словарь и лексические шаблоны аналогично регулярным выражениям в скриптовых языках. Профессиональные системы, дополнительно к перечисленным базовым моделям, предоставляют поиск с использованием нечёткой булевой модели поиска, позволяющей поисковой машине доставлять документы, которые она считает релевантными, даже если некоторые «слабые» элементы запроса в них не встречаются.

Для семантического поиска широко используются тезаурусы, за счёт которых, например при поиске документов по автотранспортным происшествиям, запрос: «ДТП» имеет фактор расширения 1:150, т.е. из одной лексемы системой фактически генерируется 150 лексем для сервера поиска (см. рисунок 1, правый фрейм). Активное использование тезаурусов русского языка сдерживается отсутствием актуальных словарей синонимов.

Многие специалисты скептически относятся к идее осмысленного диалога аналитика и системы на формальном языке, поэтому имеет смысл максимально подстраивать язык запросов к мышлению и лексике аналитика. Проблемы, в том виде, в котором с ними сталкивается сотрудник, зачастую трудно сразу сформулировать с помощью поисковых запросов. Возможность исполнять запросы на естественном языке с последующим использованием технологии навигации в полученной подборке документов может дать новые результаты, поскольку исследование направляется полученной информацией, а не только знаниями эксперта. Направления поиска

В одном из интервью, Гари Флэйк, руководитель исследовательских лабораторий Yahoo!, сказал: «Если бы WEB-поиск был совершенен, он бы выдавал ответ на каждый запрос, и это происходило бы так, будто на вопрос отвечает умнейший человек в мире, у которого есть под рукой вся справочная информация, и все это выполняется меньше, чем за мгновение». Пока же современные системы предоставляют визуальный интерфейс для анализа «препарированной» ими подборки документов, предоставляя аналитику выбор направления для дальнейшего анализа несколькими способами.

На Рис. 1 (левый фрейм) представлен пример карты ключевых тем полученной подборки сообщений, темы которой наилучшим образом будут уточнять запрос, перемещая нужные темы в поле контекстного поиска.

Рис. 1 Пример расширения запроса с использованием современного тезауруса в системе "Аналитический курьер"

Альтернативным способом поиска является поиск объектов и их взаимосвязей, выделенных автоматически из текста документов в фазе ETL процесса. Этот способ позволяет исследовать связи объектов из документов без указания контекстного критерия на фильтрацию документов. Например, можно произвести поиск взаимосвязей объекта «Чейни» с другими объектами по карте, представленной на Рис. 2.

Рис. 2 Пример сети взаимосвязей объектов

Её можно использовать для навигации к нужным объектам, для получения и анализа документов о связях этих объектов. Дальнейшее развитие методов анализа связей объектов связано с решением задач типизации связей между объектами. В свою очередь, их решение ограничено качеством синтаксических анализаторов русского языка и тезаурусов.

Очень полезен также метод навигации в подборке документов с использованием OLAP технологии. Система «на лету» строит многомерное представление полученной подборки документов с измерениями из полей карточки: рубрики, авторы, дата публикации, источники и др. Аналитик может погружаться в элементы разных измерений (например, в регионы федерального округа), просматривать документы в ячейках с нужными значениями частот и др. Дополнительно могут использоваться общие методы анализа и прогноза данных. На Рис. 3 показана схема получения списка публикаций из ячейки двумерного распределения публикаций по регионам и подрубрикам рубрики «Политика». Этот метод используется при анализе динамики публикаций и факторов, ее определяющих.

Рис. 3 Пример двумерного частотного распределения публикаций о политических проблемах в разрезе регионов. Автоматическое аннотирование

Открытые источники информации делают доступными огромное количество публикаций и тем самым ставят проблему эффективной работы с большими объёмами документов. Предоставление сжатого смысла первоисточников в виде аннотаций в несколько раз повышает скорость анализа документов. Опыт авторов показывает, что аннотации – статичный результат, он используется при анализе «бумажных» документов. При анализе коллекций электронных документов более наглядное и структурированное представление содержания одного или коллекции электронных документов дает интерактивная семантическая карта взаимосвязей тем документов. Современные системы аналитической обработки текстовой информации обладают средствами автоматического составления аннотаций, при этом существует два подхода к этой задаче [4].

В первом подходе программа-аннотатор извлекает из первоисточника небольшое количество фрагментов, в которых наиболее полно представлено содержание документа. Это могут быть: предложения, содержащие термы запроса; фрагменты предложений с окружением термов несколькими словами и др. В более развитых системах выделяются предложения, прямо содержащие ключевые темы документа (но не кореферентные ссылки на них). При втором подходе, аннотация представляет собой синтезированный документ в виде краткого содержания. Аннотация, сформированная в соответствии с первым подходом, качественно уступает получаемой при синтезе. Для повышения качества аннотирования необходимо решить проблему обработки кореферентных ссылок в русском языке. Еще одной проблемой, возникающей при синтезе аннотаций, является отсутствие средств семантического анализа и синтеза текста на русском языке, поэтому сервисы аннотирования ориентированы либо на узкую предметную область, либо требуют участия человека.

Большинство программ-аннотаторов построены по принципу выделения фрагментов текста. Например, исследовательская система eXtragon [1] ориентирована на аннотирование Web-документов. Для каждого предложения документа вычисляется вес на основе информации о ключевых словах, значимых словосочетаниях, их месте в тексте и присутствии в запросе, после чего предложения ранжируются, и из нескольких фраз с максимальным весом составляется реферат. В системе «Аналитический курьер» аннотация документа автоматически формируется из его фрагментов, а ее объём зависит от главных тем документа и настроек. В аннотацию по объектам или проблемам могут включаться анафорические предложения документа. Кроме этого, имеется компонент создания общей аннотации на основе взаимосвязей тем в семантической сети этой подборки документов. Тематическое рубрицирование и определение тональности

Технология автоматического рубрицирования используется при наличии сложившейся иерархии понятий в прикладной области. Технология основана на использовании метода распознавания образов применительно к текстам. Направления развития модели тематического рубрицирования связаны как с методами классификации, так и с методами выделения характерной лексики в корпусе обучающих рубрикатор документов для ее последующей классификации. Например, в системах «Аналитический курьер» и компоненте рубрицирования компании «Гарант-Парк-Интернет» каждый рубрикатор представлен в виде вероятностной нейросети. Эксперт предварительно создает типичные для рубрики коллекции документов, затем рубрикатор «обучается» на этих примерах и ставится на поток документов. Для русского языка, потенциальная точность рубрицирования зависит от многих факторов: комплексности проблем, представленных в тексте (информационные сообщения хорошо рубрицируются, поскольку они монотемны), от модели и максимальной размерности нейросети, репрезентативности лексики в тематике рубрики. В наибольшей степени она зависит от качества лингвистического анализа, используемого для выделения словаря рубрик, в том числе, от наличия средств разрешения анафории. Для текстов на русском языке качество рубрицирования (точность * полнота) может достигать 85%, что значительно уступает качеству рубрицирования, выполняемому экспертно.

Во многих системах под рубрицированием понимается фильтрация документов по заранее сохраненным критериям запросов, что дает еще более слабые результаты, поскольку не учитываются факторы значимости одной и той же лексики для различных рубрик.

Другая задача классификации текста – рубрицирование тональности публикаций. Система должна определять эмоциональную окраску сообщений, как общую, так и по отношению к объектам документа. Нейросетевая модель, применяемая обычно при тематическом рубрицировании, здесь не работает. Каким бы хорошим словарём ни обладала система, главные проблемы классификации состоят в наличии инверсии смысла (тональности) и наличии анафорических ссылок на целевой объект, с которыми связана тональная лексика (например, во фразе «неэффективно борется с уличной преступностью» присутствует кратная инверсия тональности «борется с» но «неэффективно»). Специальный семантический анализ должен выделять те семантические роли слов, которые имеют отношение к эмоциональной окраске нужного объекта. Полнота определения тональности определяется качеством идентификации объектов в предложении. Правильное разрешение кореферентных ссылок на объект анализа повышает количество выделяемых упоминаний объекта и фактов, а, значит, полноту анализа, на 30-80% в зависимости от содержимого фактов. На рынке сегодня почти нет систем, выполняющие функцию тонального рубрицирования. Динамический анализ тематической структуры публикаций

В отличие от авторубрицирования, выполняемого в фоновом режиме, анализ тематической структуры полученной подборки документов набор тем производится оперативно. Этот метод (кластерный анализ) используется при анализе новых проблем или событий, в которых тематическая структура динамична и еще неустойчива. При большом числе публикаций по проблеме важно выделить основные, репрезентативные группы тем -- кластеры. Например, в новостном потоке «Яндекс.Новости» сообщения автоматически группируются в кластеры, соответствующие событиям [3]. Нужно помнить о том, что в обработке страниц поисковыми сайтами участвует малая часть всего текста сообщения, что приводит к существенному шуму в аналитической обработке. Однако, в отличие от новостных сайтов, цель которых -- краткое изложение новостей дня, в информационно-аналитических системах пользователю необходимо разобраться в архиве, собираемом зачастую в течение нескольких лет.

Например, в программе «Аналитический курьер» при объединении документов в кластер учитывается общность лексики и значений полей карточки. Кластеры могут пересекаться, что указывает на взаимосвязь их тем. В системе реализованы четыре модели кластерного анализа. Можно погружаться в список документов любого кластера и отдельные документы. Семантические карты подборки документов

Структура кластеров разделяет подборку документов на статистические смысловые группы, однако зачастую аналитику нужен более тонкий инструмент для обнаружения редких, но важных связей между темами подборки. В этом случае объектом анализа является семантическая карта взаимосвязей тем документов, а не сами документы. Карта представляет собой ориентированный граф размеры узлов и толщина линий связи на котором соответствуют относительному весу тем и связей в подборке. Связи могут быть либо типизированными (определен семантический тип связи), либо логическими (установлен факт их наличия). Направление стрелки связи показывает причинно-следственную связь между темами – на более частную тему указывает стрелка. Толщина стрелки между темами отражает ее важность. В вершинах и связях находятся гиперссылки, ведущие к связанному набору документов. Выбрав узел на карте аналитик погружается в темы, непосредственно связанные с темой узла, как бы увеличивая масштаб карты и центрируя карту на теме. При этом состав тем карты изменится, появятся темы, наиболее тесно связанные с выбранной. Этот метод анализа часто используется также для совместного анализа нескольких карт, поиска похожих ситуаций или семантических шаблонов в различных картах, и другие задачи. На Рис. 4 представлен пример семантической карты.

Рис. 4 Пример семантической карты верхнего уровня Извлечение и структурирование фактографической информации

Для выделения объектов и их свойств (адреса, поездки, встречи, бизнес и т.п.) используются компоненты управления фактографической информацией и ведения досье [2]. Например, в терминах системы «X-Files» (см.«Открытые системы, №5-6, 2005г.), факт об объекте является структурированным представлением фрагментов текста документа в виде значения факта: его сути, сопровождаемого временем, местом совершения факта, его участниками. Факты выделяются из предложений, содержащих упоминания объектов или ссылки на них. Технология выделения фактов основана на использовании специальных семантико-лингвистических методов, которые дают возможность получить точность и полноту фактов, сравнимую с экспертными.

Зачастую факты содержат информацию о взаимосвязях объектов. Связи классифицируются как: Прямые - имеется факт о связи двух объектов; Нечеткие - нет фактов: по общему месту и времени - у пары различных фактов различных объектов; косвенные (транзитивные) - через общий третий объект-связь у пары фактов различных объектов. Рефлективные - между парой атрибутов досье, связанных семантически. Если в одном из них появляется факт с определенным объектом-связью, то в симметричном атрибуте для объекта-связи также появляется этот факт. Например, атрибут «продажа акций» имеет симметричный атрибут «покупка акций». Симметричные атрибуты «срабатывают» по прямым связям. Свойство симметричности задаётся при создании атрибутов независимо от того, в какие досье они входят. При включении атрибута в другое досье свойство симметричности сохраняется.

Системы аналитической разведки имеют сервисы аналитической обработки фактов и включают: автоматическое выявление прямых и косвенных (т.е. через третье лицо) связей объекта; автоматическое выявление связей объектов по месту и времени (когда события произошли с разными объектами в одном месте или в близкое время); типизация связей, представленных различной лексикой; формирование групп объектов, связанных между собой общностью фактов (например, место, время, содержание факта); построение карты связей объектов для различных типов связей, визуализация и фильтрация связей; поиск оптимальных (обычно, кратчайших) связей между заданными объектами; построение многомерных частотных распределений фактов.

В настоящее время системы извлечения фактов являются наиболее эффективным инструментом выделения нужной для принятия решений информации, заменяя ее поиск Data Mining

Широкое применение методов искусственного интеллекта к полученной информации дает возможность системе порождать гипотезы -- предложения по дальнейшему исследованию. Типичная технология анализа взаимосвязей проблем содержит следующие фазы: получение подборки документов по запросу ® получение ее семантической карты ® просмотр документов о связи выделенной пары тем ® кластерный анализ этих документов ® анализ документов нужных кластеров ® резюме о структуре связи тем. Типичная технология анализа динамики развития проблемы в регионе (стране) включает следующие фазы: получение подборки документов по запросу ® получение двумерного частотного распределения рубрик–проблем по регионам страны ® выделение значимой проблемы в исследуемом регионе ® получение частотного распределения рубрики–проблемы в регионе по времени ® анализ документов в пиковые периоды времени ® кластерный анализ этих документов ® предложения по нормализации проблемы. Например, многие люди ежедневно ездят на работу по Москве, но эти факты еще не свидетельствуют о наличии связи между ними, однако, если два дипломата работали в одно время в небольшой стране, то с большой вероятностью следует, что они могли быть знакомы. Система должна уметь предлагать аналитику такого типа гипотезы.