Автоматическое+реферирование.

Существует много путей решения этой задачи, которые довольно четко подразделяются на два направления - //квазиреферирование// и краткое //изложение содержания первичных документов.//
 * Автоматическое реферирование (Automatic Text Summarization) ** - это составление коротких изложений материалов, аннотаций или дайджестов, т.е. извлечение наиболее важных сведений из одного или нескольких документов и генерация на их основе лаконичных отчетов.

В рамках квазиреферирования выделяют //три основных направления//, которые в современных системах применяются совместно:
 * Квазиреферирование ** основано на экстрагировании фрагментов документов - выделении наиболее информативных фраз и формировании из них квазирефератов.

- статистические методы,  основанные на оценке информативности разных элементов текста по частоте появления, которая служит основным критерием информативности слов, предложений или фраз;

- позиционные методы , которые опираются на предположение о том, что информативность элемента текста зависит от его позиции в документе;

- индикаторные методы , основанные на оценке элементов текста, исходя из наличия в них специальных слов и словосочетаний - маркеров важности, которые характеризуют их содержательную значимость.

Определение веса фрагментов (предложений или абзацев) исходного текста выполняется в соответствии с алгоритмами, которые стали уже традиционными. Общий вес текстового блока при этом определяется по формуле: <span style="font-family: Arial,sans-serif; font-size: 10pt;">Слагаемое <span style="color: green; font-family: Arial,sans-serif; font-size: 10pt;">Location <span style="font-family: Arial,sans-serif; font-size: 10pt;"> определяется расположением блока в тексте и зависит от того, где появляется данный фрагмент - в начале, в середине или в конце, а также используется ли он в наиболее важных с содержательной точки зрения разделах текста, например, в выводах. <span style="font-family: Arial,sans-serif; font-size: 10pt;">Ключевые фразы ( <span style="color: green; font-family: Arial,sans-serif; font-size: 10pt;">KeyPhrase) <span style="font-family: Arial,sans-serif; font-size: 10pt;"> представляют собой конструкции-маркеры, которые резюмируют содержание, типа "в заключение", "в данной статье", "в результате анализа" и т.п. Весовое значение слагаемого KeyPhrase может зависеть также от оценочного термина, например, "отличный". <span style="font-family: Arial,sans-serif; font-size: 10pt;">Статистический вес текстового блока <span style="color: green; font-family: Arial,sans-serif; font-size: 10pt;">(StatTerm) <span style="font-family: Arial,sans-serif; font-size: 10pt;"> вычисляется как нормированная по длине блока сумма весов входящих в него слов и словосочетаний. //<span style="font-family: Arial,sans-serif; font-size: 10pt;">После выявления определенного (задаваемого, как правило, коэффициентом необходимого сжатия) количества текстовых блоков с наивысшими весовыми коэффициентами, они объединяются для построения квазиреферата. //
 * <span style="color: green; font-family: Arial,sans-serif;">Weight = Location + KeyPhrase + StatTerm **

<span style="font-family: Arial,sans-serif; font-size: 10pt;">Преимущество методов квазиреферирования заключается в простоте их реализации. Однако выделение текстовых блоков, не учитывающее взаимоотношений между ними, часто приводит к формированию бессвязных рефератов. Некоторые предложения могут оказаться пропущены, либо в них могут встречаться слова или фразы, которые невозможно понять без предшествующего пропущенного текста. Попытки решить эту проблему, в основном сводятся к исключению таких предложений из рефератов. Реже делаются попытки разрешения ссылок с помощью методов лингвистического анализа.


 * <span style="font-family: Arial,sans-serif; font-size: 14pt;">Краткое изложение содержания первичных документов **<span style="font-family: Arial,sans-serif; font-size: 10pt;"> основывается на выделении из текстов наиболее важной информации и порождении новых текстов, содержательно обобщающие первичные документы. В отличие от частотно-лингвистических методов, обеспечивающих квазиреферирование, подход, основанный на базах знаний, опирается на автоматизированный //<span style="color: green; font-family: Arial,sans-serif; font-size: 10pt;">качественный контент-анализ //<span style="color: green; font-family: Arial,sans-serif; font-size: 10pt;">, <span style="font-family: Arial,sans-serif; font-size: 10pt;"> состоящий, как правило, из трех основных стадий:

//<span style="color: green; font-family: Arial,sans-serif; font-size: 10pt;">Первая //<span style="font-family: Arial,sans-serif; font-size: 10pt;">- сведение исходной текстовой информации к заданному числу фрагментов - единиц значения, которыми являются категории, последовательности и темы.

//<span style="color: green; font-family: Arial,sans-serif; font-size: 10pt;">На второй //<span style="font-family: Arial,sans-serif; font-size: 10pt;"> стадии производится поиск регулярных связей между единицами значения, после чего начинается //<span style="color: green; font-family: Arial,sans-serif; font-size: 10pt;">третья стадия //<span style="font-family: Arial,sans-serif; font-size: 10pt;"> - формирование выводов и обобщений. На этой стадии создается структурная аннотация, представляющая содержание текста в виде совокупности концептуально связанных смысловых единиц.

//<span style="font-family: Arial,sans-serif; font-size: 13pt;">Семантические методы формирования рефератов-изложений предполагают два основных подхода: //

<span style="font-family: Arial,sans-serif; font-size: 10pt;">- <span style="color: green; font-family: Arial,sans-serif; font-size: 10pt;">метод синтаксического разбора предложений и методы, опирающиеся на понимание естественного языка <span style="font-family: Arial,sans-serif; font-size: 10pt;">. В первом случае используются деревья разбора текста. Процедуры автоматического реферирования манипулируют непосредственно деревьями, выполняя перегруппировку и сокращение ветвей на основании соответствующих критериев. Такое упрощение обеспечивает построение реферата - структурную "выжимку" исходного текста.

<span style="font-family: Arial,sans-serif; font-size: 10pt;">- второй подход основывается на <span style="color: green; font-family: Arial,sans-serif; font-size: 10pt;">системах искусственного интеллекта, в которых также на этапе анализа выполняется синтаксический разбор текста, но синтаксические деревья не порождаются. <span style="font-family: Arial,sans-serif; font-size: 10pt;">В этом случае формируются семантические структуры, которые накапливаются в виде концептуальных подграфов в базе знаний. В частности, известны модели, позволяющие производить реферирование текстов на основе психологических ассоциаций сходства и контраста. В базах знаний избыточная и не имеющая прямого отношения к тексту информация устраняется путем отсечения некоторых подграфов. Затем информация подвергается агрегированию методом слияния оставшихся графов или их обобщения. Для выполнения этих преобразований выполняются манипуляции логическими предположениями, выделяются определяющие шаблоны в текстовой базе знаний. В результате преобразования формируется концептуальная структура текста - аннотация, т.е. концептуальные "выжимки" из текста.

<span style="font-family: Arial,sans-serif; font-size: 10pt;">Многоуровневое структурирование текста с использованием семантических методов позволяет подходить к решению задачи реферирования путем: <span style="font-family: Arial,sans-serif; font-size: 10pt;">- //удаления малозначащих смысловых единиц. Преимуществом метода является гарантированное сохранение значащей информации, недостатком - низкая степень сжатия, т.е. сокращения объема реферата по сравнению с первичными документами;//

//<span style="font-family: Arial,sans-serif; font-size: 10pt;">- сокращения смысловых единиц - замена их основной лексической единицей, выражающей основной смысл; //

//<span style="font-family: Arial,sans-serif; font-size: 10pt;">- гибридного способа, заключающегося в уточнении реферата с помощью статистических методов, с использованием семантических классов, особенностей контекста и синонимических связей. //

<span style="font-family: Arial,sans-serif; font-size: 10pt;">Существуют общедоступные программы квазиреферирования, например, в состав сервисных возможностей системы Microsoft Word входит режим «Автореферат». <span style="font-family: Arial,sans-serif; font-size: 10pt;">Статья на оф. сайте: http://office.microsoft.com/ru-ru/word-help/HP005189680.aspx

<span style="font-family: Arial,sans-serif; font-size: 10pt;">Источник: <span style="color: blue; font-family: Arial,sans-serif; font-size: 10pt;">[] <span style="font-family: Arial,sans-serif; font-size: 10pt;">Дополнительные ссылки: <span style="font-family: Arial,sans-serif; font-size: 10pt;">1. [] (сразу скачивается файл в формате .PDF <span style="font-family: Arial,sans-serif; font-size: 10pt;">2. Системы автоматического реферирования <span style="color: blue; font-family: Arial,sans-serif; font-size: 10pt;">[] <span style="font-family: Arial,sans-serif; font-size: 10pt;">3. " Алгоритм ранжирования связанных структур для задачи автоматического составления обзорных рефератов новостных сюжетов". С.Д.Тарасов <span style="color: blue; font-family: Arial,sans-serif; font-size: 10pt;">[|http://copy.yandex.net/?fmode=envelope&url=http%3A%2F%2Fwww.raai.org%2Fcai-08%2Ffiles%2Fcai-]

<span style="color: #660000; font-family: Arial,sans-serif; font-size: 10pt;">Программные продукты