Автоматическое+индексирование

Различают //ручное// и //автоматическое// индексирование. 1) При ручном индексировании этот процесс осуществляет информационный работник. На основе анализа содержания документа специалист отображает текст документа в набор ключевых слов или дескрипторов. Преимущество ручного индексирования состоит в его качестве, недостатком является низкая производительность и, следовательно, высокая стоимость. Кроме того, при ручном индексировании вполне возможна ситуация, когда один и тот же документ, обработанный различными специалистами, может получить различные индексы.  2) При автоматическом индексировании (АИ) индексирование осуществляется компьютерной системой. Формально текст документа представляет собой множество символов, разделенных пробелами. Эти отрезки текста называют словоформами. Основная задача автоматического индексирования состоит в распознавании в словоформе соответствующего словарного слова. С этой целью используют автоматический морфологический анализ текста. **Морфологический анализ текста ** - анализ структур словоформ, рассматриваемых изолированно с целью определения принадлежности словоформы слову. Задачами морфологического анализа текста являются: Грамматические признаки, приписываемые в результате морфологического анализа, могут использоваться на дальнейших этапах обработки исходного текста. Для анализа текста в системах АИ используются различные автоматические словари, которые можно разделит на два типа: 1) словари, используемые для распознавания словоформ и их нормализации (словарь словоформ, словарь основ слов, словарь окончаний, словарь словосочетаний). Словарь словосочетаний содержит устойчивые последовательности слов. Считается, что в развитом языке насчитывается десятки миллионов понятий, а слов — около миллиона. Поэтому большая часть понятий выражена комбинациями слов.  2) информационно-поисковые тезаурусы, которые содержат информацию об отношениях условной эквивалентности, отношениях подчинения и ассоциативных отношениях между словами. В некоторых системах АИ вместо словарей для нормализации слов используются алгоритмы, предназначенные для преобразования слов в различные грамматические формы. При этом исчезает необходимость заносить в словарь все возможные формы слов, уменьшается объем словарей, увеличивается эффективность поиска, так как в тексте могут быть найдены все грамматические формы слова, заданного в запросе. Сложность формальной обработки текста на ЕЯ состоит прежде всего в том, что текст нельзя представить как простую совокупность слов, имеющих тот или иной смысл. Большая доля смысла текста содержится не в самих словах, а в отношениях между словами. Поэтому для более полного и точного распознавания смысла текста в развитых системах АИ помимо морфологического анализа осуществляется и //автоматический синтаксический анализ текста//. **Синтаксический анализ текста ** представляет собой исследование структуры предложения текста с целью установления синтаксических связей между членами предложения. В ходе синтаксического анализа используются результаты морфологического анализа. Основой для разработки методов синтаксического анализа систем АИ являются исследования в области математической лингвистики и опыт создания, систем машинного перевода. Результаты синтаксического анализа текста обычно представляются в виде дереву отношений между словами с указанием их типов. Например, для русского языка различают до 50 типов отношений между словами. <span style="font-family: Tahoma,sans-serif; font-size: 11.5pt;">В начале 90-х гг. появились другие, альтернативные технологии автоматического индексирования текста. Например, технология //“адаптивного распознавания образов”//, при которой каждая словоформа представляется в виде своего двоичного кода, который является ее “образом”. При этом становится возможен так называемый нечеткий поиск, при котором можно игнорировать опечатки и искажения слов. <span style="font-family: Tahoma,sans-serif; font-size: 11.5pt;">Для выбора из множества слов текста информативных ключевых слов в системах АИ применяются методы статистического анализа текста. Как показывают исследования, в ЕЯ наблюдается тенденция повторять старые слова, а не использовать новые, так что 70% словоупотреблений приходится на 20% слов. <span style="font-family: Tahoma,sans-serif; font-size: 11.5pt;">В основе статистических методов анализа текста лежит идея о возможности использования числовых параметров для оценки информативности лексических единиц, составляющих текст. Считается, что как очень редкие, так и очень часто встречаемые термины не могут использоваться в качестве информативных слов, а пик информативности приходится на слова со средней частотой встречаемости. <span style="font-family: Tahoma,sans-serif; font-size: 11.5pt;">При статистическом анализе текста рассчитывают различные количественные оценки: <span style="font-family: Tahoma,sans-serif; font-size: 11.5pt;">Статистические методы удобны тем, что позволяют автоматически, посредством достаточно простых операций, получить сведения о данной лексической единице в документе или массиве документов. B тоже время использование только статистических методов при определении информативности слов не всегда приводит к адекватным результатам. Например, удаление часто встречающихся терминов уменьшает полноту, а удаление редко встречающихся терминов снижает точность поиска. Поэтому статистические методы не могут в полной мере оценить информативность слов текста, а ручное индексирование по качеству всегда будет превосходить автоматическое. <span style="font-family: Tahoma,sans-serif; font-size: 11.5pt;">В современных информационно-поисковых системах часто предусмотрено и ручное и автоматическое индексирование.
 * <span style="font-family: Tahoma,sans-serif; font-size: 11.5pt;">Индексирование документа **<span style="font-family: Tahoma,sans-serif; font-size: 11.5pt;"> - это процедура отображения текста документа в определенную форму, предназначенную для автоматической обработки (индекс документа).
 * ====<span style="font-family: Tahoma,sans-serif; font-size: 11.5pt;">выделение из текста словоформ; ====
 * ====<span style="font-family: Tahoma,sans-serif; font-size: 11.5pt;">распознавание слов или их сочетаний; ====
 * ====<span style="font-family: Tahoma,sans-serif; font-size: 11.5pt;">нормализация словоформ (приведение слова к словарному виду); ====
 * ====<span style="font-family: Tahoma,sans-serif; font-size: 11.5pt;">распознавание грамматических признаков словоформ (часть речи, падеж и т.п.). ====
 * ====<span style="font-family: Tahoma,sans-serif; font-size: 11.5pt;">Преимуществом этой технологии является значительное увеличение скорости индексирования и поиска информации, минимизация объема индекса. ====
 * ====<span style="font-family: Tahoma,sans-serif; font-size: 11.5pt;">Недостатком - снижение полноты и точности поиска вследствие отсутствия семантического анализа текста, который особенно важен в случае русского языка. ====
 * ====<span style="font-family: Tahoma,sans-serif; font-size: 11.5pt;">число вхождений слова в документ; ====
 * ====<span style="font-family: Tahoma,sans-serif; font-size: 11.5pt;">общее число вхождения слова в документы, ====
 * ====<span style="font-family: Tahoma,sans-serif; font-size: 11.5pt;">относительная частота вхождения слова в документ и др. ====

<span style="font-family: Tahoma,sans-serif; font-size: 11.5pt;">Ресурсы:
 * 1) ====<span style="font-family: Tahoma,sans-serif; font-size: 11.5pt;">Программы автоматического индексирования. URL: [] ====
 * 2) ====Компьютерная лингвистика. Автоматическое индексирование документов. URL: []====
 * 3) ====Научная энциклопедия "Book-Science". Автоматическое индексирование документальной информации. URL: []====