тезаурус+в+автоматической+обработке+текста,


 * Основной целью разработки традиционных информационно-поисковых тезаурусов** является использование их единиц (дескрипторов) для описания основных тем документов в процессе ручного индексирования. По своей сути тезаурус для ручного индексирования является искусственным языком описания, построенным на основе естественного языка. При этом сам процесс индексирования по такому тезаурусу базируется на лингвистических, грамматических знаниях, а также знаниях о предметной области, которые имеются у профессиональных индексаторов текстов. Индексатор сначала должен прочитать текст, понять его и затем изложить содержание текста, пользуясь дескрипторами информационно-поискового тезауруса. Индексатор должен хорошо понимать всю терминологию, использованную в тексте, — для описания основной темы текста ему понадобится значительно меньшее количество терминов.


 * При автоматической обработке текстов человека — посредника между текстом и описанием его содержания в виде дескрипторов нет.** Есть только автоматический процесс и Тезаурус, который должен содержать и те знания, которые содержатся в традиционных информационно-поисковых тезаурусах, и те знания (насколько это возможно), которые использует индексатор для определения основной темы текста.

Именно поэтому традиционные тезаурусы, разработанные для ручного индексирования, трудно использовать при автоматическом индексировании.


 * Разработка тезауруса для автоматического индексирования** (далее — АИ тезауруса) характеризуется прежде всего необходимостью описания значительно большего количества слов и словосочетаний, встречающихся в текстах данной предметной области. АИ тезаурус должен не только включать термины, которые представляют важные понятия в текстах данной предметной области, но также охватывать широкий круг более специфических терминов, обнаружение которых в конкретном тексте сделает этот текст релевантным запросу по понятиям более высокого уровня. Например, должны быть описаны не только дескриптор РЫБА и его основные подразделения, такие как МОРСКИЕ РЫБЫ, АНАДРОМНЫЕ РЫБЫ и т.п., но и значительное количество конкретных видов рыб, с тем чтобы текст, обсуждающий проблемы вылова минтая, мог бы быть получен при поиске по термину рыба.

Синонимические ряды понятий должны быть значительно богаче, чем совокупности вариантов дескриптора в тезаурусе для ручного индексирования, поскольку синонимы должны описывать различные способы выражения данного понятия в тексте для автоматического процесса, а не для человека. Ряды синонимов включают в себя не только существительные и именные группы, а также прилагательные, глаголы и глагольные группы. Расширение терминологической базы АИ-тезауруса ведет к необходимости описания многозначных терминов.

Расширение понятийной базы тезауруса ведет к увеличению и усложнению функций отношений между понятиями тезауруса (концептуальными отношениями): возникает необходимость логического вывода отношений, поскольку описать отношения всех дескрипторов со всеми близкими дескрипторами АИ-тезауруса становится трудоемким занятием и затрудняет проверку таких описаний.