Лингвистическое+обеспечение+электронных+энциклопедий

Состав и задачи лингвистического обеспечения различаются в зависимости от вида информационной системы: автоматизированной библиотечно-информационной системы (АБИС), электронной библиотеки, информационно-поисковой системы в Интернете и т. д.

Начнем с рассмотрения лингвистического обеспечения библиотечно-информационных систем, имеющего более глубокие традиции, более разработанного и способного в определенной степени выступать в качестве основы лингвистического обеспечения других информационных систем. Лингвистическое обеспечение современной АБИС можно определить как совокупность применяемых в технологии АБИС информационных языков, лингвистических процессоров, словарей и авторитетных файлов. Основные функции лингвистического обеспечения АБИС связаны с обеспечением индексирования документов и запросов и эффективного поиска в электронном каталоге. Лингвистическое обеспечение корпоративной АБИС в отличие от локальной АБИС носит более универсальный или комплексный характер (например, может включать несколько классификационных языков или единую систему предметных рубрик) и требует соблюдения дополнительных условий реализации лингвистической совместимости. Словарные средства АБИС обычно требуют многолетнего рутинного ведения, поэтому прогресс в развитии лингвистического обеспечения не столь очевиден, как, например, в развитии аппаратного или программного обеспечения. При этом очень часто именно изменение или усложнение последних компонент вызывает продвижение вперед первой. Можно выделить следующие современные тенденции в развитии лингвистического обеспечения АБИС: 1. Комплексное использование элементов библиографического описания, классификационных индексов, ключевых терминов/слов, предметных рубрик в качестве ключевых элементов при поиске. Следует избегать смешения понятий ключевых терминов и ключевых слов и применения при индексировании одновременно и тех, и других элементов. Это приводит к усложнению правил нормирования лексики и правил индексирования, что затрудняет работу индексаторов. Использование стандартизованных изолированных прилагательных в форме единственного числа требует знания пользователем правил индексирования или же обязательного наличия в системе лингвистического процессора отсечения окончаний. Перевод прилагательных в существительные при нормировании ключевых слов влечет за собой проблему выбора слов/основ при составлении поискового предписания. Кроме того, индексирование документов с помощью ключевых слов не дает возможности пользователю получить представление о содержании документа на основе ПОДа и судить о релевантности документа. 2. Применение в технологии индексирования одного или нескольких классификационных языков, обеспечивающих поиск по широкотематическим запросам, и хотя бы одного вербального языка, обеспечивающего поиск по узкотематическим запросам. В числе классификационных языков один должен быть универсальным, а другие могут носить отраслевой или локальный характер (например, классификация стандартов, патентов, архивная классификация). 3. Среди вербальных языков наблюдается тенденция к предпочтительному использованию в качестве языка индексирования языка ключевых терминов, в наибольшей степени отвечающего потребностям пользователя в актуальной терминологии при узкотематических запросах. Возможно применение контролируемого (на основе словаря) или свободного (неконтролируемого словарем) индексирования. В любом случае предпочтительно иметь тезаурус и использовать его для обогащения поисковых предписаний. Преимущества тезауруса по сравнению со списком ключевых слов/терминов очевидны. В списках ключевых слов/терминов не отражены смысловые связи между терминами, при этом алфавитный порядок расположения терминов усугубляет эту разобщенность: родственные понятия удалены друг от друга. Использование тезауруса в информационно-поисковых системах повышает качество анализа текста и полноту поиска информации, позволяя расширить запрос синонимическими, более общими или более частными понятиями. 4. Ведение и поддержка в актуальном состоянии баз данных классификационных систем, тезаурусов, предметных рубрик, применяемых при индексировании и поиске. Ведение авторитетных файлов и их использование при каталогизации и поиске документов. 5. Организация поиска в классификационных базах данных по ключевым словам с последующим выходом на поиск по классификационному индексу/ам в электронном каталоге. Ведутся работы по созданию конкордансных таблиц разных классификаций, классификационной системы и системы предметных рубрик или ключевых терминов. 6. Увеличение количества и усложнение лингвистических процессоров в составе лингвистического обеспечения АБИС. К таким процессорам относятся процессоры транслитерации, трансляторы ПОДов с одного языка индексирования на другой, грамматические процессоры типа процедур отсечения окончаний или идентификации словоформ одного слова, словарные процессоры, т. е. средства автоматизированного ведения словарей, например, процессор словарно-грамматической фильтрации слов, процессор тезаурусной фильтрации терминов.

Лингвистическое обеспечение электронной библиотеки, оперирующей текстовой информации, неизбежно должно иметь свои особенности. Большие объемы текстовой и гипертекстовой информации создают значительные трудности при ее классификации традиционными “библиотечными” способами. Интеллектуальная обработка требует значительных временных затрат, что несовместимо с необходимостью оперативного анализа текстовых документов. Поэтому в рассматриваемой сфере реализуются разработки технологий автоматической обработки текста (в частности, автоматического смыслового анализа), автоматического индексирования текстов, аннотирования или реферирования и смыслового поиска в информационных ресурсах на естественном языке (напр., Университетская информационная система “Россия” [|__http: //www. cir. ru__], работающая по модели тематических узлов; электронная архивная система RetrievalWare, реализующая технологию семантических сетей). Таким образом, лингвистическое обеспечение в этой сфере идет по пути интенсивного развития лингвопроцессорной компоненты, которая сопровождается развитыми тезаурусными и грамматическими словарями. Следует отметить, что классификационные и вербальные информационно-поисковые языки в электронных библиотеках практически не используются, что является, на наш взгляд неоправданным упущением. Электронные библиотеки, помимо указанных немногочисленных интеллектуальных библиотек, характеризуются следующими видами представления информации и поиска: 1. Представление ресурсов в виде списков с предоставлением выбора из них, например авторов и произведений (Online библиотека http: //www.bestlibrary.ru, ЭБ художественной литературы http://www.e-kniga.ru). 2. Представление ресурсов в виде списков и организация поиска по элементам библиографического описания, например по автору и словам, содержащимся в заглавии (ЭБ Максима Машкова [|__http: //www. lib. ru__]). 3. Представление ресурсов в виде списков и организация поиска в полных текстах документов по ключевым словам (ЭБ Мир энциклопедий [|__http: //www. encyclopedia. ru__]). 4. Организация поиска по элементам библиографического описания и в полных текстах документов по ключевым словам (ЭБ Русская литература и фольклор [|__http: //feb-web. ru__]). 5. Организация поиска по элементам библиографического описания, в полных текстах документов по ключевым словам и поиска с использованием информационно-поисковых языков классификационного или вербального типа, например, по автору, по словам, содержащимся в заглавии, аннотации, полном тексте документов, и по самостоятельно оформленным ключевым словам и рубрикатору ГРНТИ (ЭБ РФФИ [|__http: //elibrary. ru__]). Современные требования к электронным библиотекам позволяют считать полноценной только библиотеку пятого типа и разработки интеллектуальных библиотек.

Аналогичное положение в плане соотношения компонент лингвистического обеспечения наблюдается в практике работы поисковых машин в Интернете. Каталоги (классификации), использующиеся в наиболее крупных российских поисковых системах Rambler, Aport и Yandex, разнородны, малы и не носят универсального характера. В силу этого они оказывают слабую помощь пользователю при поиске нужной информации. Очевидно, что число классификаций должно быть минимальным и они должны носить универсальный характер. Лингвопроцессорная часть в указанных поисковых системах находится на высоком уровне, включая морфологический анализ обрабатываемых терминов или даже обработку составленного на естественном языке фразового запроса, как например в Yandex. Для описания электронных ресурсов, по аналогии с элементами библиографического описания, целесообразно использовать систему метаданных, например, схему Dublin Core. Однако наличие последних двух компонент не обеспечивает удобный и эффективный поиск. Таким образом, для Интернета актуальна задача разработки качественной поисковой системы, которая при использовании хорошо разработанных классификационных или вербальных средств гарантировала бы высокую точность, полноту и оперативность поиска в сочетании с разнообразными возможностями составления запроса.