Компьютерная+поддержка+корпуса+текстов

[|Компьютерная поддержка корпуса текстов] - свойство корпуса иметь комплекс программ по обработке данных (статистический анализ, составление конкорданса, автоматическая словарная обработка – полные и частичные словники по различным основаниям: алфавиту, частоте, лемматизация)

Взаимодействия пользователя с корпусом: поиск в корпусе в соответствии с запросом пользователя обеспечивается с помощью специальных программ - корпусных менеджеров. Они обеспечивают сортировку результатов поиска, статистические подсчеты, составление конкордансов и словников (списков слов, систематизированных некоторым образом) на основе корпуса.

Большинство современных корпусных менеджеров позволяют осуществлять поиск различного рода информации: поиск конкретных словоформ; поиск словоформ по лемме (поиск всех форм одной и той же лексемы, встретившихся в тексте); поиск неразрывных и разрывных словосочетаний. При наличии соответствующей разметки осуществляется поиск по набору морфологических признаков (например, поиск всех словосочетаний вида 'предлог по + существительное в предложном падеже') и др. информацию, соответствующую уровням лингвистической разметки, представленных в корпусе. Благодаря наличию метаразметки пользователь имеет возможность создавать свой подкорпус текстов, отобранных по жанру, тематике, времени написания и т.п. Результат выдачи представляет собой конкорданс (множество контекстов, в котором встретилось запрашиваемое языковое выражение). Каждый из примеров снабжается информацией об источнике, откуда взят пример. В ряде корпусов возможно также получить статистическую информацию о запрашиваемом языковом выражении: его относительную частоту по всему корпусу, распределение по жанрам или временным срезам, информацию о частоте его сочетаемости.

Корпусы, как правило, предназначены для многократного использования многими пользователями. Для унификации работы с разными корпусами, для обеспечения "независимости" корпусных данных от конкретной программной реализации интерфейса работы с корпусом разрабатываются стандарты разметки текстовых корпусов. В настоящее время выработались стандарты представления метаданных, базирующиеся на описание текстов в рамках проекта Text Encoding Initiative (TEI) и на рекомендациях EAGLES (Expert Advisory Group on Language Engineering Standards). В качестве языка разметки используются универсальные языки разметки данных, такие как, например, SGML и XML.