Корпусные+методы+и+применение+корпусов+в+лингвистических+исследованиях.

Конструирование и применение корпусов. Единой методики для всех языков нет. Так как разные языки, традиции, технологические процессы. Но основные требования таковы: 1. Кто пользователь корпуса? (индивид, группа, лингвистическое общество). 2. Какова логическая идея, которая положена в основу корпуса? 3. С каким объёмом данных мы будем работать при составлении корпуса? На сколько это необходимо и реалистично? 4. Используем отрывки из текстов, полные тексты или то и другое. 5. Процедура отбора текстов в корпусе. Для разных целей по-разному: обследование речевого материала, сканирование текстов, окончательное формирование, составление корпуса. 6. Стандартизированное представление корпуса на уровне отраслевых стандартов, т.е., представление всего корпуса как продукта: аннотация всего текста в целом унифицированное представление словесного материала текста. 7. Аннотирование, индексирование словесного материала текста.

Лингвистические исследования, базирующееся на корпусе текстов. Применение корпусов текста в исследовании языка. 1. Подбор нужного корпуса текстов: доступность, достаточность словесного материала, является ли данный корпус представительным для поставленной задачи, каким образом были отобраны тексты, достоверно ли представление индексов (если он индексирован). 2. Насколько необходимо данное исследование (адоптация целей и задач исследования под наличный корпус текстов). 3. Практические рекомендации: анализировать то, что ясно и явно представлено в машиной форме, искать то, что легко найти, подсчитывать то, что легко подсчитывается.

Первоначальные лингвистические исследования, проводившиеся с помощью корпусов, сводились к подсчету частот встречаемости различных языковых элементов. Чаще всего этими элементами были слова, в других случаях – графемы, морфемы, словосочетания. Действительно, если в наличии имеется большой корпус, то самое очевидное, что с ним можно делать – подсчитывать разного рода частоты. Статистические методики используются в решении сложных лингвистических задач, таких как машинный перевод, распознавание и синтез речи, средства проверки орфографии и грамматики и т.д. Так, устойчивые словосочетания представляют собой с семантической точки зрения неделимую смысловую единицу, что очень важно учитывать в лексикографии, системах автоматической обработки текста. На материале корпуса статистическими методами можно определить, какие слова встречаются вместе регулярно и, таким образом, могут быть отнесены к устойчивым словосочетаниям.

По прошествии времени корпусы стали осознаваться как мощные информационные ресурсы, могущие быть использованными в рамках различных лингвистических направлений. Так, корпусы являются богатым источником данных для лексикографии. На их основе и с применением компьютера словари могут составляться и пересматриваться гораздо быстрее, чем раньше, таким образом фиксируя текущее состояние языка и не успевая устаревать за то время, которое проходит от момента начала работы над ними до момента выхода их из печати. Так, например, одна из главных целей создания Британского национального корпуса и Банка английского языка заключалась в применении последних в лексикографии. Словарь современного английского языка Collins COBUILD English Language Dictionary был создан с применением текстовой базы данных Бирмингемского университета. Во введении говорится, что впервые словарь был составлен посредством исследования репрезентативной группы английских текстов, достигающих в общей сложности объема в несколько миллионов слов. Особый вид корпусов, так называемые monitor corpora – открытые для пополнения новыми данными корпусы, позволяет лексикографам отслеживать неологизмы и изменение значений у уже известных слов.

С исследованиями по лексикографии тесно связаны исследования в области семантики. Наблюдая окружения той или иной лингвистической единицы в корпусе, можно установить определенные семантические признаки, характеризующие данную единицу. Часто слово входит сразу в несколько семантических категорий, поэтому следует говорить только о степени принадлежности слова к той или иной категории. Степень же может быть выявлена путем подсчета частот его распределения по разным категориям.

На корпусе тестируются системы автоматической обработки текста и проверяются различные лингвистические теории. Так, например, в университете Nijmegen, Нидерланды, на текстовых корпусах проверяются разрабатываемые там формальные грамматики. На основе грамматики создается программа синтаксического анализа, которая обрабатывает корпус. Результаты обработки показывают, насколько полно и точно грамматика описывает данные.

Таким образом, с помощью корпусов можно изучать самые разные языковые явления. Примеры возможных запросов к текстовой базе данных приводит В.М. Андрющенко. Вот некоторые из них:

– Каковы все (или наиболее типичные) контексты употребления слова (конструкции, словосочетания, явления)? – Выдать весь словарь определенного автора или определенной системы. – Собрать из текстов все ситуации определенной структуры и т.д.