Речевые+корпуса


 * Корпусы звучащей речи**, которые называют также речевыми базами данных, представляют собой важнейший тип языковых ресурсов. Последний термин обычно используется для обозначения любых, как правило больших, наборов лингвистических данных и описаний, представленных в электронном виде и специально организованных для разработки, совершенствования и оценки систем и алгоритмов обработки речевого и языкового материала в лингвистических технологических приложениях. Иногда к языковым ресурсам относят также и компьютерные программы, которые обеспечивают создание, сбор, организацию и управление собственно лингвистическими ресурсами.


 * Речевой корпус** — это структурированное множество речевых фрагментов, которое обеспечено программными средствами доступа к отдельным элементам корпуса. Речевой фрагмент как базовая единица корпуса представляет собой оцифрованный фрагмент речевого сигнала, который сопровождается ассоциированной информацией определённого типа (типов). Такая информация называется также аннотацией к речевому фрагменту.


 * Из истории разработок**

Первые речевые корпусы (далее РК) были созданы в первой половине 80х годов прошлого века в США для американского варианта английского языка, где их разработка финансировалась Министерством обороны, а организация работ была поручена национальному институту стандартов и технологий NIST (National Institute of Standards and Technology). Основное назначение первых РК — тестирование и оценка работы систем распознавания речи на одном и том же стандартном речевом материале.

Интерес к созданию корпусов звучащей речи был в значительной степени инициирован разработками в области автоматического распознавания речи, где исследователям приходится сталкиваться с огромной акустической вариативностью звуковых единиц языка, которая имеет весьма разнообразные источники – от системной контекстной вариативности, обусловленной коартикуляцией, до психофизиологического состояния говорящего или технических характеристик микрофона, который используется при записи речевого материала. Современные системы распознавания речи, которые дают наиболее высокие показатели надежности, базируются преимущественно на методах статистического (вероятностного) моделирования речевых и языковых явлений.

Такие системы обычно обучаются на очень больших массивах звучащей речи, записанной от многих дикторов (не менее 100 человек). Звуковые файлы, входящие в обучающий речевой корпус, специальным образом аннотируются, т. е. снабжаются акустико-фонетической и лингвистической информацией, необходимой для построения статистических моделей.

Во второй половине 80х годов произошли значительные сдвиги в компьютерной технике: возросла мощность компьютеров и объёмы хранения данных; происходило массовое внедрение персональных компьютеров. К этому времени были подведены окончательные итоги крупномасштабных государственных проектов ARPA/DARPA (Defense Department’s Advanced Research Projects Agency) США, которые были направлены на анализ и оценку перспектив распознавания слитной речи с большим словарём и человеко&машинных диалоговых систем с устным вводом информации. Проведённые в рамках этих проектов исследования ярко продемонстрировали преимущества систем распознавания речи на основе теории распознавания образов, статистических методов и обучающих речевых корпусов (сравнительно с экспертными системами на основе лингвистических знаний и правил). Этот временной период можно считать началом формирования нового направления речевых технологий, связанного с созданием речевых корпусов.

При государственной поддержке в США в 80е годы были созданы: TI&DIGITS корпус (1984) для тестирования систем распознавания изолированных цифр и цифровых последовательностей; Road Rally для анализа и распознавания ключевых слов (word spotting); King Corpus для систем идентификации говорящего (speaker recognition); корпус TIMIT (Texas Instruments Massachusetts Institute of Technology, Acoustic Phonetic Continuous Speech Corpus 1980–1990), который послужил прототипом для многих других речевых корпусов, в том числе и не англоязычных. Были разработаны также специализированные речевые корпуса Resourse Management (RM) и Wall Street Journal (WSJ, позднее CSRNAB (Continuous Speech Recognition of North American Business News)) для исследований в области распознавания слитной речи и корпус Air Travel Information Service (ATIS) для исследования спонтанной речи и понимания естественного языка в диалоговых системах.

Практика показала, что создание хорошего речевого корпуса представляет собой довольно сложную технологическую задачу, требующую значительных финансовых и кадровых вложений. Для её решения в 90&е годы ХХ в. были созданы специальные координационные центры по сбору, хранению, распространению и созданию общедоступных и стандартизованных языковых ресурсов, в том числе речевых. Среди них: ● LDC — Linguistic Data Consorcium, http://www.ldc.upenn.edu. ● CSLU — Center for Spoken Language Understanding, Oregon Graduate Institute, [|http://www. CSLU.ogi.edu.] ● ELRA — European Language Resources Association, http://www.icp.grenet.fr/elra.


 * Классификация речевых корпусов**

**Аннотированные речевые корпуса** — важнейший компонент исследований в области звучащей речи. Сегодня они созданы и создаются для большого количества языков, научных дисциплин и технологий. Опыт, накопленный в области их разработки и использования, позволяет выделить ряд признаков, которые могут быть положены в основу классификации речевых баз данных и учитываться при проектировании нового РК. Укажем наиболее важные характеристики: ● целевое использование корпуса: специализированные, технологические, общие (репрезентативные), учебно&иллюстративные; ● тип речевого материала: дискретная речь, непрерывная речь, чтение, спонтанная речь, специальные и естественные диалоги; ● тип текстового материала: списки слов/слогов, наборы отдельных предложений, связные тексты; монотематические или политематические; ● тип речевого сигнала: лабораторная речь, офисная речь, публичная речь, телефонная речь (обычная или через мобильный телефон); радио, телеречь, речь в условиях естественной внешней среды, иноязычная (акцентная) речь и т.д.; ● тип информации, ассоциированной с речевым сигналом (аннотации): орфографическая запись, фонемная / фонетическая транскрипция, просодическая транскрипция, акустико-фонетическая разметка сигнала: «событийная», сегментная, просодическая, включение других типов лингвистических аннотаций и комментариев, например, об индивидуальных особенностях произношения говорящего или эмоциональной окраске речевых фрагментов; ● тип статистической балансировки звуковых единиц языка: равномерная, репрезентативная, по специальной статистической схеме; ● наличие и типы дополнительной сигнальной информации, включённой в корпус наряду с речевым сигналом: простые, мультимодальные и специальные корпуса.


 * Вопросы проектирования речевых корпусов**

Ввиду значительных финансовых и рабочих затрат, создание речевого корпуса требует предварительного проектирования с учетом задач, для решения которых предполагается использовать речевой корпус. Несмотря на стремление к разработке многофункциональных и компактных корпусов, пригодных для различных приложений, на практике продолжают разграничивать узкоспециализированные и репрезентативные (эталонные или общие) корпусы. Как правило, это связано с экономией усилий при создании конкретных речевых систем. Часто требования таких систем трудно совместить в одном корпусе: например, для систем автоматической верификации дикторов нужны корпусы, содержащие многократное произнесение небольшого количества парольных фраз относительно небольшим количеством дикторов (обычно не более 100), а для систем автоматического распознавания речи или фонетических исследований необходимы корпусы, в которых представлены однократные произнесения разных фраз или текстов большим количеством дикторов (заведомо больше 100). Поэтому, рассматривая при проектировании фактически одну и ту же совокупность вопросов, разработчики разно ориентированных речевых корпусов принимают по ним различные решения.

Условно всю совокупность возникающих вопросов можно разделить на четыре группы: технические, содержательные, структурные и инструментальные (исполнительские). К техническим относятся вопросы, связанные с акустическими и техническими условиями записи речевого материала (выбор типа и количества микрофонов, звуковой карты компьютера, режима цифрового кодирования и формата звуковых файлов, акустическая среда записи, тип канала связи и пр.). Содержательные вопросы более разнообразны и принципиально существенны. Перечислим основные проблемы, которые приходится здесь решать:
 * 1) Выбор дикторов (количество, пол, возраст, диалектные различия, образование, социальное положение, профессия и пр.)
 * 2) Подбор текстового материала (специализированный/репрезентативный, тип произносимых речевых образцов (слова, отдельные предложения, тексты, образцы спонтанной речи), фонетически сбалансированный/ не сбалансированный, тип балансировки, статистическая представительность звуковых единиц и т. п.)
 * 3) Распределение текстового материала по дикторам, включая количество подходов для каждого диктора
 * 4) Распределение речевого материала на тренировочную и тестовую части
 * 5) Выбор типов информации, ассоциированной с каждым звуковым файлом (орфографическая запись, фонемная запись / фонетическая транскрипция реального произнесения, акустико-фонетическая разметка звукового сигнала, прочие типы аннотаций и комментариев)
 * 6) Структурные вопросы касаются организации информации, содержащейся в корпусе, в формат, удобный для размещения, хранения, поиска и использования нужной информации (структура директорий и файлов, создание протоколов и пр.).
 * 7) «Инструментальные» или исполнительские вопросы возникают в связи с автоматизацией и стандартизацией разных этапов создания речевого корпуса. Для репрезентативных или общих корпусов главная проблема связана с разработкой стандартов для транскрипции речевых сигналов на разных уровнях их представления и для разных языков, с установлением набора транскрипционных символов, соглашений о разметке сигналов, задающих уровни транскрипции – акустический, фонетический, фонемный, словесный, просодический и пр. Как правило, для создания речевых корпусов, содержащих транскрипционную информацию, привлекаются фонетические эксперты, но даже в этом случае для получения согласованных экспертных транскрипций и разметочных файлов необходимо разрабатывать специальные рабочие инструкции, в которых приходится предусматривать не только типовые, но и трудные случаи фонетической интерпретации речевых сигналов. Кроме того, при разработке таких корпусов необходим специальный компьютерный инструментарий для обеспечения удобной, быстрой и надежной работы эксперта. Хотя сейчас существует довольно большое количество компьютерных программ, которые позволяют анализировать, размечать, транскрибировать и аннотировать речевые сигналы, каждая из них имеет свои особенности, которые не всегда удобны для решения конкретных задач. В особенности, это относится к программам, которые относительно дешевы или находятся в свободном доступе. Специальных программ требует также организация записи и файлирования речевого материала. Как правило, используется так называемый метод суфлера (prompt-method), который позволяет создавать звуковые файлы, соответствующие отдельным объектам речевого корпуса, непосредственно в процессе его записи.


 * УЧЕБНЫЕ КОРПУСА**

Под ** учебным корпусом (Learner Сorpus) ** понимается электронный корпус текстов группы лиц, изучающих иностранных язык. Основной целью организации учебных корпусов является их анализ на предмет выявления способов и эффективности освоения изучаемого языка (Language Acquisition). Такого рода корпусы, например, могут быть использованы для лингвистического анализа на предмет выявления лексических или синтаксических ошибок при освоении иностранного языка. Такой подход помогает установить частотность тех или иных типов языковых ошибок, характерные контексты, что необходимо для выработки планов и методических приемов для дальнейшей коррекции в обучении языку. На сегодняшний день учебные корпусы наиболее распространены в Азии и Европе. Значительных успехов в этой области достигло изучение английского языка. Международный Учебный Корпус Английского языка** ( **** The **** International **** Corpus **** of **** Learner **** English ) **является первым и самым известным учебным корпусом. Корпус включает в себя аргументативные эссе, написанные студентами продвинутого языкового уровня, т.е. студентами, изучающими английский язык на третьем-четвертом курсах. Основная цель ICLE – исследование языка межнациональной коммуникации студентов, изучающих этот язык. Версия 1.1 ICLE, изданная на CD-ROM в 2002, содержала более чем 2.5 миллиона слов в форме 3 640 текстов, располагающихся между 500-1 000 словами по длине. Она была написана студентами EFL из 11 стран. А именно, из Болгарии, Чехии, Голландии, Финляндии, России, Франции, Германии, Италии, Польши, Испании и Швеции. Корпус все еще расширяется дополнительными подкорпусами (каждый содержит по 200 000 слов) студентами из восьми других стран, включая Бразилию, Китай, Японию, Литву, Норвегию, Португалию, Турции, а также студентами Южной Африки носителями языка Тсвана. В ICLE, изданном на CD-ROM, нет пометок о частях речи и учебных ошибках. В дополнение к разрешению сравнения учебного письма различного происхождения корпус может использоваться в комбинации с LOCNESS, чтобы сравнить английский язык уроженца и студента, изучающего английский. Корпус ICLE доступен для лингвистического исследования, но не может использоваться в коммерческих целях. Данный корпус является показательным примером эффективности разработок в области корпусной и прикладной лингвистики. Не менее известным учебным корпусом английского языка является Кембриджский Учебный корпус** (The Cambridge Learner Corpus ** [|http://www.cambridge.org] ** ). **Как часть Кембриджского Международного Корпуса, Кембриджский Учебный Корпус это огромная коллекция примеров английского языка, который пополняют изучающие всего мира. Он содержит свыше 20 млн. слов и непрерывно расширяется. Корпус в настоящее время содержит 50 000 подлинников из 150 стран (100 различных фонов L1). Каждый подлинник содержит информацию о родном языке студента, национальности, уровне английского языка, возраста, и т.д. Более чем восемь миллионов слов (или приблизительно 25 000 подлинников) были закодированы для ошибок, используя Учебную Кодирующую Систему Ошибок, развитую издательством Кембриджского университета. CIC является коммерческим корпусом. В настоящее время получить доступ к корпусу могут только авторы текстов и авторы, работающие на издательство Кембриджского университета, а также члены штата в Кембридже ESOL. Первым учебным корпусом устной речи стал корпус** LINDSEI. **Он является разговорной копией ICLE. Первый версия корпуса была составлена на CECL и содержала стенограммы пятидесяти 15-минутных интервью со студентами 3-4-го года обучения. Она содержала приблизительно 100 000 слов. База данных в настоящее время расширяется дополнительными компонентами, представляющими другие языки, включая болгарский, китайский, итальянский, японский, испанский, и шведский. Поскольку большинство учебных корпусов использовало только письменные данные, этот тип данных дает новое исследование относительно широкого диапазона особенностей устного языка межнационального общения. На сегодняшний день существует огромное количество корпусов преимущественно на иностранных языках. В приложении 1 представлен список учебных корпусов и краткое их описание.

Практически все учебные корпуса являются лингвистически размеченными. Лингвистическая разметка подразумевает присвоение словам особых кодов. Каждому коду соответствует определенный набор грамматических признаков, характеризующих данное слово. Коды также известны как тэги (от англ. tag – ярлык, метка), а сам процесс приписывания словам тэгов соответственно имеет название тэггинг (от англ. tagging). В настоящее время не существует общепризнанных стандартов представления лингвистической и других видов информации в текстах. Специальный международный проект Text Encoding Initiative (TEI) предназначен для того, чтобы разработать стандартизированные средства разметки. Для этого применяется уже общепризнанный международный язык разметки документов SGML или его подмножество XML. Типы разметки, которые может содержать корпус, можно условно подразделить на лингвистические и внешне лингвистические. К последним относятся:
 * разметка, отражающая особенности форматирования текста (заголовки, абзацы, отступы и т.д.);
 * разметка, касающаяся сведений об авторе и тексте. Причем сведения об авторе могут включать не только его имя, но также и возраст, пол, годы жизни и многое другое, а сведения о тексте обычно содержат, кроме названия, еще и язык, на котором он написан, год и место издания и т.д.

Наличие подобной информации позволяет значительно детализировать поиск в текстовых базах данных и, кроме того, предоставляет средства идентификации соответствующего документа. К первичной разметке текстов относятся этапы, обязательные для каждого корпуса: Также важным этапом является морфологический анализ. В иностранных источниках употребляется термин part-of-speech tagging, дословно – частеречная разметка, в действительности она включает не только признак части речи, но и признаки грамматических категорий, свойственных данной части речи. Это основной тип разметки в текстах, он рассматривается как основа для дальнейших этапов анализа – синтаксического и семантического. ** Синтаксическая. ** Является результатом синтаксического анализа или парсинга (от англ. parsing). Чаще всего в его основе лежит грамматика структур непосредственно составляющих. ** Семантическая. ** Хотя для семантической, как и для других видов разметки, нет стандартной формы, чаще всего для ее представления используют код, состоящий из букв и цифр или только цифр, в котором первая буква или цифра обозначает общую семантическую категорию, в которую входит данное слово, а последующие символы – более узкие подкатегории, специализирующие его значение. ** Анафорическая. ** Из всех видов референции наибольшую сложность для автоматической обработки текста представляет местоименная. ** Просодическая. ** В корпусах затранскрибированной звучащей речи применяются метки, описывающие ударение и интонацию. Аннотирование корпусов осуществляется программными средствами. Во-первых, это экономичнее с точки зрения временных и трудозатрат, чем если бы разметка проводилась вручную. Во-вторых, что более важно, это связано с поиском решений в области автоматической обработки текста. К числу известных и наиболее часто используемых программ при аннотировании корпусов относятся такие программы как @AntConc, @WordSmith , @MonoConc Pro и @CATMA.
 * токенизация (разбиение на орфографические слова);
 * лемматизация (приведение словоформ к словарной форме).

Учебные корпуса особенно полезны, когда они размечены на ошибки, т.е. когда все ошибки в корпусе аннотированы с помощью стандартизированной системой разметки. Разметка ошибок очень трудоемкая и занимающая много времени задача. В тоже время, аннотированный корпус обеспечивает бесценными средствами в исследовании изучаемого языка. Для исследования любого учебного корпуса обычно рассматриваются способы классификации ошибок, выбирается методика их кодирования в корпусе для последующей автоматической либо ручной разметки (error tagging), а также методика количественного автоматизированного подсчета ошибок по типам, что позволяет провести их всесторонний лингвистический и лингводидактический анализ. Единой классификации для анализа учебных корпусов нет. Это можно увидеть на примерах разных учебных корпусов. Например, арабские лингвисты Дулай, Берт и Крашен предлагают две основные описательные таксономии ошибок: В приложении 1 представлена классификация ошибок @Учебного Переводного Корпуса MeLLANGE. В приложении 2 - классификация ошибок @Корпуса Текстов Петербургских Школьников.
 * ошибки, основанные на языковых категориях (общие, такие как морфологические, лексические и грамматические и более конкретные, такие как вспомогательные средства, пассивные и предлогов);
 * ошибки с упором на изменение поверхностной структуры (например, опущение или нарушение порядка слов).

Источники: 1. Речевые корпусы (опыт разработки и использование) О. Ф. Кривнова, Л. М. Захаров, Г. С. Строкин. [Электронный ресурс] - Режим доступа:http://www.dialog-21.ru/materials/archive.asp?id=6928&y=2001&vol=6078 2. Речевые технологии. [Электронный ресурс] - Режим доступа: http://speechtechnology.ru/files/2-2008.pdf  Под ** учебным корпусом (Learner Сorpus) ** понимается электронный корпус текстов группы лиц, изучающих иностранных язык. Основной целью организации учебных корпусов является их анализ на предмет выявления способов и эффективности освоения изучаемого языка (Language Acquisition). Такого рода корпусы, например, могут быть использованы для лингвистического анализа на предмет выявления лексических или синтаксических ошибок при освоении иностранного языка. Такой подход помогает установить частотность тех или иных типов языковых ошибок, характерные контексты, что необходимо для выработки планов и методических приемов для дальнейшей коррекции в обучении языку. На сегодняшний день учебные корпусы наиболее распространены в Азии и Европе. Значительных успехов в этой области достигло изучение английского языка. Международный Учебный Корпус Английского языка** ( ** ** The ** ** International ** ** Corpus ** ** of ** ** Learner ** ** English **** ) ** является первым и самым известным учебным корпусом. Корпус включает в себя аргументативные эссе, написанные студентами продвинутого языкового уровня, т.е. студентами, изучающими английский язык на третьем-четвертом курсах. Основная цель ICLE – исследование языка межнациональной коммуникации студентов, изучающих этот язык. Версия 1.1 ICLE, изданная на CD-ROM в 2002, содержала более чем 2.5 миллиона слов в форме 3 640 текстов, располагающихся между 500-1 000 словами по длине. Она была написана студентами EFL из 11 стран. А именно, из Болгарии, Чехии, Голландии, Финляндии, России, Франции, Германии, Италии, Польши, Испании и Швеции. Корпус все еще расширяется дополнительными подкорпусами (каждый содержит по 200 000 слов) студентами из восьми других стран, включая Бразилию, Китай, Японию, Литву, Норвегию, Португалию, Турции, а также студентами Южной Африки носителями языка Тсвана. В ICLE, изданном на CD-ROM, нет пометок о частях речи и учебных ошибках. В дополнение к разрешению сравнения учебного письма различного происхождения корпус может использоваться в комбинации с LOCNESS, чтобы сравнить английский язык уроженца и студента, изучающего английский. Корпус ICLE доступен для лингвистического исследования, но не может использоваться в коммерческих целях. Данный корпус является показательным примером эффективности разработок в области корпусной и прикладной лингвистики. Не менее известным учебным корпусом английского языка является Кембриджский Учебный корпус** (The Cambridge Learner Corpus ** [|http://www.cambridge.org] ** ). **Как часть Кембриджского Международного Корпуса, Кембриджский Учебный Корпус это огромная коллекция примеров английского языка, который пополняют изучающие всего мира. Он содержит свыше 20 млн. слов и непрерывно расширяется. Корпус в настоящее время содержит 50 000 подлинников из 150 стран (100 различных фонов L1). Каждый подлинник содержит информацию о родном языке студента, национальности, уровне английского языка, возраста, и т.д. Более чем восемь миллионов слов (или приблизительно 25 000 подлинников) были закодированы для ошибок, используя Учебную Кодирующую Систему Ошибок, развитую издательством Кембриджского университета. CIC является коммерческим корпусом. В настоящее время получить доступ к корпусу могут только авторы текстов и авторы, работающие на издательство Кембриджского университета, а также члены штата в Кембридже ESOL. Первым учебным корпусом устной речи стал корпус** LINDSEI. **Он является разговорной копией ICLE. Первый версия корпуса была составлена на CECL и содержала стенограммы пятидесяти 15-минутных интервью со студентами 3-4-го года обучения. Она содержала приблизительно 100 000 слов. База данных в настоящее время расширяется дополнительными компонентами, представляющими другие языки, включая болгарский, китайский, итальянский, японский, испанский, и шведский. Поскольку большинство учебных корпусов использовало только письменные данные, этот тип данных дает новое исследование относительно широкого диапазона особенностей устного языка межнационального общения.