Фундаментальные+корпуса+текстов

В течение последних десятилетий во многих странах ведется работа над созданием корпусов текстов на национальных языках. Наиболее интенсивно идет строительство корпусов английского языка, первые из которых появились еще в 60-е годы: это уже упомянутые выше [|Brown University Corpus] и [|Lancaster/Oslo-Bergen Corpus (LOB)]. Текстовое содержимое каждого из них включает примерно один миллион словоупотреблений и снабжено морфологической разметкой. Помимо этого, Lancaster/Oslo-Bergen Corpus имеет в своем составе два подкорпуса - Leeds-Lancaster Treebank и Lancaster Parsed Corpus, - снабженных синтаксической разметкой. Самым крупным в настоящее время является также уже упомянутый выше Британский Национальный Корпус (BNC), объем которого достигает ста миллионов словоупотреблений. Корпус начал создаваться в 90-х годах, примерно на 90% он состоит из письменного материала и на 10% – из речевых записей. Содержимое корпуса размечено морфологически. Кроме названных, существуют и другие корпуса английского языка, перечень которых можно найти на Интернет-сайте Ланкастерского университета.

Из текстовых корпусов, созданных для других европейских языков, стоит упомянуть о корпусе Института немецкого языка в Маннгейме. Это крупнейшее собрание текстов и речевых записей на немецком языке, включающее около 1903 миллионов словоупотреблений. Корпус содержит основанную на SGML морфосинтаксическую разметку, разработанную в соответствии с рекомендациями TEI. Автоматизированная система COSMAS II, которой снабжен немецкий корпус, позволяет осуществлять поиск среди содержимого корпуса по морфологическим признакам словоформ. Весьма представителен чешский корпус текстов, содержащий около 100 миллионов словоупотреблений. Лингвистическое программное обеспечение, сопровождающее корпус, составляют программа построения конкорданса, то есть программа, позволяющая получить все примеры употребления той или иной словоформы вместе с контекстами, в которых она встречается, включая частоту вхождения словоформы в корпус, и морфологический анализатор, который помимо собственно морфологического может выполнять также и контекстный анализ, служащий для разрешения грамматической омонимии

Самые популярные, распространенные, важные корпуса текстов. Название Год Количество словоупотреблений Язык 1 BUC 1964 1 000 000 Англ.(USA) печатный 2 AHI 1971 5 000 000 Англ.(USA) печатный 3 LOB 1978 1 000 000 Англ.(G.B) печатный 4 Birmingem corpus 1987 20 000 000 Англ.(G.B) печатный 5 Kolhapur corpus 1988 1 000 000 Aнгл.(Индийский) 6 TOSCA 1988 1.5 000 000 Англ.(G.B) печатный 7 SEU Corpus 1989 1 000 000 Англ.(G.B) печатный 8 CHILDES 1990 20 000 000 Aнгл.(детский) устный 9 Nijmengen 1991 132 000 000 Англ.(G.B) печатный, устный 10 LLELC 1991 50 000 000 Англ. печатный, устный 11 Map Task Corpus 1991 147 000 000 Англ.(Scotland) устный 12 LCLE 1992 10 000 000 Англ. печатный (для иностранцев) 13 SEC 1992 53 000 000 Англ.(G.B) устный 14 Wellington Corpus 1993 1 000 000 Англ.(Новозеланд.) печатный 15 POW 1993 65 000 000 Англ.(детский) устный 16 [|BNC 1995 100 000 000 Англ.(G.B) устный, письменный, печатный] 17 Corpus of Spoken 1991 2 000 000 Англ.(USA) устный 18 ICLE 1997 200 000 000 Англ. письменный (для иностранцев) 19 Bank of English 1997 320 000 000 Англ.(G.B) печатный 20 [|Национальный корпус Русского языка] 21 [|Чешский национальный корпус] 22 [|Хорватский национальный корпус] 23 Португальский корпус 24 [|Русский корпус Университета Тюбингена] 25 [|Англо-норвежский параллельный корпус] 26 [|The Canadian Hansard: параллельный англо-французский корпус]