Проблемная область
Это область реализации языковой системы, содержащая феномены, подлежащие лингвистическому описанию. Проблемная область для конкретного корпуса может быть сколь угодно велика или сколь угодно мала. Всё определяется выбранным объектом анализа.
В идеале проблемная область имеет 2 измерения:
1 языковое измерение, проявляющееся в существовании потенциальной возможности, появления других употреблений, дополняющих массив имеющихся реализаций;
2 речевое измерение, представленное речевыми высказываниями.

В корпусной лингвистике, как правило, языковой аспект фактически игнорируется, т.к. изначально фиксируется область привлекаемых языковых данных – реализации языковой системы. Однако для регулярно изменяемых корпусов данных, языковой аспект проблемной области сразу проявляется при разработке принципов модификации корпуса. Кроме того, для лингвистического исследования (кроме специально оговариваемых случаев) в центре внимания стоит именно языковое измерение, т.к. его следует реконструировать в результате анализа.

Корпус данных представляет собой сформированную по определенным правилам выборку данных из области реализации языковой системы, которая содержит феномены, подлежащие лингвистическому описанию. Корпус данных имеет только одно измерение – речевое, поскольку сам по себе он не обладает потенцией производства своих составляющих. Последнее, однако, не означает, что корпус данных не может использоваться для реконструкции языка как системы. Наоборот, это одна из главных задач лингвистического исследования корпуса. Перед нами одно из глобальных противоречий, свойственное любому продукту языковой системы – от звука до текста. Лингвисту приходиться по отдельным результатам деятельности языка делать выводы о функционировании языка как целого, как системы.

Корпус текстов – это вид корпуса данных, единицами которого являются тексты или их достаточно значительные фрагменты, включающие, например, какие-то отрывки текстов данной проблемной области. В принципе, любой набор более чем одного текста может быть назван корпусом (от лат. corpus – “body”). Часто отдельные тексты используются для разного вида литературного и лингвистического анализов. Однако, понятие корпуса как основы для электронной лингвистики все же отличается от проверки единичных текстов. В.В. Рыков определяет корпус текстов как некоторое собрание текстов, в основе которых лежит логический замысел, логическая идея, объединяющая эти тексты. Логическая идея воплощается в правилах организации текстов в корпус; алгоритме и программе анализа корпуса текстов; сопряжённой с этим идеологии и методологии. По мнению Рыкова, корпус текстов принадлежит к четвёртой фактуре речи (тексты на машинном носителе).
Корпус текстов:
некоторый филологический объект;
организованное словесное множество, элементами которого являются определённым образом отобранные тексты;
организованное определённым образом словесное единство, элементами которого являются тексты или специальным образом отобранные отрывки из текстов.

Единица хранения корпуса
Единица хранения корпуса, пишет А.Н. Баранов, – это некоторая совокупность языковых выражений предметной области, которой сопоставляется одно описание на метаязыке, определяемом процедурой формирования корпуса. Единицами хранения могут быть слова, словосочетания, предложения или целые тексты.
Данные в корпусе могут быть представлены в неструктурированном и структурированном форматах хранения. Во втором случае говорят о размеченном (тагированном) тексте. Существуют семантическая (лексико-семантическая), морфологическая, синтаксическая виды разметок.

Репрезентативность корпуса - «способность корпуса отражать все свойства предметной области, релевантные для данного типа лингвистических исследований, в пропорции, определяемой частотой явления в предметной области» (частота явления в корпусе должна быть близка частоте явления в предметной области). Эта сторона репрезентативности
может рассматриваться как её количественный аспект, а его исследование проводится математическими методами. В то же время есть ещё и качественная сторона репрезентативности, которая исследуется филологическими методами. Репрезентативность в таком случае рассматривается как сбалансированность множества текстов в отношении жанров и функциональных стилей, наличие достаточного размера и выборки по числу текстов и авторов, чтобы служить основой для статистически достоверных исследований в текстах соответствующей тематики. В качестве самого простого варианта
реализации репрезентативности А.Н. Баранов рассматривает пропорциональное сужение предметной области, и в таком случае говорят о пропорциональной стратегии организации корпуса.
Т.е. репрезентативность - это способность отражать все свойства проблемной области. Соблюдаются ли пропорции, которые наблюдаются проблемной области. Простейший способ преобразования проблемной области в корпус это пропорциональное сужение проблемной области. Репрезентативность определяется параметрами: фонетическими, морфологическими, синтаксическими, стилевыми.

Полнота корпуса - требование учёта релевантных явлений, даже если это не соответствует пропорциональному сужению.

Экономичность корпуса - свойство корпуса экономить усилия исследователей при изучении предметной области