Читать книгу "Введение в корпусную лингвистику"

Текст добавлен: 19 февраля 2016, 19:40

Автор книги: Михаил Копотев

Жанр: Языкознание, Наука и Образование

сообщить о неприемлемом содержимом

Авторские права соблюдены

Текущая страница: 2 (всего у книги 11 страниц) [доступный отрывок для чтения: 2 страниц]

Скачать книгу

Шрифт:

- 100% +

Глава 3. Самые известные корпуса

Два крупнейших специализированных каталога CLARIN (www.clarin.eu/) и ELRA (http://www.elra.info/) содержат информацию о более чем трех тысячах корпусов. Каждый год появляются новые корпуса, новые форматы и новые типы данных. Значительное число корпусов создается и уже создано для многих языков. Они активно используются как для лингвистических исследований, так и в прикладных целях. Вы можете сами посмотреть, сколько ресурсов создано для английского языка, сколько для русского или для любого другого. Ниже я подробно опишу самые известные и крупные корпуса (список основных корпусов для множества языков можно найти по адресу: www.aclweb.org/aclwiki).

Иноязычные корпуса

1. Британский национальный корпус (British National Corpus, BNC)

http://www.natcorp.ox.ac.uk/; corpus.byu.edu/bnc

100-миллионый корпус разговорных и письменных текстов британского варианта английского языка, охватывающий период конца XX – начала XXI века. Содержит морфологическую разметку.

2. Американский национальный корпус (American National Corpus, ANC)

http://www.anc.org/

22-миллионный корпус разговорных и письменных текстов американского варианта английского языка, охватывающий период конца XX – начала XXI века. Содержит морфологическую, частично синтаксическую разметку и разметку составных имен собственных.

3. Несколько корпусов испанского языка:

Корпус испанского языка (Сorpus del español)

http://www.corpusdelespanol.org/

Содержит тексты XIII–XX веков объемом ок. 100 млн слов. Есть частеречная и металингвистическая разметки.

Корпус современного испанского языка (Corpus del español actual, CEA)

sfn.uab.es:8080/SFN/tools/cea/english

Содержит около 540 млн лемматизированных и морфологически аннотированных слов, извлеченных из Википедии и юридических документов (резолюции ООН и документы Европарламента).

4. Итальянский корпус (Corpus di Italiano Scritto)

corpora.dslo.unibo.it

Содержит современные письменные итальянские тексты объемом около 130 млн слов. Содержит частеречную разметку.

5. Корпус немецкого языка Cosmas II (das Projekt COSMAS II)

http://www.ids-mannheim.de/cosmas2/

Вторая версия немецкого национального корпуса, объединяющая свыше 100 разных подкорпусов общим объемом свыше 8,7 млрд слов. Содержит морфологическую и синтаксическую разметки.

6. Лексическая база данных французского языка FRANTEXT (le corpus Frantext)

artfl-project.uchicago.edu

К сожалению, хорошего национального корпуса французского языка не существует. Доступно только неразмеченное собрание текстов XVIII–XX веков общим объемом более 200 млн слов.

7. Греческий национальный корпус (Εθνικός Θησαυρός Ελληνικής Γλώσσας)

hnc.ilsp.gr/en

Корпус объемом более 47 млн слов разных жанров второй половины XX – начала XXI века. Разметка содержит леммы и части речи.

8. Ланкастерский корпус китайского языка (LCMC, Lancaster Corpus of Mandarin Chinese)

www.lancaster.ac.uk/fass/projects/corpus/LCMC

Корпус объемом около 1 млн единиц представляет тексты, написанные на современном мандаринском диалекте китайского языка. Тексты содержат метаразметку и указание на часть речи.

9. Корпус современного украинского языка (Корпус сучасної української мови)

www.mova.info/corpus.aspx

Корпус объемом 13 млн единиц состоит из четырех подкорпусов (художественные, официально-деловые, поэтические, фольклорные тексты). Существует возможность поиска по токенам, леммам и морфологической разметке.

10. Национальный корпус польского языка (Narodowy Korpus Języka Polskiego, NKJP).

nkjp.pl

Корпус объемом в миллиард слов разговорных и письменных текстов современного польского языка. Содержит неполную морфологическую разметку.

11. Чешский национальный корпус (Český národní korpus, ČNK)

ucnk.ff.cuni.cz

Содержит как современные, так и диахронические подкорпуса, устные и письменные тексты. Часть подкорпусов имеет морфологическую и синтаксическую разметки. Общий объем корпуса – более 500 млн единиц.

12. Словацкий национальный корпус (Slovenský národný korpus)

korpus.juls.savba.sk

Объем корпуса – более миллиарда употреблений, часть корпуса морфологический размечена.

13. Болгарский национальный корпус (Български национален корпус)

www.ibl.bas.bg/BGNC_bg.htm

Основной корпус объемом около 1 млн единиц и 14 параллельных подкорпусов объемом 4 млрд единиц. Корпус содержит частичную морфосинтаксическую разметку.

14. Корпуса древнерусского языка

1) Исторический корпус в составе Национального корпуса русского языка делится на несколько подкорпусов:

● церковнославянский: ruscorpora.ru/search-orthlib.html (объем – ок. 500 тыс. токенов);

● среднерусский: ruscorpora.ru/search-mid_rus.html (объем – ок. 3 млн токенов);

● древнерусский: ruscorpora.ru/search-old_rus.html (объем – ок. 500 тыс. токенов);

● берестяные грамоты: ruscorpora.ru/search-birchbark.html (объем – ок. 20 тыс. токенов).

Объем корпусов стремительно увеличивается, так что к тому моменту, когда вы читаете эти строки там наверняка появились новые тексты. Поиск в историческом корпусе с некоторыми ограничениями аналогичен поиску в основном корпусе: в нем есть богатая метаразметка, леммы, морфологические признаки.

2) Регенсбургский диахронический корпус русского языка (RRuDi)

rhssl1.uni-regensburg.de/SlavKo/korpus/rrudi-new

Корпус содержит 13 древнерусских текстов с возможностью поиска по токену, лемме и по части речи.

3) Рукописные памятники Древней Руси

www.lrc-lib.ru

Сайт содержит корпус древнерусских берестяных грамот, корпус русских летописей и некоторые древнерусские переводные тексты. Основная часть текстов доступна в формате PDF (c возможностью поиска), но часть содержит грамматическую разметку.

4) Великие Четьи-Минеи митрополита Макария

www.vmc.uni-freiburg.de

Электронное издание 12 книг, содержащих жития, поучения и апокрифы, написанные на восточнославянском варианте церковнославянского языка.

5) Проект «Манускрипт»

manuscripts.ru

Корпуса древнерусских и среднерусских текстов, написанных в основном на церковнославянском языке, включает жития, служебные тексты, летописи и т. д. Существует возможность поиска по токену.

6) Корпус северно-русских житий СКАТ

project.phil.spbu.ru/scat

Корпус текстов XV–XVII веков объемом ок. 500 тыс. единиц с возможностью поиска токенов в словоуказателе и перехода к фрагментам текстов.

Корпуса русского языка

В 1985 году в Институте русского языка им. В. В. Виноградова РАН был создан Отдел Машинного фонда русского языка. Это был масштабный проект, объединивший усилия ученых из десятков университетов. К началу 1990-х годов была собрана коллекция текстов художественной литературы, создана программа автоматической обработки текстов (UNILEX) и подготовлено несколько новых, по сути корпусных, словарей. Если бы проект был осуществлен в соответствии с задуманным, корпусные лингвисты уже в 1990-е годы получили бы прекрасные ресурсы и инструменты для работы. К сожалению, этого не произошло по внешним причинам, но менее чем через десять лет корпусные работы вновь стали активно развиваться. Уже в самом начале 2000-х годов возникли проекты БОКР (Большой корпус русского языка, руководитель – С. А. Шаров) и «Русский стандарт» (руководитель – В. А. Плунгян), которые позже стали основой Национального корпуса русского языка. Ниже кратко представлены основные русскоязычные корпуса (подробнее см. Копотев, Резникова 2005; Копотев, Янда 2006).

1. Национальный корпус русского языка (НКРЯ)

www.ruscorpora.ru

Ресурс является крупнейшей коллекций русскоязычных корпусов, сопоставимой с национальными корпусами других языков. Коллекция включает диалектные и литературные, исторические и современные, письменные и устные, оригинальные и переводные тексты. Лингвистическая разметка представлена морфологической, синтаксической и семантической аннотациями. Общий объем доступных корпусов – около 500 млн слов. Дополнительной (и даже уникальной) особенностью этого корпуса является наличие стиховедческой разметки, позволяющей искать стихотворные тексты с заданными параметрами. В настоящее время работа над корпусом активно продолжается.

2. Тюбингенский корпус (ТК)

www.sfb441.uni-tuebingen.de/b1/rus/korpora.html

В основе корпуса лежит старейший общедоступный русскоязычный Упсальский корпус русских текстов (www.slaviska.uu.se/korpus.htm), к материалам которого были добавлены тексты интервью. Ресурс стал первым морфологически аннотированным корпусом по русскому языку, появившимся в интернете в открытом доступе. В настоящее время работа над корпусом завершена.

3. Открытый корпус (Opencorpora)

opencorpora.org

Особенность корпуса кроется в прилагательном «открытый»: он состоит из свободно распространяемых текстов, размечаемых силами волонтеров; корпус доступен для свободного бесплатного использования в рамках лицензии СС (Creative Commons). Проект существует с 2011-го года, и в настоящий момент корпус еще доступен для скачивания. Корпус содержит морфологическую и частично синтаксическую разметки.

4. Хельсинкский аннотированный корпус (ХАНКО)

www.slav.helsinki.fi/hanco

Корпус задуман как составная часть проекта «Функциональный синтаксис русского языка» и предназначен прежде всего для учебных целей. В интернете доступны результаты морфологической и синтаксической разметки. Отличительной чертой корпуса является возможность использовать поиск аналитических морфологических форм (будет читать, читал бы) и точность ручной постобработки.

5. Национальный корпус русского литературного языка (НКРЛЯ)

www.narusco.ru

Корпус задуман как морфологически аннотированная коллекция текстов. По завершении корпус будет максимально репрезентативным, представляя весь лексический состав современного русского литературного языка. Для этого предполагается довести объем корпуса до 100–150 млн словоупотреблений.

6. Система баз данных Интегрум

www.integrum.ru

Коммерческий интернет-ресурс, который включает большинство выходящих в настоящее время публицистических текстов (включая радиопередачи), законодательные документы, справочники, а также некоторое количество художественных текстов. В силу достаточно хорошо развитого языка запросов и удобного разделения материала по типам источников эта поисковая система вполне может быть использована как ежедневно пополняемый мониторинговый корпус. Опыт использования Интегрума в исследованиях разного рода представлен в книге (Никипорец-Такигава 2006).

7. Русский интернет-корпус (I-RU)

corpus.leeds.ac.uk/it

Составленный С. Шаровым русский интернет-корпус является частью многоязыковой и многожанровой коллекции корпусов. Этот корпус содержит богатую метаразметку, а также морфологическую и частично синтаксическую и словообразовательную разметки, выполненные автоматически (Sharoff 2006).

Следующая таблица обобщает основные особенности описанных корпусов.

Таким образом, в распоряжении лингвиста, изучающего русский язык, имеется ряд возможностей обращаться к разным текстовым материалам, обладающим своими преимуществами и недостатками. Интегрум несопоставимо больше по объему, чем все остальные ресурсы (например, слово корпус в разных значениях встречается в нем свыше 2 млн раз; в Национальном корпусе – ок. 20 тыс., в ХАНКО – 3 раза). Однако Интегрум не предназначен специально для изучения русского языка и содержит только сплошные тексты без морфологической разметки. В Национальном корпусе можно осуществлять поиск на представительной выборке текстов XVIII–XXI веков, используя морфологические и семантические параметры и богатую систему жанровых и функциональных признаков текста. ХАНКО лучше подходит для целей преподавания, поскольку содержит более качественное и традиционное аннотирование.

Дополнительная литература

1. Mitrenina О. The Corpora of Old and Middle Russian Texts as an Advanced Tool for Exploring an Extinguished Language // Scrinium. Revue de patrologie, d’hagiographie critique et d’histoire ecclésiastique. 10 (2014) [forthcoming]

2. Mustajoki A. The Integrum database as a powerful tool in research on contemporary Russian // Integrum: mочные меmоды и гуманиmарные науки. М., 2006. С. 50–75.

3. Sharoff, S. Open-source corpora: Using the net to fish for linguistic data // International Journal of Corpus Linguistics. 2006. № 11(4). P. 435–462. Доступно по адресу: corpus.leeds.ac.uk/serge/publications/ijcl06-11-4-proof.pdf

4. Xiao R. Z. Well-known and influential corpora // Corpus Linguistics: An International Handbook. Vol. 1. Handbooks of Linguistics and Communication Science / Lüdeling A. & Kytö M. (eds.). Berlin: Mouton de Gruyter, 2008. P. 383–457.

5. Грановский Д. В., Бочаров В. В., Бичинева С. В. Открытый корпус: принципы работы и перспективы // Компьютерная лингвистика и развитие семантического поиска в Интернете: Труды научного семинара XIII Всероссийской объединенной конференции «Интернет и современное общество». Санкт-Петербург, 19–22 октября 2010 г. / Под ред. В. Ш. Рубашкина. – СПб., 2010.

6. Копотев М. В., Мустайоки А. Принципы создания Хельсинкского аннотированного корпуса русских текстов (ХАНКО) в сети Интернет // Научно-техническая информация. Сер. 2: Информационные системы и процессы. № 6. Корпусная лингвистика в России. 2003. Т. 2. С. 33–36.

7. Копотев М. В., Янда Л. [Рецензия на НКРЯ] // Вопросы языкознания. 2006. № 5. С. 149–155.

8. Резникова Т. И. Славянская корпусная лингвистика: современное состояние ресурсов // Национальный корпус русского языка: 2006–2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009. С. 402–461.

9. Резникова Т. И., Копотев М. В. Лингвистически аннотированные корпуса русского языка (обзор общедоступных ресурсов) // Национальный корпус русского языка: 2003–2005. М.: Индрик, 2005. С. 31–61.

10. Сичинава Д. В. Национальный корпус русского языка: очерк предыстории // Национальный корпус русского языка: 2003–2005. М.: Индрик, 2005. C. 21–30.

Задания

1. Назовите корпуса (любых языков), которые были вам известны до прочтения этой главы. В какие годы они были созданы?

2. Поищите в Гугле или Яндексе сочетание «лингвистический корпус» с ограничением за последний год. Появились ли новые корпуса за это время?

3. Существуют ли корпуса хинди (больше 360 млн говорящих), арабского (больше 320 млн говорящих), бенгальского (больше 200 млн говорящих)? Попробуйте найти их, пользуясь каталогами, поисковыми системами и Википедией.

4*. Взяв за основу приведенную в главе таблицу, описывающую русские корпуса, дайте характеристику найденного в Задании 3 корпуса.

Глава 4. Классификация корпусов

Корпус разговоров у киоска – один из самых экзотических. Он собран в Финляндии и содержит разговоры покупателя и продавца, состоящие из очень коротких реплик. Вот пример полного диалога из такого корпуса.

1. Язык текстов

Самое простое деление корпусов предполагает выделение одноязычных (англ. monolingual), то есть содержащих тексты на одном языке, и многоязычных (англ. multilingual). Многоязычные корпуса в свою очередь могут состоять из разных текстов, возникших, например, в ситуации многоязыкового общения, или одинаковых текстов, переведенных на разные языки. Последние представлены в виде параллельного корпуса (англ. parallel corpus), в котором тексты на разных языках связаны на уровне предложений или абзацев (выравнивание, алайнмент, англ. alignment). Особым типом корпуса является сравнительный корпус (англ. comparable corpus), в котором по определенным одинаковым критериям собраны тексты на разных языках или вариантах языка.

Самая переводимая книга – Библия. Число языков, на которые она переведена целиком или частично, приближается к трем тысячам. Параллельный корпус переводов Библии уже много лет создается в Университете Мэриленд (США) и пока не закончен.

2. Тип текстов

Следующее важное разделение – по типам текстов. Исторически первыми были корпуса письменных текстов – статей или художественных произведений, и вам, наверное, понятно, почему так произошло. Однако лингвисты постепенно избавляются от «письменной» и «литературоцентричной» зависимости. Конечно, в корпусе могут храниться тексты как письменной, так и устной речи, разговорные и публицистические, современные и исторические, такие и сякие. К настоящему времени корпусные лингвисты научились собирать не только письменные тексты, но и аудиозаписи и даже видеозаписи.

В Санкт-Петербурге создается звуковой корпус «Один речевой день» (model.org.spbu.ru). Для сбора материала создатели корпуса предложили 40 добровольцам повесить на шею диктофоны и записывать все (ну или почти все) разговоры в течение целого дня. В корпус войдут как сами аудиозаписи, так и их снабженные аннотацией расшифровки. Уже сейчас известно, что самым частотным словом в этом корпусе оказалось местоимение «я», что легко объяснимо.

Перевод в цифровую форму исторических документов существенно расширяет список текстов, представленных в корпусах. Собственно коллекции исторических текстов существуют уже много веков. У исследователя древнего языка нет возможности уточнить что-то у носителя или обратиться к собственной языковой интуиции, поэтому сбор всех доступных текстов представляется необходимой задачей. Эти коллекции, по сути «доцифровые корпуса», часто становились основой для настоящих электронных диахронических корпусов (англ. diachronic corpus).

Корпус древнейших старославянских текстов включает десяток рукописных книг и несколько надписей и отдельных листков, хранящихся в разных странах по всему свету. Большая часть этого корпуса известна еще с XIX века, но сбор их в единый электронный корпус стал возможен только в наше время. Этот корпус называется Corpus Cyrillo-Methodianum Helsingiense.

Вообще при создании корпуса никаких ограничений на тип текста, кроме технических, не существует. Единственный критерий для отбора – задача, для которой собран корпус. И даже самый странный и маргинальный языковой материал заслуживает внимания лингвиста.

The HCRC Map Task Corpus

Этот корпус был собран в Шотландии и состоит из диалогов, в которых один собеседник объясняет другому маршрут. Все бы ничего, но говорящие разделены непрозрачной перегородкой (то есть не могут использовать жесты) и не имеют общей карты.

3. Жанры текстов

К предыдущей части примыкает и разделение текстов, входящих в корпус, на разные жанры. Корпус может состоять не только из литературных произведений разных жанров (например, фанфик или исторический роман), но и из текстов разговорных, публицистических, исторических и даже ученических.

В течение одного лета 2013 года студенты и ученые записывали диалектные данные в одном районе Архангельской области. В результате появился корпус, созданный на основе этих записей. Он включает тексты одного жанра: рассказы носителей северо-русского диалекта. Этот корпус называется «Язык бассейна Устьи. Корпус северорусской диалектной речи». На сайте www.slavist.de/Pushkino вы сможете послушать, как звучит живая диалектная речь.

4. Представленность языкового материала

Корпус может содержать как полные тексты, так и фрагменты. Фрагментированный корпус обеспечивает лучшую сбалансированность собранного материала.

Брауновский корпус (Brown University Standard Corpus of Present-Day American English, Brown Corpus). Один из первых корпусов был создан в начале 1960-х годов и состоял из пятисот случайно выбранных фрагментов объемом около 2000 слов из текстов 15 разных жанров. При этом доля фрагментов одного жанра соответствовала доле всех опубликованных текстов этого жанра. По замыслу составителей, именно это обеспечило сбалансированность собранного материала.

Особыми типами фрагментированного корпуса могут считаться корпуса n-грамм и конкордансы.

Корпуса n-грамм

Как следует из названия, такой корпус содержит загадочные n-граммы (англ. n-grams) – цепочки, состоящие из идущих подряд двух, трех, четырех и т. д. токенов (их называют, соответственно, биграммы, триграммы, 4-граммы и т. д.).

Вот как выглядит обычный текст и его представление в виде би– и триграмм.

Согласитесь, довольно странный и неудобный вид. Но даже эти короткие фрагменты показывают, что некоторые n-граммы (например, не до) встречаются чаще, чем другие. Следовательно, такой корпус позволяет искать устойчивые сочетания. Примерами фрагментированного корпусов такого типа являются Google n-gram corpus (books.google.com/ngrams/datasets) и корпуса, составленные на основе НКРЯ (ruscorpora.ru/corpora-freq.html)

Конкордансы

Конкордансом (англ. concordance) в корпусной лингвистике называют список найденных примеров (вхождений) нужного токена или леммы в минимальном контексте. Обычно такой контекст представляет собой фрагмент из нескольких единиц слева и справа. Многие современные корпуса предлагают конкорданс в качестве дополнительной возможности вывода найденной информации на экран, такой формат вывода называется KWIC (читается «квик», англ. key word in context). Вообще, конкорданс – не столько корпус, сколько формат показа результатов. Вот пример конкорданса, составленного по запросу «Пушкин – наше»:

5. Типы разметки (аннотация)

Метатекстовая разметка

Самый простой тип разметки – информация о текстах, вошедших в корпус: метатекстовая разметка, или метаданные (англ. metadata). Такая разметка содержит информацию о внешней истории текстов: обстоятельства создания, социальные и возрастные характеристики автора, правила использования корпуса и т. д. Одна из самых подробных схем метаразметки представлена в Национальном корпусе русского языка (она называется паспорт текста).

I.1.

● Автор текста: имя, пол, дата рождения (или примерный возраст)

● Название текста

● Время создания текста

● Объем текста

II.1. Художественные тексты

● Жанр текста: историко-приключенческая, криминальная, любовная литература, сатира и юмор, фантастика и т. п.

● Тип текста: анекдот, боевик, детектив, повесть, притча, рассказ, роман, сказка, триллер, эпопея, эссе и т. п.

● Хронотоп текста: доисторический период, античность, Средние века, Новое время, Россия: 19 век, Россия: 20 век (до 1914), Россия/СССР: война 1914–1918, революция, гражданская война, 20-е гг., 30-е гг., война 1941–1945, послевоенный период (до 1952), 50-е гг., 60–80 гг., перестройка, Россия: постсоветский период.

II.2. Нехудожественные тексты

● Сфера функционирования текста: бытовая, официально-деловая, производственно-техническая, публицистическая, учебно-научная, церковно-богословская.

● Тип текста: автобиография, акт, дневник, договор, документ, закон, заметка, заявление, инструкция, информационное сообщение, кодекс, комментарий, листовка, обзор, объявление, отзыв, отчет, очерк, письмо, постановление, проповедь, путеводитель, резюме, реклама, рекомендация, рецензия, рецепт, сочинение, справочник, статья, учебник, характеристика, хроника, эссе и т. п.

● Тематика текста: бизнес, коммерция, экономика, финансы; война и вооруженные конфликты; дом и домашнее хозяйство; здоровье и медицина; зрелища и развлечения; искусство; криминал; наука (по разделам и отраслям); политика и общественная жизнь; право; производство; сельское хозяйство; спорт; природа; частная жизнь и т. п.

Уже эта информация позволяет проводить исследования по стилистике, истории, региональным вариантам языка. Однако современный корпус обычно оснащен еще более важным арсеналом – языковой разметкой.

Языковая разметка

Лингвистически аннотированный корпус можно представить как набор языковых единиц, для каждой из которых выполнен языковой разбор, примерно так, как это делают школьники, выполняя, например, морфологический разбор. Конечно, такого рода анализ делают не горемычные школьники и часто вообще не люди, а специальные программы, да и хранятся они не в школьных тетрадках. Вот как может выглядеть компактная морфологическая разметка (попробуйте сами разобраться, что значат, например, первые, заглавные, буквы в аннотации):

Многие корпуса предлагают более глубокую разметку, которая содержит информацию о нескольких языковых уровнях. Однако степень проработанности и, так сказать, обязательности той или иной разметки существенно различается. Типам лингвистического аннотирования будет посвящена вся следующая глава, здесь же отмечу, что почти все корпуса содержат сведения о начальной форме, точнее лемме. Многие корпуса предлагают частичное или полное морфологическое аннотирование; редкие – синтаксический разбор; почти нет таких, которые содержат фонетическое и просодическое аннотирование. В общих чертах схемы аннотирования совпадают с разработанным в структурализме и других лингвистических теориях делением языковой системы на уровни: фонетическая, морфологическая, синтаксическая и т. д. Однако встречаются и очень экзотические типы разметки.

Общение на барабанах

Жители племен бóра и окáйна, живущие в северо-западной Амазонии, «общаются» друг с другом с помощью барабанов. Корпус таких сообщений собран в Перу и содержит аннотированные видеозаписи ритуальных церемоний, в том числе расшифровку барабанных диалогов.

6. Объем и полнота данных

Конечно, чем данных больше, тем лучше. Однако исследования показывают, что иногда достаточно корпуса в пару тысяч слов, иногда не может помочь и корпус в миллионы слов. Все зависит от поставленной задачи: для анализа стихотворения О. Мандельштама «Мы живем, под собою не чуя страны» может быть достаточно текста этого стихотворения, для анализа языка романов XIX века нужны тексты романов – не всех, но в достаточном количестве. Корпус, который представляет все разнообразие определенного языка или его подъязыка, называют представительным (англ. representative). Еще раз подчеркну: представительный корпус не обязательно содержит все тексты, но их должно быть достаточно, чтобы судить об общих закономерностях. За корпусами, представляющими весь язык в целом во всех его жанрах и разновидностях, закрепилось название национальные корпуса.

«Национальный» не значит, что корпус принадлежит какой-то нации. Это значит, что корпус представляет национальный вариант какого-то языка. Такое употребление является производным от англ. national corpus (то есть корпус национального варианта какого-то языка, например, British National Corpus «корпус британского варианта английского языка» или НКРЯ – Национальный корпус русского языка).

Национальные корпуса готовятся много лет, часто по государственным программам и в рамках больших проектов. При всей их сбалансированности и полноте такие статичные корпуса не успевают реагировать на быстрые, текущие изменения в языке, особенно в лексике. Для решения этих задач создаются мониторинговые корпуса (англ. dynamic/monitor corpus), которые позволяют следить за языком в режиме реального времени, день в день.

Словечко PR приобрело новое значение летом 2012 года. Как это установить? Информационная система Интегрум (www.integrum.ru) – гигантская ежедневно пополняемая коллекция журнальных текстов – позволяет отслеживать самые новые или очень мелкие движения языка, иногда с точностью до одного дня.

Наконец, существуют относительно маленькие иллюстративные корпуса (англ. corpus of examples), задача которых не представлять весь язык, а лишь иллюстрировать те или иные явления. Такие инструменты незаменимы, например, в учебной аудитории при работе со школьниками или иностранными студентами.

Хельсинкский аннотированный корпус ХАНКО содержит всего 100 тыс. текстоформ. Очень маленький по современным меркам. Но он, единственный в своем роде, содержит разметку в терминах самой популярной синтаксической теории – школьного учения о частях речи и учитывает такие сложные для автоматического анализа формы, как читал бы или буду писать.

7. Тип доступа

Я сторонник копилефта (англ. copyleft, принципы лицензирования свободно распространяемых продуктов – не путать с пиратством!) и считаю, что все данные, которые могут быть публичными, должны быть публичными. Принцип открытости данных хорошо бы распространить не только на прогноз погоды или статистику рождаемости, но и на языковые тексты, разрешив ученым свободно их использовать. Естественно, не для перепродажи, а для улучшения качества преподавания и разработки новых лингвистических программ. Однако, во-первых, со мной согласны не все, а во-вторых, существуют естественные ограничения, связанные с особыми обстоятельствами сбора материала.

Русский эмоциональный корпус (РЭК) состоит из видеофрагментов, фиксирующих различные эмоции. Чтобы собрать такой эмоционально нагруженный материал, авторы корпуса записывали разговоры в паспортном столе (где звучит персональная информация) или реакции студентов на третьей (последней!) пересдаче экзамена в университете. Увидеть материалы корпуса могут только его создатели и участники тайных конференций по корпусной лингвистике.

В целом корпуса обычно бывают:

● свободно распространяемыми (и доступными в интернете);

● доступными по так называемой академической лицензии, для использования в научной некоммерческой деятельности;

● имеющими ограниченный доступ.

Любой корпус – это компромисс между желаемым и возможным, это гигантское количество вложенной энергии, трудолюбия и творчества. В мире великое множество как отдельных корпусов, так и проектов типа НКРЯ, объединяющих множество разнородных корпусов в рамках одной системы.

Общая классификация корпусов

1. Язык или языки корпуса:

а) одноязычные,

б) многоязычные:

1) параллельные (один и тот же текст на разных языках),

2) смешанные (переключение языков, многоязычное общение):

● выровненные (параллельные),

● невыровненные.

2. Тип текстов:

а) письменные тексты,

б) устные (аудиозаписи и видеозаписи),

в) смешанные (мультимодальные).

3. Жанры текстов:

а) литературные,

б) диалектные,

в) разговорные,

г) публицистические,

д) исторические,

е) корпуса второго языка (ученические и т. п.).

4. Тип данных:

а) полнотекстовые,

б) фрагментированные тексты:

1) n-граммный,

2) конкордансный.

5. Типы разметки:

а) неразмеченные,

б) размеченные (аннотированные), с типами разметки:

1) метатекстовая (жанр, время создания текста и т. д.),

2) лингвистическая:

● фонетическая,

● просодическая,

● морфологическая (полная или только частеречная),

● словообразовательная,

● синтаксическая,

● семантическая

● и др.,

3) экстралингвистическая (маркировка эмоций, жестов и т. п.).

6. Объем данных:

а) представительный корпус (национальный),

б) иллюстративный,

в) мониторинговый.

7. Тип доступа:

а) свободно распространяемый,

б) академическая лицензия,

в) ограниченный доступ.

8. Страна создания и авторские права.

Дополнительная литература

1. Lee D. Genres, registers, text types, domains, and styles: clarifying the concepts and navigating a path through the BNC jungle // Language Learning & Technology. Vol. 5. № 3. September 2001. Р. 37–72. Доступно по адресу: llt.msu.edu/vol5num3/pdf/lee.pdf.

Внимание! Это не конец книги.

Если начало книги вам понравилось, то полную версию можно приобрести у нашего партнёра - распространителя легального контента. Поддержите автора!