Читать книгу "Введение в корпусную лингвистику"

Текст добавлен: 19 февраля 2016, 19:40

Автор книги: Михаил Копотев

Жанр: Языкознание, Наука и Образование

сообщить о неприемлемом содержимом

Авторские права соблюдены

Текущая страница: 9 (всего у книги 11 страниц) [доступный отрывок для чтения: 2 страниц]

Скачать книгу

Шрифт:

- 100% +

Тест MI

Первая мера называется MI-тест (англ. MI-test, где MI – это mutual information, ‘взаимная информация’) и вычисляется по формуле:

Двоичный логарифм (log₂) применяется для приведения вычисляемой величины к стандартной размерности, принятой в теории информации (бит). В нашем случае его можно, не думая, добавить при вычислениях в Excel или Calc. Остальное – довольно просто:

F(w₁) – частота первого коллоката в корпусе (например, в),

F(w₂) – частота второго коллоката (например, Москву),

F(w₁, w₂) – частота коллокации W1W2 («в Москву»),

N – общее число словоформ в корпусе.

T-score

Другая мера устойчивости называется t-score и состоит из тех же исходных данных: частоты коллокатов, коллокации и объем корпуса.

Эта формула, может быть, и посложнее, но зато в ней нет логарифма. Обозначения в ней такие же, как и в формуле для MI.

К сожалению, ни той, ни другой формулы нет в предложенных программах, но их можно добавить самостоятельно или найти в интернете готовое решение, не связанное с Excel или Calc. Сложность расчетов искупается легкостью интерпретации результатов: чем выше полученная мера устойчивости, тем более устойчивы найденные сочетания. Установлено, что эти меры позволяют искать устойчивые сочетания разных типов: MI лучше ищет довольно редкие коллокации узкой тематической области (например, термины, составные названия компаний или сочетания имени и фамилии), а t-score лучше справляется с высокочастотными общеязыковыми «эквивалентами слова» (сложные предлоги, вводные конструкции и т. п.). Очевидным недостатком обоих методов является то, что они плохо приспособлены для измерения сочетаний бóльших, чем двусловные.

Эта таблица наглядно показывает, какие коллокации извлекаются из одного и того же корпуса (сообщения РИА Новости) с помощью двух разных инструментов (использованы данные из работы Ягунова, Пивоварова 2010).

Тест MI

MI и t-score не единственные меры устойчивости, использующиеся в корпусной лингвистике. К более редким можно отнести log-likelihood, z-score, Odds, Dice и др. Подробнее о них можно почитать на сайте: collocations.de. Там же доступны программы, которые автоматически вычисляют меры для любого корпуса.

Дополнительная литература

1. Baayen R. H. Analyzing linguistic data. Cambridge, UK: Cambridge University Press, 2008.

2. Gries S. Th. Statistics for Linguistics with R. A Practical Introduction. Berlin, Boston: De Gruyter Mouton, 2010.

3. Oakes M. P., Cakes M. Statistics for corpus linguistics. Edinburgh, UK: Edinburgh University Press, 1998.

4. Rasinger S. Quantitative Research in Linguistics: An Introduction. London: Continuum, 2008.

5. Браславский П., Соколов Е. Сравнение четырех методов автоматического извлечения двухсловных терминов из текста. Доступно по адресу: www.dialog-21.ru/digests/dialog2006/materials/html/Braslavski.htm.

6. Головин Б. Н. Язык и статистика. М.: Просвещение, 1970.

7. Ляшевская О. Н., Шаров С. А. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М.: Азбуковник, 2009.

8. Хохлова М. В. Экспериментальная проверка методов выделения коллокаций // Slavica Helsingiensia 34. Инструментарий русистики: Корпусные подходы / Под ред. А. Мустайоки, М. В. Копотева, Л. А. Бирюлина, Е. Ю. Протасовой. Хельсинки, 2008. С. 343–357.

9. Ягунова Е. В., Пивоварова Л. М. Природа коллокаций в русском языке. Опыт автоматического извлечения и классификации на материале новостных текстов // Сборник НТИ. Серия 2. 2010. № 5. С. 30–40.

Задания

1. В таблице из этой главы посмотрите, какие падежи используются в церковно-богословских текстах чаще, чем в общем корпусе. Попробуйте объяснить, почему.

2. С помощью НКРЯ установите частотность леммы «стушеваться» у следующих писателей: Ф. М. Достоевский, А. П. Чехов, М. Е. Салтыков-Щедрин. Полученные результаты переведите в относительные (например, в проценты) и вычислите для них моду, медиану и среднее арифметическое (можете использовать соответствующие функции в программе Excel). Можно ли на основе этих данных сделать вывод о том, что это слово было распространено у всех писателей, или оно характерно только для некоторых из них?

3. С помощью НКРЯ подсчитайте частоты слова «губернатор» в текстах XIX и XXI веков. Переведите полученные абсолютные данные в относительные и проверьте их с помощью среднего квадратичного отклонения в программе Excel или Calc. Можно ли сказать, что выбранная вами лексема с течением времени стала употребляться чаще или реже?

4*. Познакомьтесь с возможностями поиска в русскоязычных биграммах, доступных на сайте: corpus.leeds.ac.uk/ruscorpora.html. Для этого определите устойчивые коллокации текстоформы «про» с помощью имеющихся на сайте мер устойчивости Mutual Information, T-score и Loglikelihood score. Чем отличаются полученные результаты? Какая мера дает результат, наиболее точно совпадающий с вашей интуицией?

5*. В этой главе мы узнали только об основных приемах математического анализа. Тем, кто хочет получить более полное современное представление о лингвостатистике, я рекомендую познакомиться с бесплатным статистическим пакетом R (www.r-project.org). Можно также посмотреть видеоуроки на русском языке (statinr.blogspot.ru) или прочитать книжку на английском (Gries S. Th. Statistics for Linguistics with R. A Practical Introduction).

Глава 17. Корпусная лингвистика: сферы применения

В предыдущих главах этой книги содержится множество примеров использования корпусов. Иллюстрации, приведенные ниже, расширяют представление о сфере применения, но не преследуют цели полностью описать ее. Они лишь показывают широту и перспективность корпусной лингвистики – раздела языкознания, сугубо прикладного в момент возникновения, но развивающегося в самостоятельную дисциплину и предлагающую в настоящее время как новые теоретические решения, так и конкретные исследовательские и педагогические инструменты для работы с языком.

Конечно, самое простое использование корпуса – подбор контекстов: выбрал подкорпус, нажал «найти слово» и получил все примеры употребления слова Х у писателя N. Но лексикологические исследования могут быть и намного более сложными.

Исследовав русские синонимы со значением «печаль» (печаль, грусть, уныние и т. д.) и «счастье» (восторг, удовольствие, ликование и т. д.), Л. Янда и В. Соловьев (Janda, Solovyev, 2009) установили соответствие между лексемой и ее синтаксическим окружением: разные синонимы используются в разных конструкциях. Например, мы чаще говорим «в унынии», но «с грустью», «в восторге», но «с удовольствием» и т. д. Таким образом можно создать конструкционные профили лексем, позволяющие определять в числовой форме близость синонимов.

Частотные списки лексем активно создавались и использовались задолго до создания современных электронных корпусов. Современные корпуса помогают в создании не только частотных словарей, но и частотных грамматик, содержащих указания на частотность конкретных морфологических категорий. (Если вы выполнили задание 3 к главе 6, то вы уже приняли участие в составлении такой грамматики.)

Частотный лексико-грамматический словарь (Ляшевская 2013) – еще одна новая и важная задача. Традиционные грамматики описывают образование кратких страдательных причастий в русском языке типа (он) любим. Однако на практике большинство таких форм не употребляется, и это означает, что такие формы существуют лишь потенциально. По данным С. Коваля (2006) в НКРЯ причастие любим встретилось 6 раз, видим – 1, понимаем – 0, делаем – 0, просим – 0, читаем – 0, начинаем – 0.

Исследования грамматических явлений тоже чрезвычайно популярны в корпусной лингвистике. Приведу лишь один пример, показывающий новые возможности, которые предоставляет корпусная лингвистика грамматисту.

Русские причастия будущего времени долгое время существовали в языке незаконно – как «человек, не предъявящий [прич. буд. вр.! – MK] никаких свидетельств и пашпортов» (Н. В. Гоголь). Они не описаны ни в одной грамматике, многие лингвисты вообще отрицали их существование. С помощью корпусных методов удалось показать (Влахов, 2010), что они существуют уже много веков и постепенно расширяют круг употребления: сделающий, сумеющий, откроющийся и т. д.

Исследование сочетаний лексем и грамматических признаков уже обсуждалась в главе 16. И это действительно одна из самых популярных тем. Исследуются не только контактно расположенные коллокации типа в течение или в конце концов, но и гораздо более тонко устроенная сочетаемость, которая раньше не попадала в поле внимания лингвистов, потому что простой языковой интуиции уже не хватает.

В работе (Guo 2005) исследуется сочетаемость английских модальных глаголов и демонстрируется, что служебная идиома as well часто сочетается с формами сослагательного наклонения might и условной клаузой, вводимой союзом if. Таким образом, можно говорить о лексико-грамматическом комплексе if … might … as well.

Корпусная лингвистика меняет вектор языкознания с прескриптивного («как правильно») на дескриптивное описания языка («как говорят»). Исследуя корпусные данные, мы часто сталкиваемся с фактами, которые не подтверждают нормативные грамматики и словари или прямо противоречат им. На основе представительного материала, а не субъективных оценок о правильности/ неправильности можно искать ответы на острые, востребованные обществом языковые вопросы. Найденные ответы часто оказываются более объемными и многогранными, чем плоское «можно/нельзя».

Сколько чашек сломано вокруг споров о кофе: черное он(о) все-таки или черный?! Корпус позволяет перевести субъективные разговоры в формат твердых утверждений (цитирую здесь Дмитрия Сичинаву, одного из разработчиков НКРЯ): «Средний род возник в XVIII веке, как минимум, у Новикова. В XIX веке тоже есть кофе среднего рода. Там, где употребляется кофе, он или оно может быть обоих родов. У эмигрантов закрепляется средний род, в СССР – мужской». С кем вы, мастера культуры русской речи?

Корпусные методы с самого возникновения активно использовались в социолингвистических исследованиях, поскольку наличие метаразметки позволяет исключительно легко обобщать языковой материал по возрастным группам, полу, профессии, месту проживания говорящих и т. д.

По данным (McEnery & Xiao 2004), в Британском национальном корпусе (BNC) употребление английского глагола fuck различается по возрастным группам. Чаще всего «выражаются» молодые люди от 15 до 34 лет, что понятно: надо выделиться и обрести авторитет. А вот пожилые люди старше 60 не испытывают такой потребности к самовыражению: крепкое словцо они используют в сто раз реже, чем молодые люди.

Современный человек гораздо больше говорит, чем пишет. И корпусная лингвистика работает не только с письменными текстами. Отдельной и активно развивающейся областью корпусной лингвистики стало изучение устной речи.

Корпус сновидений, о котором уже шла речь в главе 10, состоит из рассказов здоровых детей и детей с различными невротическими расстройствами. Сравнение этих рассказов позволило установить признаки текста, которые свидетельствуют об определенном нарушении. Например, частота употребления союза но или конструкции не X, а Y маркируют невротические расстройства. Последите за своей речью, предварительно познакомившись с исследованием: Кибрик А. А., Подлесская В. И. (ред.). Рассказы о сновидениях. Корпусное исследование устного русского дискурса. М.: Языки славянской культуры, 2009.

Наличие электронных текстов, принадлежащих тому или иному автору, дает возможность расширить круг задач, традиционно решаемых авторской стилеметрией и исследованием художественных текстов. Понятно, что корпус женских романов или конкорданс Ф. И. Тютчева позволяют быстро найти примеры и сосредоточиться на анализе языка художественной литературы или на цветовой метафоре в поэтическом тексте. Но есть и более сложные задачи. Уникальный поэтический корпус в составе НКРЯ дает возможность задать метр, строфику, рифму и другие параметры стиха, что открывает невиданные прежде перспективы для исследователей. Ниже еще один конкретный пример.

Конец жизни русский поэт Константин Батюшков провел в помрачении рассудка, говоря попросту – он сошел с ума. В этом состоянии он написал несколько странных текстов, которые долгое время не считали стихотворениями. Однако внимательный стиховедческий анализ и сопоставление произведений душевнобольного автора с текстами его современников позволили расшифровать и увидеть их связь с долгой традицией русского стихотворчества: «Я памятник воздвиг огромный и чудесный» – вам эта строчка ничего не напоминает? Подробности – в статье Б. Орехова (Орехов, 2013).

Корпусная лингвистика с самого своего возникновения была тесно связна с преподаванием языка, в том числе в иностранной аудитории. Частотные списки давно стали основой для хороших учебных пособий и словарей. Но давно ли вы брали в руки бумажный словарь?

Мы уже привыкли к электронным материалам и предпочитаем онлайн-справочники. Да и этот учебник вы читаете в электронном виде. А как насчет приложения для телефона, которое подсказывает иностранцу, как правильно: болезнь тяжелая или увесистая? Учиться в или при школе? Такое приложение разрабатывается в Хельсинкском университете (Kopotev et al. 2013), оно позволит изучающему иностранный язык (для начала русский) быстро получать ответы на вопрос, какие слова чаще всего употребляются вместе.

Корпусные методы применяются для решения задач судебно-лингвистической экспертизы. Очевидно, самым известным случаем такого рода стало дело Дерека Бентли.

В 1953 году простой английский парень был осужден за участие в убийстве полицейского. Корпусной лингвистики в те годы еще не существовало. Он был помилован лишь спустя сорок пять лет (к сожалению, посмертно). Одним из существенных доказательств невиновности Дерека стали данные корпусного исследования, проведенного Р. Коултардом. Корпусному лингвисту удалось доказать, что продиктованное обвиняемым признание было существенно переработано человеком, привыкшим писать полицейские протоколы (Coulthard 2000).

Близкая к криминалистике задача – установление авторства. Кто написал «Тихий Дон» М. Шолохова? Решению этого острейшего вопроса посвящено одно из первых корпусных исследование в этой области. Группа проф. Г. Хьетсо из Норвегии провела исследование (Kjetsaa et al. 1984) и подтвердила авторство М. Шолохова, используя математические критерии распределения языковых единиц в текстах. С тех пор тематика исследований существенно расширилась: от поиска скрытых цитат в студенческих и диссертационных работах (например, с помощью сайтов antiplagiat.ru и dissernet.org) до поиска плагиата в переводах с другого языка (Turell 2004).

Итак, корпусная лингвистика не маргинальное увлечение любителей компьютера, а широкое по охвату материала и глубине анализа направление современной лингвистики. В целом, для корпусных подходов характерно:

● смещение исследовательской стратегии с изучения нормы («как правильно») на изучение узуса («как говорят/пишут»);

● использование квантитативных методов, позволяющих учитывать частотные характеристики исследуемых единиц, и замена интроспективных оценок материала точными количественными данными об употреблении;

● внимание к контексту в широком смысле (исследование коллокаций, ключевых слов, конструкций);

● автоматическое извлечение информации с помощью поисковых запросов, что может приводить к получению объемного, но не всегда релевантного материала;

● опора на автоматическое аннотирование, не лишенное с точки зрения традиционной лингвистики определенных неточностей и упрощений;

● распространенность «формально-морфологического» подхода, при котором поиск примеров часто основывается на морфологической (или просто на буквенной) форме.

Дополнительная литература

1. Coulthard M. Whose text is it? On the linguistic investigation of authorship //Discourse and Social Life. London: Pearson. 2000. P. 271–87.

2. Guo, X. Modal auxiliaries in phraseology: a contrastive study of learner English and native speaker English // Proceedings from the Corpus Linguistics Conference Series. 2005. Доступно по адресу: www.corpus.bham.ac.uk/PCLC/CL%202005%20xiaotian%20guo.doc.

3. Janda L. A., Solovyev V. D. What constructional profiles reveal about synonymy: A case study of Russian words for SADNESS and HAPPINESS // Cognitive Linguistics. 2009. Vol. 20. № 2. P. 367–393.

4. Kjetsaa et al. The authorship of The quiet Don. Oslo: Solum Forlag, 1984.

5. Kopotev M. et al. Automatic Detection of Stable Grammatical Features in N-Grams // NAACL 2013. 2013. Vol. 13. P. 73–81.

6. McEnery A., Xiao Z. Swearing in modern British English: the case of fuck in the BNC // Language and Literature. 2004. Vol. 13(3). Р. 235–268.

7. Turell M. T. Textual kidnapping revisited: the case of plagiarism in literary translation // Forensic Linguistics: The International Journal of Speech, Language and the Law. 2004. № 11:1. Р. 1–26.

8. Влахов А. В. Причастия будущего времени в русском языке. СПб., 2010. Доступно по адресу: studiorum.ruscorpora.ru/index.php?option=com_docman&task=doc_view&gid=265&tmpl=component&format=raw&Itemid=67

9. Коваль С. А. Роль корпуса в создании реалистичных моделей словоизменительной морфологии. Доступно по адресу: skowal.ru/research/corpora2006.htm

10. Ляшевская О. Н. Частотный лексико-грамматический словарь: проспект проекта // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 29 мая – 2 июня 2013 г.). М.: РГГУ, 2013. Т. 1. Вып. 12 (19).

11. Орехов, Б. В. «Не Аполлон, но я кую сей цепи звенья…»: поздние стихи Батюшкова в свете корпусных данных // Корпусный анализ русского стиха: Сборник научных статей / Отв. ред. В. А. Плунгян, Л. Л. Шестакова. М. Азбуковник, 2013. С. 157–171.

12. Рассказы о сновидениях. Корпусное исследование устного русского дискурса / Под ред. А. А. Кибрика, В. И. Подлесской. М.: Языки славянской культуры, 2009.

Задания

1. Просмотрите любой номер журнала «Вопросы языкознания» за текущий год. Сколько статьей в нем подготовлено с использованием корпусных ресурсов?

2*. Подготовьте реферат на одну из следующих тем:

а) Корпус в руках криминалиста.

б) Корпусные методы в литературоведении.

в) Дескриптивная VS. прескриптивная норма: взгляд корпусного лингвиста.

д) Корпусная лингвистика и машинный перевод.

е) Корпусная лингвистика в школе: практические задания на планшете.

ж) Корпус моей мечты: как сделать корпус, нужный мне.

з) Корпусы VS. корпуса: корпусное исследование современного словоупотребления.

Вместо заключения. Корпусная лингвистика и теория языка

(Часть этой главы написана совместно с проф. А. Мустайоки)

В лингвистике происходит революция, и она связана с языковыми корпусами. Если говорить менее эмоционально, то на наших глазах происходит радикальное изменение методологии лингвистического анализа, в котором корпусная лингвистка играет не единственную, но ключевую роль. Этот поворот ведет к изменению самой теории языка. Законченной теории корпусная лингвистика и связанные с ней дисциплины предложить пока еще не могут, но характерные приметы нового подхода уже могут быть намечены.

Предыдущая научная революция в лингвистике произошла в середине XX века и связана с именем Ноама Хомского. Не так давно в одном интервью великий лингвист так оценил нашу область интересов: «Корпусная лингвистика ничего не значит. Это как сказать, что <…>, предположим, физики и химики решат, что <…> будут записывать на видео, как что-то происходит в мире; они соберут огромное количество видеозаписей обо всем, что происходит, и на основе этого будто бы смогут сделать какие-нибудь обобщения или что-то понять. Но, как вы знаете, ученые так не делают». (Интервью Н. Хомского – Andor 2004: 97)

Если бы вы прочитали такую оценку на первых страницах этого учебника, вы, возможно, не стали бы читать дальше. Но из предыдущих глав ясно, что корпус – нечто больше, чем просто большая коллекция языковых примеров, собрание текстов. Обобщим отличия корпуса от текста (см. (Tognini-Bonelli 2010)):

1. Интуиция или корпус

В XIX веке Вильгельм фон Гумбольдт сформулировал идею двойственной природы объекта своего научного интереса. Дихотомия языка и речи была дополнена и уточнена Фердинандом де Соссюром, Эухенио Косериу, Ноамом Хомским и многими другими.

Что, в конце концов, является объектом изучения в лингвистике? То, что находится в сознании носителей, – язык, или то, что они говорят – речь? А может, этого противопоставления вообще не существует? Двойственный характер объекта исследования конкретизируется в следующем вопросе: на каком основании ученый-лингвист может утверждать, что в языке существует некая языковая форма (лексема, словоформа, синтаксическая структура)? Здесь может быть два разных ответа. Единица существует, поскольку:

● носитель языка считает данную форму правильной (акцент на интуиции);

● носители языка употребляют ее (акцент на языковом материале).

В обоих случаях мы должны определить источник лингвистической информации: мнение каких носителей языка принимается во внимание при определении языка (интуиция самого лингвиста, близкого круга его знакомых, «носителей литературного языка» и т. д.) и какие тексты представляют речь (устные VS. письменные, официальные VS. бытовые VS. художественные тексты).

В большинстве случаев два этих подхода ведут к схожим результатам: и тот, и другой подтверждают наличие, например, в русском языке таких слов и словоформ, как читать или (много) заводов. Однако если спросить носителей языка про слово ложить или форму (много) носок, то ответ будет уже не столь однозначным. Случается, что квалифицированный и образованный носитель языка отрицает существование подобных слов, не замечая их в собственной речи или речи своего окружения.

Конечно, в общих описаниях языка, грамматиках и словарях, строгая шкала «правильно/неправильно» смягчена с помощью стилистических помет типа разг., прост. и т. п., но это не снимает вопроса, на чем они основываются – на интуиции составителя или на широком языковом материале. Уточнение методики лингвистических исследований касается базового принципа любой науки: ученый должен четко определить, что лежит в основе его суждения об изучаемом объекте. В этой связи принято употреблять слово «доказательство» (англ. evidence). Согласно общим требованиям к научному знанию способы и приемы приобретения научной информации должны быть прозрачными в такой степени, чтобы другие ученые могли проверить достоверность результатов исследования, используя ту же самую методику. Это правило называется принципом верифицируемости научного знания.

Народные лингвисты часто отказывают обсценной, матерной, лексике в праве на существование: «Нет таких слов в языке!». Бывало, что и специалисты-лексикографы, исключали ее из словарей. Такая история приключилась, например, со словарями В. И. Даля и М. Фасмера. Но что делать с тем фактом, что одно из этих слов занимает 116-е место (то есть оно очень частотное) по данным корпуса «Один речевой день»? Этот факт не зависит от мнения лингвистов. Его можно перепроверить на материале этого корпуса или уточнить на материале, собранном вами лично.

Я, конечно, не против интуиции – ни в науке (никто не отменяет «Эврику!»), ни в жизни. Но верификация данных, в том числе и интуитивно понятных, становится гораздо более простым делом, если под руками есть корпус.

2. Три подхода к использованию корпуса

Как мы видели выше, по мнению Н. Хомского, корпус не может служить источником для изучения языка. Однако многие ученые не разделяют такого крайнего положения. И в пользу более мягкого решения этого вопроса приводятся веские аргументы. Во-первых, отрицание языкового употребления (и корпусов, его представляющих) в качестве источника для изучения языка приводит к субъективизму. Во-вторых, те языковые элементы, которые сейчас признаются возможными в языке, появились в большинстве случаев как окказионализмы, маргинальные жанровые особенности или даже ошибки, так что четкой границы между правилом и исключением не существует (есть еще один серьезный аргумент, о котором мы поговорим через пару страниц – в четвертой части этой главы). Опора на языковой материал оправдана даже в том случае, когда есть возможность использовать собственное языковое чувство. Но в какой степени можно опираться на корпус? Можно выделить три подхода.

1. Анализ, использующий корпус (англ. corpus-informed analysis/approach) – языковой анализ, при котором корпусные данные используются лишь как источник примеров на естественном языке. Количественного анализа не предполагается, хотя роль интроспекции (языковой интуиции самого исследователя) существенно снижается.

2. Анализ, основанный на корпусе (англ. corpus-based analysis/approach) – языковой анализ, при котором корпусные данные анализируются как качественно, так и количественно, при этом исходные теоретические положения заданы заранее и не меняются в ходе эксперимента. Например, поиск частотности существительных третьего склонения в корпусе не ставит под сомнение существование самого концепта склонения, в том числе и его третьего типа.

3. Анализ, направляемый корпусом (англ. corpus-driven analysis/approach) – языковой анализ, рассматривающий корпус как данные, на основе которых можно выявить закономерности и исключения в языке. Такой анализ предполагает исключение (или минимальное использование) заранее заданных теоретических положений относительно языка. Примером такого подхода может служить автоматическое определение словоизменительных классов, не заданных заранее классификацией частей речи, а извлеченных из корпуса.

3. Количественный переворот

В момент своего возникновения корпусная лингвистика представляла набор инструментов для работы с текстами и не выстраивала собственную теорию. Но уже тогда это направление опиралось на количественные методы. В самом простом случае речь может идти о подкрепленной реальными цифрами констатации того, что какая-то единица используется реже (или чаще), чем другая. В этом учебнике можно найти множество примеров такого рода. Применение даже таких относительно простых приемов количественного анализа, как это было показано в гл. 16, существенно повышает достоверность лингвистических исследований. Однако не существовавшее ранее преимущество заключается в том, что статистические методы и большие объемы данных позволяют получить знания, которые было невозможно извлечь никаким другим способом.

Русские чистовидовые приставки (видеть – у-видеть, писать – на-писать) изучаются на протяжении уже даже не десятилетий, а столетий. Казалось бы, все уже о них сказано. Однако статистический анализ сочетаемости этих приставок со всеми без исключения глаголами, встретившимися в корпусе (а это тысячи лексем), позволил выявить скрытые корреляции между приставками и разными классами глаголов. Оказалось, что эти приставки не такие «пустые», как считалось раньше: у большинства из них кроме значения совершенного вида можно выделить и определенные лексические значения, радиально связанные друг с другом (Janda et al. 2013; контраргументы см. в Зализняк, Микаэлян 2012). Отдельно отмечу, что все черновые данные доступны на сайте: emptyprefixes.uit.no, следовательно, результат можно перепроверить.

4. Теория идиоматизации. Язык и речь

Самое простое определение фразеологизма звучит так: «Idiom is what we beat Chomsky with» (D. Hays), то есть «фразеологизм – это то, с помощью чего мы сокрушим Хомского» (Д. Хэйс). Нельзя сказать, что это самое исчерпывающее определение, но что-то в нем есть.

Лингвисты, выступающие оппонентами Н. Хомского, делают фундаментальные выводы о языке, опираясь не на интуицию, а на корпусные данные. Во многих концепциях особое значение уделяется единицам, бóльшим, чем слово в традиционном понимании, но меньшим, чем предложения/высказывания – речевым штампам, устойчивым выражениям, идиомам. Фразеология в широком смысле перестает быть периферийной областью лингвистики, где хранятся все неправильности и исключения, а осознается как фундаментальное и центральное свойство языка. Один из ведущих представителей корпусной лингвистики Джон Синклер уже в 1991 сформулировал принцип идиоматичности:

Принцип идиоматичности заключается в том, что говорящий имеет в своем распоряжении большое число полуоформленных фраз, которые представляют собой уже готовые единицы, даже несмотря на то, что при анализе и можно разбить на сегменты (Sinclair 1991: 105).

Обсуждение и реализация этого принципа породили огромный список исследований. Назову здесь самые важные: A Grammar of Speech (Brazil 1995), Pattern Grammar (Hunston & Francis 2000) и Linear Unit Grammar (Sinclair & Mauranen 2006). Структурная грамматика определяет каждую единицу, например падеж, в вертикальном противопоставлении – как место в парадигме. В своей последней книге Джон Синклер отрицает иерархичность языковых структур, то есть привычные языковые уровни. Он и его соавтор исходят из линейной природы обработки грамматической информации в тексте и не используют ни традиционную классификацию частей речи, ни глубинные синтаксические структуры.

Говорящие успешно справляются с коммуникативной задачей, даже если грамматика почти полностью отсутствует. Фраза «Моя твоя понимай нету» – это реальный пример из русско-китайского пиджина (сильно упрощенного языка). В этой фразе морфологии нет, но все понятно.

И письменный, и устный текст разворачивается как линейная последовательность звуков или букв. Линеарность и идиоматичность – фундаментальные признаки любого текста.

– Профессор, я готовился к экзамену день и ночь!

– Дорогой мой, что же можно выучить за одни сутки!?

В этом анекдоте сталкиваются идиоматическое и свободное значение словосочетания «день и ночь». В первой строчке – идиоматичное, со значением ‘долго, все время’. Однако вопрос профессора разрушает идиоматичность, обращаясь к буквальному прочтению этой фразы – ‘сутки’. Слушатель анекдота по умолчанию считает «день и ночь» фразеологизмом и только потом обращается к грамматике, конструируя прямое, нефразеологическое значение. На этом и построен механизм шутки: конфликт идиоматического и прямого прочтений. Таковы и приоритеты словаря и грамматики в нашем сознании: по умолчанию выражение конструируется или опознается как уже существующий клишированный оборот, а в случае неудачи мы обращаемся к грамматике.

В современной лингвистике получил развитие подход, основанный на том, что конкретное речевое высказывание является не столько результатом порождения поверхностной структуры из абстрактной глубинной модели, при котором единицы разных уровней как детали конструктора складываются в речевое произведение. Напротив – речевые высказывания строятся из (полу-)готовых к использованию элементов. Носитель языка оперирует речевыми штампами, актуализированными в его сознании в соответствии с частотностью их употребления в речи. Их количество, по мнению ученых, сопоставимо с количеством лексических единиц.

Страницы книги >> Предыдущая | 1 2

Скачать книгу "Введение в корпусную лингвистику"