Электронная библиотека » Михаил Копотев » » онлайн чтение - страница 8


  • Текст добавлен: 19 февраля 2016, 19:40


Автор книги: Михаил Копотев


Жанр: Языкознание, Наука и Образование


сообщить о неприемлемом содержимом

Текущая страница: 8 (всего у книги 11 страниц) [доступный отрывок для чтения: 3 страниц]

Шрифт:
- 100% +

Глава 15. Форматы представления данных

В этой главе мы обсудим технический вопрос, который не очень важен для простого пользователя корпуса. Если вы не компьютерный фрик (англ. freak) и не собираетесь создавать собственный корпус, можете смело пропустить эти страницы.

Когда вы читаете электронный текст, вы, может быть, задумываетесь, в каком виде и где он хранится. Это может быть текстовый файл с расширением. txt, документ, созданный в программе Word (например, doc-файл), интернет-страница (например, html-файл) или файл в формате. pdf. В любом случае в файле хранится текст в определенном виде. Именно это и называется форматом хранения, и в самом простом случае корпус может представлять собой набор необработанных текстов, хранящихся в одном из таких форматов. Мы, однако, договорились, что современные корпуса обычно содержат хотя бы минимальную аннотацию. Ниже я расскажу о форматах хранения на примере морфологически аннотированных корпусов.

В результате процедур аннотирования исходный текст про глокую куздру может приобрести такой вид:



Или такой:

<w> глокая <ana lemma=" ГЛОКИЙ « pos=»П" gram=" жр, им, ед," /></w>

<w> куздра <ana lemma=" КУЗДРА " pos="С" gram=" жр, им, ед," /></w>

<w> штеко <ana lemma=" ШТЕКО" pos="Н" gram=" " />

<w> будланула <ana lemma=" БУДЛАНУТЬ" pos="Г" gram=" дст, прш, жр, ед " /></w>

Или такой:



Все примеры содержат одну и ту же информацию и различаются лишь способом ее представления. Довольно часто аннотация хранится в виде компактного текстового файла (первый пример), разметки с помощью специального языка XML (второй пример) или в виде базы данных (третий пример дает самое приблизительное представление об этом формате). У каждого из этих способов есть свои плюсы и минусы.

1. Самый простой вариант – текстовый файл, в котором каждая строчка соответствует одному морфологическому разбору: токен, лемма, морфологические признаки:



В каждой букве тегсета зашифрован один морфологический параметр. При этом каждая позиция в этом тегсете зарезервирована за определенной категорией: на первом месте – всегда часть речи, на втором – полнозначный/вспомогательный глагол и т. д. Если параметр не применим, то на его месте ставится дефис. Буква определяет, какое значение имеет та или иная категория: V – глагол, m – полнозначный глагол и т. д. По сути, это сжатый до предела морфологический разбор, который мы так любили делать в школе. Основным преимуществом этого формата является относительно малый объем файла, исключительная простота создания и возможность легкой трансформации в любые форматы. Корпус в формате txt можно открыть любым самым простым текстовым редактором. К недостаткам относится сложность организации поиска и неудобочитаемость.

2. Формат XML

Этот формат используется при создании корпусов чаще всего. С его родным братом мы встречаемся ежедневно: близким родственником XML (расширяемый язык разметки, англ. eXtensible Markup Language) является HTML (язык разметки гипертекста, англ. HyperText Markup Language), с помощью которого созданы многие страницы в интернете. Главный принцип и того, и другого языка довольно прост: основная информация дается без скобок, оформление и комментарии – в угловых скобках.

<p><b>звонили</b> <i>к вечерне</i></p>

В этом примере теги <b></b> показывают, что «звонили» выделяется жирным шрифтом, теги <i></i> показывают выделение курсивом, а <p></p> обозначают границы абзаца.

В разметке XML тот же самый принцип используется, чтобы показать, что та или иная единица входит в определенный класс. В следующем примере фрагмент, заключенный в теги <s></s > является предложением, фрагменты внутри тегов <w></w> – токенами, внутри тегов <pun> </pun> стоят знаки препинания.

<s>

<w>Звонили<ana lemma="ЗВОНИТЬ" pos="Г" gram="мн, нс, нп, дст, прш," /></w>

<w>к<ana lemma="К" pos="ПРЕДЛ" gram="" /></w>

<w>вечерне <ana lemma="ВЕЧЕРНЯ" pos="С" gram="жр, ед, дт, пр, но," />

<ana lemma="ВЕЧЕРНИЙ" pos="П" gram="ср, ед, кр," /></w>

<pun>.</pun>

</s>

Кроме этого, XML позволяет добавлять атрибуты (англ. attribute) и приписывать им определенные значения (англ. value). Так, токен «звонили» в примере выше имеет следующие атрибуты и значения:

● lemma="ЗВОНИТЬ", атрибут lemma имеет значение "ЗВОНИТЬ";

● pos="Г", атрибут pos (от англ. part of speech) имеет значение "Г"– глагол;

● gram="мн, нсв, прш" значения атрибута gram легко расшифровываются.

Если внимательно посмотреть на теги текстоформы «вечерне», можно увидеть два варианта разбора: как существительного и как прилагательного. Понятно, что при дизамбигуации один из вариантов исчезнет, но сейчас обратите внимание на то, что это формат позволяет хранить две аннотации без дублирования токена. Таким образом исходный текст остается без изменений. В формате txt, например, для этого пришлось бы вводить новую строку, дублирующую токен еще раз. Корпус в формате XML удобно читать и редактировать с помощью специальных XML-редакторов, доступных в интернете в большом количестве. Этот формат особенно удобен для вывода фрагментов на печать или на экран: можно задать различное оформление по разным тегам, при этом сами теги скрыть для удобства чтения. Однако линейная структура разметки создает трудности при разборе единиц, состоящих из нескольких слов (например, повторяющийся союз «и…, и…»). Кроме того, организация быстрого поиска в таком корпусе – задача куда более сложная, чем в корпусе, представленном в виде базы данных.

3. База данных (англ. database), говоря по-простому, представляет собой множество таблиц, в которых отдельно хранятся текстоформы, леммы, грамматические параметры и другая важная информация. Таблицы связаны между собой, поэтому не нужно каждый раз дописывать текстоформе ее лемму. Достаточно дать ссылку на нужную запись в другой таблице, где хранятся все леммы. Таким образом, повторяющиеся единицы сохраняются в базе только один раз, все остальное решено с помощью связей между таблицами. Однако в итоге получается экономия и места, и – что особенно важно – времени поиска.

Если бы мы создавали корпус стихотворений О. Мандельштама, для строчки «Бежит волна-волной, волне хребет ломая» формат базы данных сохранил бы лемму «волна» всего один раз, связав ее с тремя соответствующими токенами. В разметке в форматах txt и XML лемму пришлось бы повторять каждый раз при каждом токене. Для поиска всех вхождений этой леммы в корпусе, хранящемся в формате txt или XML, вам понадобится искать по всему тексту, перебирая строчку за строчкой. В базе данных достаточно найти лемму «волна», к которой уже привязаны все токены с указанием их места в конкретных предложениях. Поиск – основное преимущество баз данных.

Ссылки и связи могут быть страшно запутанными. Собственно, сложность создания баз данных является основным минусом этого формата. Кроме этого, при прочих равных условиях базы данных требуют более мощных компьютеров, чем два предыдущих формата. Для редактирования и работы с корпусом в формате базы данных необходимо изучить специальные (и довольно сложные) программы, самая известная из них – Access компании Microsoft.

Существуют и более сложные, гибридные, форматы, совмещающие плюсы перечисленных выше. В любом случае выбор формата представления данных зависит от множества, так сказать, экстралингвистических факторов, прежде всего от профессионализма создателя и наличия технических ресурсов. Лингвисту, работающему с корпусом, достаточно знать лишь основные отличия этих форматов. Основной, собственно корпусной проблемой в этой связи можно считать не проблему формата, а отсутствие договоренности о том, каким значком передавать тот или иной тег, поскольку общепризнанных стандартов представления информации в текстах нет. Международный консорциум Text Encoding Initiative (TEI) разрабатывает и предлагает стандартизированные средства разметки корпуса (www.tei-c.org); проект MULTEXT-East расширяет рекомендации TEI для славянских (в том числе для русского) языков (nl.ijs.si/ME). Так что если вам придется создавать собственный корпус, я рекомендую прислушаться к советам этих уважаемых организаций.

Дополнительная литература

1. Erjavec T (ed). MULTEXT-East Multilingual Morphosyntactic Specifications, Version 4. Доступно по адресу: nl.ijs.si/ME/V4/msd/html.

2. Ide N., Bonhomme P., Romary L. An XML-based Encoding Standard for Linguistic Corpora // Proceedings of the Second International Conference on Language Resources and Evaluation. 2000. Р. 825–830.

3. Sharoff S. et al. Designing and Evaluating a Russian Tagset // Proceedings of the Sixth International Conference on Language Resources and Evaluation (LREC’08). Доступно по адресу: www.lrec-conf.org/proceedings/lrec2008/summaries/78.html.

4. Sperberg-McQueen C. M. et al. (ed.). Guidelines for electronic text encoding and interchange. Chicago and Oxford: Text Encoding Initiative, 1994. Vol. 1.

Задания

1. В строке «звонил звонить Vmps-sma-p–» попробуйте сначала сами определить, что значит каждый тег, а потом проверьте себя, ознакомившись с руководством, расположенным по адресу: www.ling.helsinki.fi/projects/hanco/mte.

2. Предположите, чем отличается использование тегов <w> и <ana>, например, в следующей записи: <w>к<ana lemma="К" pos="ПРЕДЛ" gram="" /></w>. Какие формальные отличия есть между ними?

3*. Электронные словари, как правило, представляют собой файлы в XML-разметке (часто это специально созданные варианты XML). Объясните, почему XML-формат наиболее удобен для хранения словарей.

Глава 16. Количественные методы

Одно из главных преимуществ использования корпуса заключается в том, что количество найденных примеров точно подсчитано (конечно, при условии, что запрос составлен верно и результаты не содержат ошибок). Другими словами, мы получаем цифры и можем указать конкретное количество интересующих нас языковых явлений в отличие от таких размытых, но встречающихся в лингвистических исследованиях формулировок, как «широко распространено» или «так никто не говорит».

«Вертится, как уж на сковородке» – говорю я про свою маленькую дочь. Корпус уточняет: 6 раз она вертится «как уж», 3 раза – «как карась»; 2 раза – «как угорь»; а еще по разу – как «щука», «кефаль», «змея» и «вошь». Ясно, что в эту конструкцию легко включаются одушевленные существительные только определенного типа. «Как филе на сковородке» – так моя дочь не вертится.

Имея на руках цифры, мы не сможем обойтись без математики – довольно простой или достаточно сложной. Ниже я объясню базовые математические приемы работы с корпусными данными. Большая часть из них используется не только в корпусной лингвистике, но некоторые приемы были разработаны специально для корпусных исследований.

Частота встречаемости

Количество «ужей» и «щук» в приведенном выше примере называется абсолютной частотой (англ. absolute frequency). Поскольку они извлекались из одного и того же корпуса – НКРЯ, их можно сравнивать напрямую. Например, построить график, на котором по вертикальной оси расположить частоты, по горизонтальной – лексемы. Порядковый номер лексемы в этом списке называется рангом (англ. rank): слово с рангом 1 – самое частое и т. д. На графике ранги приведены в скобках перед словом. Лексемы с одинаковой частотой имеют один ранг и называются одноранговыми (в нашем примере четыре слова имеют одну и ту же частоту (1) и, следовательно, один и тот же ранг – 4). Правая часть распределения слов образует так называемый «длинный хвост» (англ. long tail) одноранговых низкочастотных слов.



Этот скромный график иллюстрирует одно из фундаментальных свойств языка: распределение частот лексем соответствует так называемому распределению Ципфа (англ. Zipf’s law). Закон носит имя первооткрывателя – американского лингвиста Джорджа Ципфа. Он устанавливает следующую закономерность: частота любого слова в упорядоченном по частоте списке лексем приблизительно обратно пропорциональна его рангу. Закон Ципфа как эмпирическая закономерность работает только на достаточно длинных текстах, поэтому наш пример не совсем корректен. Его можно считать лишь иллюстрацией, которая показывает, что имеющее ранг 2 слово карась встречается в 2 раза реже, чем самое частое слово уж (ранг 1), а угорь (ранг 3) – в 3 раза реже, чем первое.

Именно из закона Ципфа вытекает одно приятное следствие для тех, кто изучает иностранный язык: первая тысяча самых частотных слов покрывает от 70 до 90 процентов любого текста (точный процент зависит от выбранного языка и жанра). Кажется, что достаточно выучить тысячу слов, чтобы начать говорить…

Но часто бывает так, что корпуса или подкорпуса различаются по объему, так что сравнить найденное количество примеров невозможно. В таком случае полученные результаты переводят в доли от общего объема корпуса, в котором осуществлялся поиск. Такая частота называется относительной (англ. relative frequency).

В художественных текстах Льва Толстого лексема война встречается 349 раз, а в текстах Алексея Толстого – 347 раз. Но это не значит, что они одинаково редко употребляли эту лексему. Дело только в том, что в НКРЯ объем текстов Льва Николаевича – 1 245 267 текстоформ, а Алексея Николаевича – 584 677 текстоформ. Почти в два раза меньше. Если рассчитать, сколько процентов от объема текстов каждого писателя составляет «война», то мы получим:

● Доля лексемы война в текстах Л. Н. Толстого: 349 / 1 245 267 × 100 ≈ 0,028%;

● Доля лексемы война в текстах А. Н. Толстого: 347 / 584 677 × 100 ≈ 0,059%.

Напомню, что процент – это одна сотая доля. Если полученные доли оказываются слишком малы (как в нашем случае), их удобнее представить не в процентах, а в промилле (принимая весь объем не за 100, а за 1000): 0,28‰ и 0,59‰ соответственно. Никакой содержательной разницы между представлениями данных в процентах и промилле нет.

Очень часто для сравнения частот найденных лексем или словоформ используют еще один прием выравнивания, близкий к вышеприведенным. Для абстрагирования от реального размера корпуса рассчитывают, сколько раз эта единица встретилась бы в условном корпусе, равном миллиону словоупотреблений.

Привлеченные тексты А. Н. Толстого составляют 584 677 текстоформ. В этом объеме слово война встретилось, как мы установили, 347 раз. Если бы А. Н. Толстой написал в два раза больше и объем его текстов был бы равен миллиону словоупотреблений, мы бы ожидали, что лексема «война» встречалась бы с частотой: (347 / 584 677) × 1 000 000 ≈ 593,49 ipm (англ. instances per million, частота на миллион).

Эта относительная мера частотности является, по сути, стандартом представления лексической частотности и используется, например, в «Частотном словаре современного русского языка» О. Н. Ляшевской и С. А. Шарова. Вообще, основное преимущество относительной частоты состоит в том, что полученные цифры можно сравнивать, даже не зная объема корпусов.

Средние величины

Среднее арифметическое

В 2013 году немцы потеряли свое самое длинное официально употребляемое слово:

Rindfleischetikettierungsüberwachungsaufgabenübertragungsgesetz

63 буквы плюс сломанный язык. Самое короткое немецкое слово – О, одна буква.

Эти данные имеют интерес для Книги рекордов Гиннеса, но не для реальных задач. Лингвистам важнее знать не минимальные и максимальные значения, а среднюю длину слов. Это необходимо, чтобы рассчитать, например, размер рекламного окна с бегущей строкой. Эта величина называется среднее арифметическое (англ. arithmetic mean, average) и подсчитывается как сумма всех значений, деленная на их количество.

Если бы в нашем распоряжении были только два приведенных выше немецких слова, то среднее арифметическое составило бы

Все равно слишком много! Однако если взять не два слова, а большой корпус немецкого языка, то средняя длина слова составит около 5,7 знака. Уже лучше. Как вы думаете, средняя длина русского слова больше или меньше немецкого?

Нас не должно смущать, что средняя длина содержит знаки после запятой. Конечно, в реальности не существует слов длиной в полторы буквы, но при выполнении операции деления при вычислении средней длины результат может быть не целым, а дробным.

Медиана

Не хотелось бы повторять старую шутку о том, что есть ложь, большая ложь и статистика, но стоит объяснить, почему она родилась и как исправить это положение. Дело в том, что явления реального мира часто подчиняются не одному закону, а сразу множеству разнообразных тенденций. Статистка пытается находить общее в том, что может и не поддаваться обобщению. Чем больше уникальных черт у явления, тем чаще статистика дает сбой. Неверно установленные закономерности – вполне возможный риск, особенно когда мы имеем дело с авторским языком и яркой индивидуальностью. Конечно, для анализа индивидуального стиля какого-нибудь автора эти особенности имеют первостепенное значение, но, если мы хотим выяснить что-то более общее, то необходимо сгладить влияние этих помех.

Предположим, авторы орфографического словаря решают, стоит ли разрешить написание местоимения «фсе» (Яндекс, между прочим, выдает почти миллион примеров такого употребления). Для решения этого вопроса можно собрать корпус художественных текстов (я собрал для примера не очень представительный корпус, но все цифры реальные). Теперь можно подсчитать, как часто русские писатели XXI века употребляют местоимение «фсе».


Понятно, что среднее арифметическое (1,5 слова на текст) не дает содержательного ответа – слишком уж резко текст В. Пелевина (а точнее, реплики одного героя под ником Sliff_zoSSchitan) отличается от всех других. Интуиция подсказывает, что это текст экспериментальный и его не надо учитывать. Но как математически корректно объяснить это «неучитывание»? Для устранения такого рода помех, резко выделяющихся из общей массы явлений, статистика используют целый набор специальных приемов (их называют робастные методы, или методы робастного оценивания (англ. robust methods)). Они позволяют получать достаточно надежные оценки статистической совокупности с учетом неясности закона ее распределения и наличия существенных отклонений в значениях данных. Другими словами, они выявляют данные, которые резко отличаются от других. Один из основных и самых простых получил название медиана (англ. median). Медиана – это значение признака, справа и слева от которого находится равное число наблюдений (по 50 %). Этот параметр (в отличие от среднего значения) устойчив к «выбросам», то есть к резким индивидуальным отклонениям. Заметим также, что медиана может использоваться и в случае нормального распределения – в этом случае медиана совпадает со средним значением.

Для подсчета медианы нужно выстроить все данные по возрастанию или убыванию (что мы уже сделали – от 1 до 6) и найти строчки, которые находятся точно посередине списка (в нашем случае это строки 3 и 4, выделенные жирным шрифтом). Среднее арифметическое значений в этих строчках и будет медианой:

Если строк нечетное количество, то медианой будет значение в середине упорядоченного списка. Исходя из медианы, написание «фсе» еще недостаточно распространено, чтобы быть включенным в словарь.

Итак, медиана – это числовое значение, находящееся посередине в ряду чисел. Это как если бы мы вывели из строя человека, стоящего ровно посередине этого строя. Медиана и среднее арифметическое могут быть близки или даже совпадать. Это происходит, если в выборке нет резких, исключительных случаев.

Мода

Вы знаете, почему максимальная длина SMS– или твиттер-сообщения составляет 140 знаков? Эта цифра была выбрана не случайно. В далеком 1985 году немецкий инженер Фридхельм Хиллебранд провел исследование и выяснил, что большинство текстов новостных сообщений и почтовых открыток имеет объем около 140 знаков. Средняя длина этих сообщений была, конечно, гораздо большей: новости могут быть довольно длинными.

Величина, которая указывает не среднее, а самое часто встречающееся значение, называется мода (англ. mode). Использование моды особенно эффективно для анализа качественных данных, которые не могут быть сведены к среднему арифметическому.

Диаграмма снизу показывает распределение прилагательных мужского, женского и среднего рода в НКРЯ. Среднее арифметическое для трех родов вычислить невозможно в силу того, что содержательно распределение по родам не может быть усреднено. Мода в этом случае позволяет математически точно определить, почему в словарях в качестве заголовочного слова, например для прилагательных, целесообразно использовать форму именно мужского рода. Никакого сексизма – чистая арифметика.


Распределения

Анализируя тексты двух писателей, мы исходили из того, что в нашем распоряжении находятся все тексты, написанные ими. На самом деле ситуация сложнее. Часто (если честно, почти всегда) мы оказываемся в ситуации, когда «весь объем» недоступен или вообще неопределим. Так, каким бы большим ни был корпус, он не равен всему объему текстов, созданных на этом языке в определенный промежуток времени. Всегда найдется пример, отсутствующий в корпусе, однако репрезентативный корпус позволяет определить не точное число всех употреблений в прошлом, настоящем и будущем, а обобщение или тенденцию. В таком случае мы имеем дело с выборкой, лишь приблизительно соответствующей реальной картине. Для работы с такого рода выборками существует хорошо развитый аппарат математической статистики, о котором мы здесь говорить не будем (желающих отсылаю к очень полезным книжкам (Головин 1970) и (Rasinger 2008); последняя хороша тем, что объясняет, как использовать в лингвистической работе программу Excel). Ниже я приведу несколько базовых приемов, которые позволят без погружения в сложную математику оценивать полученные результаты.

Среднее квадратичное отклонение

Собрав материал даже из самого большого корпуса, мы не можем сказать, что в языке дело обстоит именно так: дело обстоит более или менее схожим образом. Это «более или менее» обычно оценивают с помощью среднего квадратичного отклонения (англ. standard deviation) – смещенного или несмещенного, которые отличаются только знаменателем дроби (n или n-1; для нас эта разница несущественна):



Пошагово это значит, что мы должны найти разность между наблюдаемым значением x1 и средним арифметическим от всех значений, которое обозначается как , возвести эту разность в квадрат , повторить операцию для каждого из наблюдаемых значений x1, x2, … xn найти сумму квадратов полученных разностей



поделить полученную сумму на количество – ов (n, или n-1) и, наконец, извлечь квадратный корень. К счастью, среднее квадратичное отклонение (как смещенное, так и несмещенное) можно вычислять автоматически с помощью онлайн-сервисов или программ, например Microsoft Excel или его бесплатного аналога LibreOffice Calc. Чтобы не запутать окончательно, перейду к конкретному примеру.

В двух романах Льва Толстого лексема война встретилась 10 и 273 раза, а у Алексея Толстого та же лексема встретилась 16 и 30 раз.



Посчитаем значение несмещенного среднего квадратичного отклонения для романов Льва Толстого. Поскольку объемы романов разные, возьмем не абсолютные цифры, а относительные – в ipm (правая колонка). Вначале определим среднее арифметическое от всех значений x:



Далее подставим это значение в основную формулу и получим:



Аналогичным образом вычисляем данные для Алексея Толстого:



Проведя эти вычисления с помощью стандартных функций (в программе Excel это СТАНДОТКЛОН.Г (англ. STDEV.P), в Calc – STDEVP), мы получим эти же значения гораздо быстрее. Результаты интерпретируются следующим образом: чем меньше цифра, тем более плотно и равномерно распределены лексемы. Содержательно это значит, что в романах Алексея Николаевича слово война используется примерно одинаковое количество раз, а вот у Льва Николаевича оно используется неравномерно. Конечно, в таблице и без всяких вычислений видно, в каком романе чаще, но что делать, если романов не четыре, а, скажем, две сотни?

Коэффициент корреляции и критерий согласия

Для сравнения данных и установления взаимосвязи между ними используется два метода, немного отличающихся друг от друга. Первый, более простой в использовании, называется линейным коэффициентом корреляции Пирсона (англ. correlation coefficient, Pearson's R) и устанавливает линейную зависимость между двумя случайными величинами. Коэффициент Пирсона подсчитывается c помощью сложной формулы, запоминать которую нам не нужно, потому что за нас все сделает программа Excel. На всякий случай вот она:


Проверим с помощью этой формулы следующую гипотезу: род прилагательных и местоимений-существительных зависит от рода существительных. Вот их количество в НКРЯ:

Поместим эти данные в таблицу Excel или Calc и применим функцию КОРРЕЛ (англ. CORREL в обеих программах) сначала для пары существительные – прилагательные (полученный результат ≈0,99), а затем для пары существительные – местоимения (полученный результат ≈-0,28). Что это значит? Значения коэффициента корреляции всегда находятся в диапазоне от -1 до +1, при этом:

● если коэффициент корреляции стремится к нулю, то данные линейно независимы друг от друга;

● если коэффициент корреляции стремится к 1, то имеется корреляция данных; при этом увеличение числа существительных приведет к увеличению числа согласованных прилагательных, т. е. существует прямая линейная зависимость между случайными величинами;

● если коэффициент корреляции стремится к -1, существует обратная линейная зависимость между случайными величинами;

Наши данные показывают сильную прямую корреляцию для пары существительные – прилагательные (практически единица), то есть увеличение числа существительных, например, мужского рода приведет к увеличению прилагательных мужского рода. Что верно. А вот значение коэффициента корреляции для местоимений равно отрицательному числу, то есть корреляция обратная: чем больше существительных определенного рода, тем меньше соответствующих местоимений. Это, в принципе, верно, но поскольку само значение (-0,28) близко к нулю, точнее будет сказать, что никакой зависимости в этой паре просто нет.

Часто в лингвистических работах используется и критерий согласия Пирсона, или тест χ² (читается «хи-квадрат», англ. test for independence, Pearson's chi-squared test). Основная сложность его использования связана с предположением, что исследуемые данные распределены более-менее одинаково, а это для языка не всегда верно. Вот формула:



В этой формуле Oi – это наблюдаемые, а Ei – ожидаемые значения, они должны быть близки, если гипотеза верна. В принципе, если понять, что такое наблюдаемые/ожидаемые значения и использовать указанные программы, то применение этого теста не представляет больших трудностей. Поясню на примере.

Предположим, что частотность падежей русских существительных в церковно-богословских текстах (это наблюдаемые данные) ничем не отличается от обычного распределения в общем корпусе (это и есть ожидаемое распределение). В таблице ниже – данные из НКРЯ. Есть ли отличия? Насколько они значимы?

Вычисление включает несколько шагов, которые подробно описаны, например, в книге Б. Н. Головина, но мы опять можем опустить их, поскольку программа сделает все за нас. Применим к этим данным соответствующую функцию: в программе Excel – ХИ2.ТЕСТ (англ. CHISQ.TEST), в Calc – CHITEST, указав первую колонку как ряд «наблюдаемых», а вторую – как ряд «ожидаемых» данных. Полученное значение равно ≈0,76. Как интерпретировать эту цифру? В общем случае чем ближе цифра к единице, тем ближе сравниваемые данные друг к другу (результат, равный единице, означает, что данные в двух группах подчиняются одному и тому же распределению). Такого в языковых данных практически не встречается, поэтому принято считать, что если полученная величина попадает в диапазон 0,95-1, то гипотезу о близости распределений можно считать верной. Наша цифра меньше порогового значения 0,95. Это значит, что падежи в подкорпусе церковно-славянских текстов ведут себя не так же, как и в общем корпусе. Дальнейшее – предмет собственно лингвистических разысканий, какие падежи и почему употребляются в церковно-богословских текстах чаще. По таблице видно, что среди прочего частотность дательного падежа в этих текстах больше, чем в общем корпусе. Оно и понятно, ибо «Пою Богу (дат. пад.) моему, дондеже есмь».

Анализ сочетаемости слов (коллокаций)

Корпусная статистика позволяет выявлять частотность не только отдельных единиц, но и вероятность их совместной встречаемости. С помощью корпуса можно выяснить, насколько единицы связаны друг с другом, предсказать, что встретится после того или иного слова или грамматического показателя.

Попробуйте восстановить выражения: англ. «jumping up and …», нем. «Ohne Fleiß kein …»; фр. «donner sa langue aux …»; рус. «умирать так с …». Легко, не правда ли? Особенно, если вы знаете, в каком корпусе искать. Однако корпусной анализ позволяет уточнить, что вероятность появления текстоформы «музыкой» в последнем примере является хотя и очень высокой, но не единственно возможной.

Устойчивые сочетания слов в корпусной лингвистике называются коллокациями (англ. collocation). Это явления шире, чем традиционные фразеологизмы. Например, предлог в (его называют первым коллокатом, англ. collocate) в русских текстах устойчиво сочетается с текстоформой Москву (второй коллокат), что не превращает коллокацию «в Москву» во фразеологизм, хотя потенциально коллокации – естественный источник пополнения списка фразеологизмов.

Для поиска коллокаций удобно воспользоваться корпусом n-грамм. Напомню, что такого рода корпус состоит из автоматически нарезанных, одинаковых по размеру фрагментов «нормального» корпуса. Микрокорпус биграмм стихотворения И. Бродского выглядел бы так:

Изо рта

рта,

, сказавшего

сказавшего все

все,

, кроме

кроме «

«Боже

Боже мой

мой»

«,

, вырывается

вырывается с

с шумом

шумом абракадабра

абракадабра.

Наша интуиция подсказывает, что часть сочетаний более частотна (изо рта, Боже мой), а часть – встречается исключительно редко (мой», шумом абракадабра). Компьютер помогает подтвердить интуицию цифрой.

В самом простом случае можно создать (или взять уже готовый) достаточно большой корпус биграмм (триграмм, n-грамм) и расположить все сочетания по убыванию частоты. C большой вероятностью вверху списка окажутся самые устойчивые сочетания. Это очень простой и небесполезный прием. Однако чаще для выявления связи текстоформ или лемм используют специальные инструменты, которые основываются на предположении, что совместная встречаемость единиц в составе коллокации должна быть выше, чем у каждой из них по отдельности. Эти специальные инструменты получили называние меры устойчивости (англ. lexical association measures). Ниже я расскажу о двух из них.


Страницы книги >> Предыдущая | 1 2 3
  • 5 Оценок: 1

Правообладателям!

Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.

Читателям!

Оплатили, но не знаете что делать дальше?


Популярные книги за неделю


Рекомендации