Читать книгу "Введение в корпусную лингвистику"

Текст добавлен: 19 февраля 2016, 19:40

Автор книги: Михаил Копотев

Жанр: Языкознание, Наука и Образование

сообщить о неприемлемом содержимом

Авторские права соблюдены

Текущая страница: 3 (всего у книги 11 страниц) [доступный отрывок для чтения: 2 страниц]

Скачать книгу

Шрифт:

- 100% +

2. Resnik P., Broman Olsen M., Diab M.The Bible as a Parallel Corpus: Annotating the ‘Book of 2000 Tongues’ // Computers and the Humanities. 1999. Vol. 33. № 1–2. Р. 129–153. Доступно по адресу: www.springerlink.com/content/u240g32544t26777.

3. Sinclair J. EAGLES Preliminary recommendations on Corpus Typology, EAGLES Document EAG-TCWG-CTYP/P. 1996. Доступно по адресу: www.ilc.cnr.it/EAGLES96/corpustyp/corpustyp.html.

4. Савчук С. О. Метатекстовая разметка в Национальном корпусе русского языка: базовые принципы и основные функции // Национальный корпус русского языка: 2003–2005. Результаты и перспективы. М., 2005. С. 62–88.

5. Савчук С. О., Шаров С. А. Типология текстов для представительного корпуса // Труды международной конференции «Корпусная лингвистика – 2004». СПб.: Издательство С.-Петербургского университета, 2004. С. 352–362.

Задания

1. Пользуясь предложенной классификацией, мысленно «составьте» свой корпус (выберите язык, тип текстов и т. д.). Объясните, в каких исследовательских или учебных задачах его можно было бы использовать.

2. Главный ресурс по русской корпусной лингвистике – Национальный корпус русского языка, расположенный по адресу ruscorpora.ru. Объясните, почему в адресе сайта используется множественное число английского слова corpus – corpora. Зайдите на сайт и выясните, какие виды корпусов там представлены и каков их объем в настоящий момент.

3. Пользуясь описанными выше корпусами, проверьте, как изменялась частотность лемм «советский» и «товарищ» в русских текстах XVIII–XXI веков. Какое из этих слов, по вашему мнению, сохранится в языке и в будущем?

4*. Познакомьтесь с корпусом n-грамм на сайте books.google.com/ngrams. Выбрав русский язык, экспериментально определите максимально допустимое количество слов в n-граммах.

Глава 5. Типы лингвистического аннотирования

Один из основателей корпусной лингвистки Джордж Лич написал однажды, что корпус предлагается пользователю на основе старого римского принципа caveat emptor, что значит «Пусть покупатель будет осмотрителен». Многие из нас скорее согласятся работать с корпусом, содержащим хоть какую-то лингвистическую разметку, чем захотят аннотировать самостоятельно или ждать безупречно подготовленный корпус. Создание корпуса – результат компромисса между «большой» теорией и возможностями ее компьютерной реализации. Из этого вовсе не следует, что всякий корпус несовершенен, но пользователь должен понимать его особенности и ограничения.

В грамматическом словаре А. А. Зализняка мы найдем указание на отсутствие множественного числа у лексемы любовь. В НКРЯ это слово встречается в формах любови, (без) любовей. Дело не в том, что даже в этом очень качественном словаре есть упущения, а в том, что в любом живом языке в результате словотворчества возникают и исчезают лексемы, словоформы и значения – окказионализмы.

Если раньше большое количество сил и времени при создании корпусов-коллекций отнимали сбор материала и перевод его в цифровую форму, то современный корпус легко справляется с этими задачами, поэтому он уже должен содержать не только тексты, но и их аннотацию, или разметку (англ. annotation, mark-up, tagging).

Аннотация – это приписанная всем единицам выбранного уровня (текст, предложение, словоформа и т. д.) соответствующая лингвистическая информация. Например, морфологически аннотированный корпус содержит морфологический разбор частей речи – по сути такой же, какой вы делали в школе, но только не для одного-двух, а для всех слов. Представьте, сколько времени надо потратить, чтобы сделать морфологический разбор хотя бы ста тысяч слов!

Если вы создаете корпус для себя или для маленькой исследовательской группы, то разметка может быть понятной только вам и вашим друзьям. Однако многие корпуса публикуются в интернете, с ними работают люди, незнакомые не только с вами, но и с вашей теорией. В таком случае прозрачность и ясность разметки становится ключевым фактором для успешной работы. По словам Дж. Лича (Leech 1991), разметка общедоступного корпуса должна подчиняться нескольким принципам.

● Разметка должна основываться на доступной для пользователя в виде руководства или инструкции схеме анализа, в которой введение каждого параметра должно быть мотивировано.

● Разметка общедоступного корпуса должна быть «теоретически нейтральна», то есть схема разметки по возможности должна не разрывать с традицией, а опираться на знакомую всем систему понятий. Если корпус предназначен не для конкретного проекта, то при его разметке стоит избегать пусть и строгих, но авторских, необщеприняых классификаций, которые требуют предварительного знакомства с той или иной теорией.

● Должно быть ясно, кто и как разрабатывает схему аннотации и каковы ограничения, например юридические или технические, при пользовании корпусом.

Соблюдение этих принципов максимально расширяет круг потенциальных пользователей корпуса и существенно облегчает взаимодействие с информационным ресурсом, хотя может вызвать упреки в «ненаучности». Однако подход к созданию корпуса, не принуждающий авторов нести всю ответственность за логичность и последовательность разметки, а опирающийся на существующие классификации, позволяет заодно выявлять лакуны в описаниях языка, обнаруживать дефекты и противоречия в разных подходах к языку. Конечно, существует множество очень специализированных корпусов, с которыми невозможно работать без предварительной серьезной подготовки. Но по-прежнему верным остается старый принцип Уильяма Оккама: «Не следует множить сущее без необходимости».

В этой главе речь пойдет только о лингвистическом аннотировании, то есть о типах лингвистической информации, приписанной той или иной языковой единице. Типы лингвистического аннотирования в целом совпадают с уровнями языка:

● звуковой: звук (аллофон);

● просодический: фонетическое слово (или фраза);

● словообразовательный: морфема;

● морфологический: словоформа;

● лексический: лексема;

● синтаксический: предложение.

Очередность появления разных типов разметок не соответствовала этой уровневой структуре, а зависела от возможностей компьютеров и программ, способных упростить и ускорить аннотирование. Основные этапы развития автоматического анализа связаны с постепенным углублением в анализ конкретной цепочки букв: движением от определения начальной формы до установления семантических связей.

Адам Килгарифф (Adam Kilgariff) выделил следующие этапы развития автоматического анализа текста:

● токенизация (англ. tokenization): выделение в текстовом потоке минимальных фрагментов для последующего анализа (в корпусной лингвистике их принято называть токены (англ. token); ниже мы еще поговорим, что это такое и чем они отличается от словоформы);

● лемматизация (англ. lemmatization): определение для всех токенов их начальной формы (точнее леммы (англ. lemma); ниже мы поговорим, чем они отличаются от лексем);

● частеречная разметка (англ. POS tagging): определение части речи каждого слова;

● полная морфологическая разметка (англ. full morphological tagging): приписывание словоформе морфологических признаков;

● синтаксическая разметка, или парсинг (англ. parsing): приписывание определенных синтаксических признаков слову или сочетанию слов;

● семантическая разметка (англ. semantic annotation): включение лексемы в определенный лексико-семантический класс;

● создание семантических сетей (англ. semantic network, frame network): маркировка семантических связей между лексемами.

Этим все возможные типы аннотирования не исчерпываются. Существуют и другие, более специализированные, разметки: фонетическая, просодическая, анафорическая и прочие. Но первым по времени и наиболее развитым объектом аннотирования стала морфология, на основе которой строятся другие типы разметок. Это связано с тем, что компьютер очень легко находит цепочки символов от пробела до пробела – текстоформы, или токены (англ. tokens).

Трудно представить корпус, который смог бы объединить все виды разметок. Корпус, содержащий несколько уровней аннотации, оказывается (во всяком случае сейчас и в обозримом будущем) или непоследовательным, или теоретически не нейтральным. К этому добавляется и проблема «большой» лингвистики. Если взгляды на морфологию в лингвистике более-менее совпадают, то в основе алгоритмов синтаксического разбора часто лежат разные теории. Еще больше сложностей возникает при описании семантического компонента языковых единиц. Эклектичность и неравномерная представленность разных языковых уровней в языковых корпусах выявляет две реально существующие проблемы современной лингвистики: отсутствие полных теоретически обоснованных и общепринятых классификаций, с одной стороны, и сложность (граничащая с невозможностью) автоматического аннотирования на основе этих классификаций – с другой. Всякий языковой корпус в силу необходимости тотального описания материала кристаллизует проблемные области в описании того или иного языка. И в этом смысле корпус является не только инструментом для быстрого поиска примеров, но и источником совершенствования и теоретических, и чисто дескриптивных подходов к определенному языку.

Дополнительная литература

1. Bird S., Liberman M. A formal framework for linguistic annotation // Speech communication. 2001. Vol. 33. № 1. P. 23–60.

2. Ide N. Corpus Encoding Standard: SGML guidelines for encoding linguistic corpora // Proceedings of the First International Language Resources and Evaluation Conference. 1998. P. 463–470.

3. Ide N., Romary L., de la Clergerie E. International standard for a linguistic annotation framework // Proceedings of the HLT-NAACL 2003 workshop on Software engineering and architecture of language technology systems. Vol. 8. Association for Computational Linguistics, 2003. P. 25–30.

4. Leech G. Corpus annotation schemes // Literary and Linguistic Computing. 1993. № 8/4. Р. 275–281.

5. Sperberg-McQueen C. M. et al. (ed.). Guidelines for electronic text encoding and interchange. Chicago and Oxford: Text Encoding Initiative, 1994. Vol. 1.

6. TEI: Text Encoding Initiative. Доступно по адресу: www.tei-c.org.

Задания

1. На странице выбора метаразметки НКРЯ (ruscorpora.ru/mycorpora-main.html) соберите подкорпус, максимально точно соответствующий вашему языковому опыту (возраст, пол, любимая тематика и т. д.). В полученном корпусе задайте поиск характерных для вас словечек или выражений. Нашли? Совпал ли ваш языковой опыт с данными корпуса? При желании сделайте такое же сравнение языкового опыта ваших родителей или бабушек и дедушек.

2. Вспомните прослушанные вами курсы по фонетике и грамматике и подумайте, какие проблемы возникнут при анализе следующих единиц:

a) на фонетическом уровне: быль,

b) на словообразовательном уровне: вынуть,

c) на морфологическом: Вась!,

d) на синтаксическом: Ему весело.

Подумайте и объясните, разметку какого уровня легче автоматизировать: звукового, морфологического, лексического или синтаксического. Почему?

3*. В следующем фрагменте попробуйте указать формальные критерии (то есть строгие и однозначные), которые разделят текст на предложения и словоформы. Если сделать это не удалось, объясните, что вызвало проблемы.

И блистали столетние липы
Невозможной такой красотой.
Здесь теперь обретаются VIP-ы,
А была – слобода слободой.

И юннат был мечтательным малым —
Слава, праздность, любовь и т. п.
Он сказал себе: «Что если надо
Стать писателем?» Вот он и стал им.

(С. Гандлевский)

Глава 6. Морфологическая разметка

Я не устану повторять, что компьютерные программы умеют работать лишь с символьными цепочками (например, буквы С-Т-О-Л или – на более глубоком уровне – сочетания нулей и единиц). Именно цепочки букв являются основным объектом анализа лингвистических программ. Основной единицей морфологической разметки является текстоформа, или токен – цепочка символов от пробела до пробела, которая в большинстве случаев соответствует обычной словоформе. Однако в некоторых случаях компьютер, работающий по принципу «от пробела до пробела», выделяет две текстоформы там, где любой школьник выделит только одну словоформу (например, аналитические формы рус. буду читать, англ. wake up). С этим связаны и основные сложности морфологической разметки.

– Доктор, доктор, я лечу!

– Я такого не лечу. (Г. Лукомников)

Ни одному лингвисту не придет в голову считать выделенные формы одной лексемой. Однако компьютер при простом поиске по буквам найдет обе глагольные формы, считая их одинаковыми текстоформами.

Компьютерные программы очень плохо справляются с омографами (совпадающими по написанию словами), считая их одной и той же единицей. В приведенном выше стишке выделены две одинаковые текстоформы, которые с точки зрения лингвистики являются омонимами. Наиболее простой способ отметить разницу – показать, что та или иная текстоформа относится к определенной начальной форме:

лечу – лететь

лечу – лечить

Эта процедура автоматического приписывания текстоформы к определенной «начальной форме» получила в корпусной лингвистике название лемматизации, а сама «начальная форма» стала называться леммой.

Лемму следует отличать от лексемы. В корпусной лингвистике под леммой обычно понимается графическая единица без учета лексических различий. Например, полные омонимы типа ключ будут приписаны при морфологическом аннотировании одной лемме, хотя никто никогда не назовет их одной лексемой.

Однако бывает, что и лемматизации недостаточно для того, чтобы явно указать, что текстоформы относятся к разным лексемам. Рассмотрим следующий пример:

По дороге шел боксер
В пиджаке и шляпе.
По дорожке шел боксер
С пятнышком на лапе.

(М. Яснов)

Боксер и боксер – разные лексемы с совпадающими начальными (да и всеми остальными) формами, однако лемма у них одна, поскольку все формы этих слов совпадают, а разница в лексических значениях на морфологическом уровне не учитывается. Лемма – это результат автоматического сведения текстоформ к одной обобщающей единице, отличающийся от начальной формы тем, что для компьютерной морфологии не важны различия в семантике слов или в ударении, если эти различия никак не выражены в буквенной форме слов. Для того чтобы закрепить в корпусе разницу между разными боксерами, придется вводить новый уровень разметки – семантический, о котором пойдет речь дальше. Понятно, что поиск леммы боксер в морфологически размеченном корпусе будет выдавать все формы этих двух разных лексем русского языка. Особенно актуальна проблема определения лексемы для английского языка, в котором омонимия чрезвычайно часта.

Английское предложение Fruit flies like a banana может быть переведено как: 1) Фруктовые мушки любят банан или 2) Фрукт летает как банан.

1. flies ‘мухи’ – лемма fly

flies ‘летит’ – лемма fly

2. like ‘любят’– лемма like

like ‘как’ – лемма like

Согласитесь, трудно разобраться. Для решения проблемы достаточно указать, что текстоформы принадлежат разным частям речи (англ. parts of speech, POS). Такой тип аннотации был назван частеречная разметка (англ. POS-tagging), а значок, условно обозначающий морфологический признак, стал называться тег (англ. tag).

Любопытство лингвистов росло, автоматические анализаторы развивались. Появились программы, которые умеют извлекать из цепочки букв морфологические характеристики текстоформы. Программы, автоматически анализирующие морфологию слов, назвали лингвистическими аннотаторами, или теггерами (от англ. tagger). Получая на входе текстоформу, такая программа выдает полную морфологическую характеристику в виде набора тегов, или тегсета (англ. tagset).

Знаменитая фраза Л. В. Щербы Глокая куздра штеко будланула бокра и курдячит бокрёнка прекрасно иллюстрирует возможность морфологического анализа псевдослов без обращения к лексическому значению:

● Глокая – глокий (прил., жен. р., ед. ч., им. пад.)

● куздра – куздра (сущ., жен. р., ед. ч., им. пад.)

Существует несколько способов (алгоритмов), лежащих в основе таких морфологических анализаторов:

1. Бессловарный метод является самым примитивным. Строго говоря, он не обходится без «словаря», но в словарь заносятся не реально существующие морфемы, а псевдоокончания, или так называемые хвосты.

Например, хвост – алась (купалась, покаталась…) позволяет с точностью в 100 % определить некоторые морфологические параметры слов, оканчивающихся на этот набор букв.

2. Словарные методы

2а. Представление со словарем основ является наиболее корректным с лингвистической точки зрения, так как теснее всего связано с обычной лингвистической практикой. Метод состоит в использовании двух словарей. Первый словарь включает все основы (в простом случае корни) слов русского языка с соответствующими частеречными указаниями (например, стол– [сущ], чита– [гл], красн– [прил]). Второй словарь включает все словоизменительные части слова (окончания и иногда квазиокончания типа – лся). При этом каждому аффиксу приписана соответствующая морфологическая информация и сочетаемость с основами: например, – л [[+гл]: муж. р., прош. вр., ед. ч.], что значит «аффикс – л сочетается с глагольными основами и содержит значения муж. р., прош. вр., ед. ч.».

Алгоритм работает следующим образом:

● отделение от конца слова потенциальных окончаний (по заданному в словаре списку): чита-л,

● поиск полученной основы по словарю основ: чита-,

● определение возможности такого сочетания аффикса и основы: {чита– [гл]} {-л [[+гл]: муж., прош., ед.]}.

2б. Анализ, построенный на словаре окончаний, использует псевдосинтаксическую информацию. В словаре такого анализатора содержатся все окончания (с соответствующей морфологической информацией) и служебные слова, помогающие определить синтаксическую структуру. Такой синтаксической рамкой служит, например, цепочка «В – ом – е – ются – и», которая однозначно определяет почти все морфологические параметры слов для множества предложений типа «В большом доме смеются дети». Алгоритм применения состоит в выделении окончаний и поиске подходящей «синтаксической рамки», в которой может существовать окончание.

2 в. Словарь словоформ – способ, который состоит в том, что в словаре хранятся все словоформы всех слов с соответствующей морфологической информацией: например, стол [сущ., ед., им., муж.], столы [сущ., мн., им., муж.].

Понятно, что такой алгоритм требует бóльших ресурсов памяти, но в настоящее время это не является проблемой. Главный недостаток здесь – невозможность анализировать новые слова, не учтенные в словаре.

Многие современные морфологические анализаторы (теггеры) совмещают метод поиска по словарю словоформ (для знакомых слов) и другие методы (для незнакомых слов).

В русистике существует более или менее общепринятая классификация морфологических категорий. Она системно представлена в «Грамматическом словаре русского языка» (ГСРЯ) Андрея Анатольевича Зализняка (первое издание вышло в 1977 году). Страницы этого словаря могут удручающе подействовать на неподготовленного читателя:

Однако без знания структуры и принципов создания этого словаря невозможно заниматься компьютерной морфологией русского языка. Львиная доля программ компьютерной обработки русского языка базируется на ГСРЯ – от проверки орфографии в программе Ворд до поиска в Яндексе.

Достоинства Грамматического словаря

● полнота словника на момент создания (словарь имеет один из самых объемных словников – 100 000 слов);

● формализм описания единиц, позволяющий легко включить его в компьютерную программу;

● детальность словоизменительной характеристики (учтены все возможные письменные формы слова).

Недостатки Грамматического словаря

● неполнота словника на сегодняшний день (отсутствует множество слов, вошедших в русский язык в последние годы);

● формальная «вседозволенность» (например, свобода образования форм множественного числа или сравнительной степени даже у слов, у которых они реально не встречаются: молокó – молокú).

К счастью, пользоваться этим словарем можно не в бумажном, а в электронном виде. Перенос словаря в электронный формат был осуществлен в конце 1980-х годов, и на сегодняшний день словарь доступен в нескольких версиях. Желающие познакомиться со множеством компьютерных программ, основу которых составляет данный словарь, могут легко найти их, набрав в строке поисковика «автоматический морфологический анализ» или «теггер русский язык». Важно отметить, что эти программы-теггеры являются основным средством быстрого аннотирования корпуса. Подав на вход программы текст (или тексты), через пару минут (часов или дней) мы получим такой, например, результат:

Для морфологического анализа отдельного слова этого будет достаточно: текстоформа глокая теоретически может быть как прилагательным, так и деепричастием. Но для верного аннотирования в составе предложения необходимо выбрать один вариант. Это не всегда возможно, но в нашем конкретном случае (не забыли, что там делала глокая куздра?) вполне достаточно аргументов в пользу прилагательного: глокая ведет себя как обычное прилагательное: согласуется в роде, числе и падеже со словом куздра. И, в отличие от деепричастия, не отделяется запятой (Сравните: Глокая, куздр будланул…).

Процедура выбора самого верного варианта из множества омонимичных разборов получила название снятие омонимии, или дизамбигуация (англ. disambiguation). Чаще всего ее осуществляют специальные модули в тех же программах-теггерах, но практикуется и ручное снятие омонимии – с помощью миллионов молодых лингвистов, сидящих в темных университетских подвалах. В следующей главе мы поговорим о сложностях, с которыми они сталкиваются.

Дополнительная литература

1. Апресян Ю. Д., Богуславский И. М., Иомдин Л. Л. и др. Лингвистическое обеспечение системы ЭТАП-2. М.: Наука, 1989.

2. Копотев М. В., Мустайоки А. Принципы создания Хельсинкского аннотированного корпуса русских текстов (ХАНКО) в сети интернет // Научно-техническая информация. Сер. 2: Информационные системы и процессы. № 6: Корпусная лингвистика в России. 2003. С. 33–37.

3. Ляшевская О. Н., Плунгян В. А., Сичинава Д. В. О морфологическом стандарте Национального корпуса русского языка // Национальный корпус русского языка: 2003–2005. Результаты и перспективы. М., 2005. С. 111–135.

4. Ножов И. М. Морфологическая и синтаксическая обработка текста (модели и программы) сегментации русского предложения. Автореф. дисс… канд. филол. наук. М., 2003.

Задания

1. Алгоритмы морфологического анализа

1a. Бессловарный метод. Дан хвост «-алась». Напишите, какие морфологические признаки глагола по этому хвосту определяются: 1) с точностью в 100 %, 2) с точностью в 50 %, 3) не определяются вообще.

1б. Анализ со словарем основ. Подумайте, предложит ли алгоритм, использующий словарь основ, разбор формы «стола» как глагольной формы (прош. вр., жен. р., ед. ч.). Обоснуйте ответ, указав, какие основы в словаре основ и какие окончания в словаре окончаний должны существовать для такого решения.

1в. Анализ, построенный на словаре окончаний. Используя фразу «Глокая куздра штеко будланула бокра и курдячит бокрёнка» составьте «синтаксическую рамку» (цепочку окончаний и служебных слов). Докажите на своих примерах, что этот алгоритм несовершенен.

1г. Словарь словоформ. Назовите по крайней мере три недостатка этого подхода. Приведите пример на каждый.

2. Познакомьтесь с ресурсами по русской морфологии на сайтах starling.rinet.ru и www.aot.ru. Выясните, кто автор этих проектов. Получите с помощью теггеров, доступных на этих сайтах, информацию о текстоформе путина и заполните таблицу.

● Объясните ошибки в интерпретации этой леммы (если есть).

● Какая модель обладает, по вашему мнению, большей мощностью? Ответ обоснуйте на примере леммы «путина» или с помощью своих примеров.

● Предложите не менее трех сфер применения этих теггеров или результатов их работы.

● Объясните ошибки в интерпретации этой леммы (если есть).

● Предложите не менее трех сфер применения этих теггеров или результатов их работы.

3. Многие помнят из школы стишок «Иван родил девчонку, велел тащить пеленку», помогающий запомнить порядок русских падежей. А нужен ли именно такой порядок? Пользуясь любым корпусом русского языка, расположите падежи в соответствии с частотой их употребления в корпусе. Совпадает ли частотный порядок падежей для существительных и прилагательных?

4*. Познакомьтесь с Грамматическим словарем А. А. Зализняка. Найдите ошибку в словарной статье глагола «подносить».

Страницы книги >> Предыдущая | 1 2

Скачать книгу "Введение в корпусную лингвистику"