Читать книгу "Введение в корпусную лингвистику"

Текст добавлен: 19 февраля 2016, 19:40

Автор книги: Михаил Копотев

Жанр: Языкознание, Наука и Образование

сообщить о неприемлемом содержимом

Авторские права соблюдены

Текущая страница: 4 (всего у книги 11 страниц) [доступный отрывок для чтения: 2 страниц]

Скачать книгу

Шрифт:

- 100% +

Глава 7. Проблемы морфологического аннотирования русского языка

Первая проблема, встающая перед создателем любого аннотированного корпуса, связана с выбором между объемом материала и точностью обработки. На сегодняшний день необходимо признать факт невозможности точного автоматического анализа текста.

Возьмем предложение Косил косой косой косой и попробуем определить все возможные варианты частеречной разметки для повторяющихся слов. Сколько вариантов разбора у вас получилось? Представляете, как сложно компьютеру?..

На сегодняшний день качественное аннотирование текста всегда связано с существенной ручной постобработкой, проводимой квалифицированными специалистами. В этом смысле при относительной ограниченности организационных возможностей перед создателями любого корпуса всегда стоит выбор: сравнительно небольшой, но выверенный корпус или объемный, но аннотированный автоматически.

Следующий список дает первое представление о сложностях обработки русского текста, с которыми сталкиваются разработчики. Подумайте сами, где конкретно может спотыкаться программа автоматического анализа.

● имена собственные, особенно иноязычные или совпадающие с именами нарицательными: Хельсинки, Лужков (ср. много лужков);

● имена прилагательные, образованные от имен собственных: петров (ср. Петров);

● аббревиатуры и сокращения: ПРО, муж. р., и т. д.;

● сложносоставные лексемы и слова с дефисом: экстра– и интроверты, диван-кровать, пол-лимона;

● окказиональные образования: машиночка, Анночка Петровна, кушинькать.

Ниже мы подробно рассмотрим две самые серьезные проблемы, с которыми связаны основные сложности морфологического аннотирования текстов: языковую неоднозначность и наличие многокомпонентных единиц.

Языковая неоднозначность

Проблема языковой неоднозначности имеет и теоретические, и технические аспекты. К первым относятся собственно лингвистические подходы к определению понятия омонимии, ко вторым – ограничения, связанные с обработкой живого языка с помощью бездушной машины. Обычно, говоря об автоматической обработке текстов, обсуждают проблему снятия омонимии. Однако речь идет не совсем о том явлении, которое называется омонимией в учебниках по русской грамматике.

Господи? – где ты? Где я?

В общем, в общем вагоне, —

Еду. (Г. Шпаликов)

В первом случае выделенная единица «в общем» является лексемой и входит в класс наречий. То же сочетание во втором случае – более-менее случайное совмещение предлога и прилагательного, входящих в группу «в общем вагоне».

Первое «в общем» в приведенном примере – это наречие-фразеологизм, который фиксируется в соответствующих словарях в качестве составной лексемы, и у него, конечно, нет омонима, то есть точно совпадающей по форме лексемы, имеющей другое значение. Второе сочетание «в общем» («в общем вагоне»), подчеркнутое в примере выше, – это свободное соположение предлога и прилагательного. Совпадение на уровне цепочки слов наречия и «предлого-прилагательного» не образует пары настоящих омонимов и не представляет проблемы для лингвиста. Но компьютер должен как-то понять, что первое «в общем» – это одна многокомпонентная лексема, тогда как второе «в общем» – это две лексемы. Назовем явления такого рода неоднозначностью (англ. ambiguity), для простоты дела считая, что и языковая омонимия – частный случай неоднозначности. Однако будем помнить, что принципиальная разница между омонимией и неоднозначностью состоит в том, что первая имеет собственно языковую природу (процессы опрощения, заимствования т. д.), тогда как неоднозначность может возникать из-за случайного соположения единиц. Неоднозначность не предполагает параллелизма языковых единиц, поэтому при лемматизации совпавшие фрагменты могут сводиться к разному набору лемм. Таким образом, круг явлений языковой неоднозначности шире, чем область омонимии, и при машинной обработке текстов корректнее говорить не о снятии языковой омонимии как таковой, а о снятии языковой неоднозначности (англ. disambiguation). Можно выделить несколько типов языковой неоднозначности.

Снимаемая неоднозначность

Текстоформа «ломти» может иметь два альтернативных разбора, а текстоформа «сети» – в два раза больше. Проверьте это сами.

В большинстве случаев носитель языка легко разрешает такого рода неоднозначность и, исходя из контекста, выбирает правильное чтение. Этот тип неоднозначности можно назвать снимаемая. Грамматические омонимы составляют большинство случаев снимаемой неоднозначности. Сюда же часто относятся и примеры типа «в общем» из разобранного выше стихотворения Г. Шпаликова. Для анализа таких случаев может использоваться автоматическое снятие омонимии с учетом контекста или статистической вероятности появления той или иной формы.

В предложении Без друга пропадешь теггер выдает для формы существительного два падежных варианта: GEN и ACC. Однако падежное управление предлога без позволяет убрать омонимию.

Контекстуальная неоднозначность

Второй тип неоднозначности связан с тем, что не всегда можно выбрать один вариант разбора.

Двери не открывать ни в коем случае.

В этом предложении контекст не позволяет однозначно определить, какой из разборов текстоформы «двери» является верным: ДВЕРЬ.ACC.PL (эти двери) или ДВЕРЬ.GEN.SING (этой двери). Оба варианта чтения имеют одинаковое право на существование.

Этот тип неоднозначности можно назвать контекстуальной неоднозначностью, то есть такой, при которой имеющийся контекст не дает достаточных оснований для окончательного решения. Приведенный пример представляет случай неоднозначности внутри одной парадигмы, но возможна и неоднозначность между разными классами слов, при которой нельзя определить категориальную, или частеречную, принадлежность текстоформы:

– Три, три и три. Что получится?

– Дырка.

Вся соль этого анекдота держится на том, что невозможно однозначно определить, какое из двух прочтений текстоформы «три» является верным: числительное или глагол.

Надо сказать, что в массиве корпусного материала контекстная неоднозначность встречается чаще, чем традиционная омонимия. Например, текстоформа «см.» (СМОТРЕТЬ.IMP.SING и СМОТРЕТЬ.IMP.PL) выходит за рамки собственно лингвистических интересов, но представляет определенную сложность для компьютерного аннотирования реального текста.

Теоретическая неоднозначность

Существуют случаи, в которых контекст дает ясное представление о значении, но критерии лингвистической классификации настолько нечетки, что отнести единицу к определенному типу очень сложно.

Примером такого рода может служить группа слов «тысяча», «миллион», «миллиард» и т. д., которые по морфологическим признакам относятся к существительным, но по семантическим – к «счетным словам». Выбор одного из вариантов – если он и будет сделан – зависит от теоретических предпочтений лингвиста, а не от контекста.

Такой тип неоднозначности можно назвать теоретической неоднозначностью, имея в виду неоднозначность самой теории. Теоретическая неоднозначность не является непреодолимой проблемой при создании любого корпуса. Так, если корпус создается в рамках строго определенных классификационных схем, позволяющих точно определить место любой единицы, то теоретической неоднозначности можно избежать.

Все три типа неоднозначности (снимаемая, контекстная и теоретическая), безусловно, должны быть учтены при автоматической обработке текста. И создатели корпусов, конечно, принимают в связи с этим определенные решения. Одно из них – сохранение в корпусе нескольких разборов одной текстоформы.

Многокомпонентные единицы

Во время обсуждения очередной орфографической реформы А. А. Реформатский предложил написать по новым правилам популярный в то время слоган: «На зад к Пушкину!». Реформу не поддержали… Наречия «на зад», состоящего из двух слов, в русском языке по-прежнему нет, но других многокомпонентных единиц хоть завались, пруд пруди и до черта.

Разметка неоднословных лексических единиц, или оборотов (англ. multiword expressions, MWEs), которой в последнее время уделяется много внимания, находится на стыке морфологии и синтаксиса. Речь идет о единицах типа потому что, к сожалению. Эта группа языковых единиц, занимающая промежуточное положение между словом и словосочетанием, с трудом поддается анализу. В целом, минимально упорядоченная собственно лингвистическая классификация таких единиц включает две группы.

● Морфологические аналитические формы, то есть отдельные морфологические варианты лексемы, в общем случае представленной одним компонентом. Сюда относятся: формы сослагательного наклонения и сложного будущего (прочитал бы, буду читать); аналитические формы прилагательных и наречий (самый быстрый, менее ярко; оставляем в стороне вопрос о спорности их выделения в «большой» лингвистике); аналитические формы местоимений (ни от кого).

● Многокомпонентные лексемы (железная дорога, друг друга, двадцать три, потому что) сохраняют сложность состава во всех морфологических формах (конечно, если морфологические формы есть вообще).

С точки зрения машинной обработки текста разница между ними в том, что многокомпонентные лексемы состоят из нескольких компонентов во всех формах (и, следовательно, предполагают многокомпонентность при лемматизации), тогда как аналитические формы – только в некоторых (и сводятся к однокомпонентной лемме).

Я бы хотел, чтобы студенты прочитали этот учебник.

Формы сослагательного наклонения в такого рода предложениях часто размечаются отдельно: частица бы и формы прошедшего времени изъявительного наклонения (как если бы студенты действительно прочитали этот учебник). Однако при таком подходе достаточно большая и важная часть грамматической информации искажается или не учитывается.

В большинстве русскоязычных корпусов аналитические конструкции, сложные для обработки, учитываются лишь частично. С практической точки зрения, то есть исходя из особенностей обработки таких единиц, их можно разделить на три группы:

1. Контактные неомонимичные обороты

К этой группе относятся единицы, в которых компоненты непосредственно располагаются друг за другом и однозначно образуют цельную единицу: составные числительные («тридцать три», «33»), единицы типа «потому что», «несмотря на».

2. Контактные омонимичные обороты

Эту, самую многочисленную, группу образуют единицы с контактным расположением компонентов, но омонимичные сочетанию двух (или более) слов, связанных синтаксически или даже не имеющих непосредственной синтаксической связи: в общем (ср. в общем вагоне), в прошлом (ср. в прошлом году) и т. д.

3. Дистантные обороты (англ. skipgrams / concgrams)

В эту группу входят единицы, компоненты которых располагаются (или могут располагаться) дистантно: читал бы, если … то.

Разрешая эти и другие проблемы, создатели языковых корпусов вынуждены идти на более или менее серьезные упрощения лингвистических классификаций, выбирая между скоростью обработки материала и точностью интерпретаций. Фактически речь идет о том, что разработчики принимают те или иные решения, которые противоречат языковой реальности или лингвистическим представлениям. Принятие этих решений часто связано не с теоретическими установками создателей, а с задачей облегчения автоматической обработки. Это, конечно, не превращает корпус в бесполезную забаву, но знание особенностей разметки позволяет пользователю более ответственно отнестись к извлеченным из корпуса тоннам примеров и не принимать их полностью на веру. Если говорить о сложностях аннотации русских текстов в целом, то такие сложности связаны со следующими группами лексем.

● Многокомпонентные единицы, о которых шла выше речь. Часто не выделяются вообще или выделяются лишь в ограниченном количестве.

● Лексические омонимы. Поиск в хорошо подготовленном корпусе производится в текстах со снятой грамматической омонимией (например, существительное и глагол печь). Лексические омонимы при этом считаются одной леммой, так что невозможен поиск только одного члена из ряда полных омонимов (например, лук: 1) ‘оружие’, 2) ‘растение’, 3) ‘внешний вид’).

● Местоимения и числительные. Выделение этих частей речи осуществляется на основе чисто морфологических критериев, что не соответствует традиционной лексико-грамматической классификации. В результате поиск некоторых «традиционных» местоимений оказывается непростой задачей (например, взаимно-возвратное местоимение друг друга).

● В списке частей речи многих русских корпусов без достаточного теоретического обоснования появляются такие части речи, как «аббревиатура» (МГУ, PhD) и «вводное слово» (во-первых, наконец). Последнюю категорию-«призрак» можно найти во многих словарях русского языка, в том числе и в «Грамматическом словаре» А. А. Зализняка. Однако в традиционных морфологических классификациях эти «части речи» все-таки не учитываются.

● Лексемы с морфологическими признаками, сложными для автоматического анализа: формы Pluralia tantum (двери, ворота), сравнительные формы наречий и прилагательных (добрее: лемма добро или добрый), возвратность / невозвратность глагола (строиться: лемма строить или строиться), вид (по контексту) двувидовых глаголов (ранить).

Дополнительная литература

1. Hajič J. Disambiguation of rich inflection: computational morphology of Czech. Praha: Karolinum, 2004.

2. Зеленков Ю. Г., Сегалович И. В., Титов В. А. Вероятностная модель снятия морфологической омонимии на основе нормализующих подстановок и позиций соседних слов // Компьютерная лингвистика и интеллектуальные технологии. Труды международного семинара «Диалог – 2005». М., 2005. С. 188–197.

3. Копотев М. В. Неоднозначность и пути ее разрешения в Хельсинкском аннотированном корпусе ХАНКО // Труды международной конференции «Корпусная лингвистика – 2004». СПб.: Издательство С.-Петербургского университета, 2004. С. 165–175.

4. Ляшевская О. Н. и др. Оценка методов автоматического анализа текста: морфологические парсеры русского языка // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог». Вып. 9 (16). М.: Изд-во РГГУ, 2010. С. 318–326.

5. Сокирко А. В., Толдова С. Ю. Сравнение эффективности двух методик снятия лексической и морфологической неоднозначности для русского языка (скрытая модель Маркова и синтаксический анализатор именных групп) // Сборник работ стипендиатов Yandex 2005. Доступно по адресу: www.aot.ru/docs/RusCorporaHMM.htm.

Задания

1. Дано предложение «Бежит волна-волной, волне хребет ломая» (О. Мандельштам). Определите количество лемм. С какими сложностями вы столкнулись при анализе текстоформы «волна-волной»?

2. Дан фрагмент из стихотворения О. Седаковой:

Были бы мастера на свете,
выстроили бы часовню
над нашим целебным колодцем
вместо той, какую здесь взорвали…

Найдите и запишите: а) все словоформы и все текстоформы, б) все лексемы (начальные формы) и все леммы. Сравните полученные списки и объясните разницу.

3. Сравните морфологические разметки НКРЯ или ХАНКО с описаниями признаков частей речи, данными в учебном пособии, которым вы пользовались на курсе морфологии русского языка. Найдите пять отличий и объясните причины, по которым разработчики корпуса отступили от традиции.

4*. В каком падеже стоит существительное в предложении «Что за вопрос!»? Подумайте, является ли неоднозначность формы снимаемой или здесь нужна двойная морфологическая разметка?

Глава 8. Синтаксическая разметка

Синтаксис – это наука о языковых единицах и их связях в составе словосочетания и предложения. На этом хорошие новости заканчиваются. К сожалению, на сегодняшний день не существует единой общепринятой синтаксической теории, что является проблемой и для лингвистики вообще, и для корпусной лингвистики в частности. Для описания русского синтаксиса используются три основных подхода, каждый из которых позволяет дать достаточно полную характеристику этого языкового уровня:

● традиционный, «школьный», синтаксический анализ по членам предложения (его можно найти, например, в работах А. А. Шахматова, В. В. Виноградова, Н. С. Валгиной и др.);

● синтаксис структурных схем отражен прежде всего в академической Русской грамматике (1970-го, 1980-го и 2005-го годов) и традиционно изучается в университетах. Его главная особенность – детальное описание структурных схем (базовых моделей предложения), под которыми, по существу, понимаются главные члены предложения и ближайшее окружение;

● грамматики зависимостей и непосредственно составляющих (И. А. Мельчук, А. В. Гладкий, И. М. Богуславский, Л. Л. Иомдин и др.).

Перечисленными подходами список синтаксических теорий не ограничивается. Существуют описания (прежде всего русского языка) с точки зрения функциональной грамматики (А. В. Бондарко, М. В. Всеволодова, А. Мустайоки и др.), семантического синтаксиса (Н. Д. Арутюнова, Е. В. Падучева, И. Б. Шатуновский и др.), «когнитивного» синтаксиса (Г. А. Волохина, З. Д. Попова) и др. В отдельных частях они могут быть привлекательны, однако в настоящее время ни одна из них не представила полное описание синтаксического материала хотя бы для одного языка. Ведущие теории как раз претендуют на полное и автономное описание синтаксических единиц (узлов) и отношений, возникающих между ними, при этом степень подробности описания в рамках разных теорий различна.

Не все подходы приняты и в корпусной лингвистике. Самым «теоретически нейтральным» подходом в западной лингвистике является грамматика зависимостей, которая, к сожалению, почти не преподается в России. При решении задач автоматической обработки текста тоже используются грамматика зависимостей, или грамматики непосредственно составляющих, или варианты, объединяющие оба эти подхода. В России «нейтральным», видимо, следует признать традиционный синтаксис, опирающийся на классификацию членов предложения: именно на его основе сформулированы пунктуационные правила русского языка, этой терминологической системой владеет и школьный учитель, и профессиональный лингвист. В то же время авторитет академической грамматики и распространение учебника под редакцией В. А. Белошапковой, долгое время считавшегося базовым во многих вузах России, привели к тому, что многие университетские преподаватели опираются в основном на синтаксис структурных схем. Отсутствие общепринятой синтаксической теории привело к тому, что в корпусной лингвистике можно встретить и подход, отрицающий необходимость отдельной синтаксической разметки как таковой. Считается, что сочетание морфологических параметров и, если необходимо, токенов/лемм позволяет извлекать из корпуса синтаксические единицы без создания специальной разметки. Тем не менее, ниже будут представлены два подхода, которые нашли реализацию в разметке корпусов.

Синтаксическая разметка в терминах грамматики зависимостей

Каждый синтаксист должен построить хорошее дерево. Да, лингвисты деревья не сажают – они их строят с помощью теории, которая уделяет большее внимание типам синтаксических отношений. Грубо говоря, синтаксис грамматики зависимостей – это детализированный список «стрелок», которые можно провести между главными и подчиненными единицами в предложении.

Одним из основателей этого подхода был французский славист Люсьен Теньер. Именно ему российские школьники должны быть благодарны за возможность рисовать в тетрадках на уроках русского языка. В 20-30-е годы прошлого века он предложил схемы синтаксического разбора и несколько раз приезжал в СССР с целью передачи опыта. В 1959 году вышла его фундаментальная работа «Основы структурного синтаксиса», которая была быстро адаптирована русской наукой. Книга А. В. Гладкого «Синтаксические структуры естественного языка в автоматизированных системах общения» (1985 г.) является наиболее последовательным приложением теории к русскому материалу.

Основные идеи этой теории сводятся к следующему. Предложение рассматривается как набор синтаксических узлов и связей между ними. Главное слово в синтаксической цепочке называется вершиной (вершинный узел), она управляет другими единицами – зависимыми (зависимый узел). Узел может быть заполнен как конкретной лексемой (терминальный узел), так и целой синтаксической группой (нетерминальный узел). Отношения между вершиной и зависимым определяется типом синтаксической связи. Типы отношений между вершиной и его зависимым на схемах обычно обозначаются поименованными стрелками, направленными от вершины к зависимому. Так возникают деревья зависимостей – цепочки узлов, связанные синтаксическими отношениями. Любое предложение может быть представлено как непересекающаяся и непрерывная система отношений между вершинами и зависимыми. Глубина синтаксического анализа определяетcя конкретными задачами и имеющимися ресурсами: от частичного (выделения основных групп, англ. shallow parsing / chunking) до полного (построение синтаксического дерева, англ. full parsing).

Вот как выглядит дерево зависимостей для предложения Достаточно взять большой корпус русских текстов и посчитать частоту встречаемости различных элементов.

Понятно, что одно и то же слово может выступать и как вершина, и как зависимое в структуре дерева зависимостей. В отличие от традиционного синтаксиса вершиной всего дерева всегда является предикат (а не пара подлежащее-сказуемое). Служебные слова (предлоги и союзы) включаются в структуру как самостоятельные единицы и являются вершиной хотя бы для одного зависимого.

Программы, умеющие делать автоматический синтаксический анализ, называются синтаксическими анализаторами, или парсерами (англ. parser). Большинство парсеров построено на применении грамматики зависимостей (иногда с элементами структуры составляющих). И это справедливо, потому что эта теория обладает большой мощностью и объяснительной силой, кроме того отличается отменным формализмом, что позволяет создавать работающие программы. Однако подготовка и использование таких синтаксически размеченных корпусов (по-английски они называются treebanks) связаны с определенными сложностями. Одна из главных в нашем случае заключается в том, что большинство русистов, как уже было отмечено, не знакомо с этой теорией. Она не является, таким образом, общепринятой и «нейтральной» (в смысле принципов аннотирования Дж. Лича). Анализаторы, построенные на ее основе, надежны и перспективны, но корпусом, размеченным на ее основе, могут пользоваться лишь хорошо подготовленные лингвисты. Кроме этого, возникают и более общие проблемы.

1. Большинство синтаксических анализаторов строят синтаксические связи на основе морфологической информации и порядка слов. Естественно, что при морфологически слабом входе парсер не в состоянии построить хорошее дерево. Чем меньше морфологии, тем хуже дерево.

Петя жахнул холодной водички и готов.

Жаннетт хлоп виски бурбон и ага.

Сравните, как много формально выраженных морфологических признаков в первом предложении и как мало – во втором. Соответственно, установить надежные связи во втором предложении гораздо сложнее.

2. Омонимия – проблема не только для морфологии, но и для синтаксиса. Поскольку большинство парсеров не учитывают лексическое значение слов, омонимия чисто синтаксических связей оказывается очень велика.

Гонщик Хяккинен вернулся из командировки в Финляндию.

Кажется, что мы однозначно понимаем это предложение и радуемся возвращению гонщика Формулы-1 на родину. Однако все не так просто: Хяккинен давно живет в Монте-Карло, куда он и вернулся. Правильная связь в этом предложении – из командировки в Финляндию, а не вернулся в Финляндию.

3. Синтаксические анализаторы опираются на буквенную цепочку, поэтому существует трудность с выделением и маркировкой в корпусе нулевых синтаксических единиц.

Мой брат – электрик.

Затруднительно построить дерево для предложения, в котором нет глагола. Один из возможных подходов – ввести «фантомный», нулевой, глагол:

4. Парсеры умеют работать с письменной речью, в которой много хороших связей. Анализ стихотворной или разговорной речи существенно усложняет задачу из-за нестандартного порядка слов, контекстного эллипсиса и других явлений. Попробуйте-ка сами догадаться, от чего зависит страстей бунтующих в следующем отрывке из стихотворения А. С. Пушкина «Безверие»:

«Счастливцы! – мыслит он, – почто не можно мне

Страстей бунтующих в смиренной тишине,

Забыв о разуме и немощном и строгом,

С одной лишь верою повергнуться пред богом!»

Синтаксическая разметка в терминах членов предложения

Этот подход знаком всем, кто освоил в школе подчеркивание волнистой линией или штрихпунктиром. Его главное преимущество – внимание к семантике синтаксических единиц. Он предлагает исследователю подробную функционально-семантическую классификацию синтаксических групп, которые называются в этой теории члены предложения (подлежащее, сказуемое, второстепенные члены предложения и т. д.). Ни в какой другой теории нет такой разветвленной семантической классификации, например, обстоятельств: времени, образа действия, меры и степени, места, причины, цели, условия, уступки. Описание связей между группами представлено гораздо скромнее. Например, некоторые авторы в рамках этой теории декларируют, что предложно-падежные сочетания («в корпусе», «с другом» и т. п.) не являются объектом синтаксического анализа. Основы традиционного подхода в общем и целом сложились в работах русских лингвистов еще в XIX веке. По-видимому, наиболее полным описанием русского синтаксиса с этой точки зрения можно считать академическую грамматику 1960 года. Современная классификация отражена с небольшими вариациями в ряде вузовских учебников.

Плюсы этого подхода в следующем:

● общеизвестность и простота;

● возможность косвенным образом искать материал для самых разных исследований, даже опирающихся на другие синтаксические подходы (прежде всего это относится к синтаксической теории, основанной на выделении структурных схем).

К минусам традиционного похода можно отнести следующее:

● описание синтаксических узлов и игнорирование синтаксических связей;

● непоследовательность в описании и неустранимые противоречия (отсутствие предложных групп, невозможность четко разграничить разные типы второстепенных членов и т. д.);

сложность автоматической обработки.

В связи с этим практическое использование этого подхода в корпусной лингвистике наталкивается на множество препятствий.

1. Нечеткость критериев выделения определенного члена предложения, что приводит к появлению значительного числа случаев, в которых невозможно точно определить член предложения.

а) Косвенное дополнение / несогласованное определение.

С мостов через Сену посрывало гирлянды иллюминации.

б) Косвенное дополнение / разные виды обстоятельства.

У дешевых дубленок шкуры могут быть не прокрашены, и тогда они будут линять при влажной погоде (косвенное дополнение / обстоятельство условия).

в) Разные виды обстоятельств.

Ничьей закончились и выборы в Сенат, который партии разделили ровно пополам (обстоятельство образа действия / меры и степени).

В ходе так называемых «зачисток» <…> жестоко избивали хозяев при попытках возражать или жаловаться (обстоятельство времени / обстоятельство условия).

г) Нечеткость разделения прямого объекта и части сказуемого.

Российский лидер соблюдает приличия…

2. Недостаточно проработанный список форм выражения разных членов предложения. На деле он оказывается существенно бóльшим, чем тот, который извлекается из научной литературы и учебных пособий.

а) Подлежащее и главный член односоставного предложения. Хотя в пособиях указывается на возможность аналитического выражения подлежащего, конкретные списки все же не охватывают всего круга возможных форм и нуждаются в корректировке.

В стотысячной натовской группировке на Балканах уже выявилось почти два десятка смертельных случаев и до 50 заболевших.

…на покупателя, даже просто пришедшего взглянуть на дубленки, тотчас накидывались сразу с десяток продавцов.

б) Неотмеченное в пособиях «составное подлежащее», состоящее из инфинитива-связки и «присвязочного» имени.

Стать археологом было ее мечтой.

3. Проблема вложенных членов предложения, а именно, ситуация, при которой многокомпонентный член предложения в свою очередь может быть разложен на более мелкие компоненты, которым можно приписать определенную синтаксическую информацию. Удельный вес таких случаев оказывается довольно большим, а спектр форм выражения – достаточно широким.

а) Обстоятельства и определения, состоящие из нескольких лексем, в частности деепричастные и причастные обороты.

Холдинг NETBRIDGE заявил о $ 6 млн., потраченных на проекты List.ru <…>, и это не считая собственных проектов…

б) Вводные единицы и обращения, которые не являются членам предложения, тем не менее могут включать в себя зависимые элементы, которые, по идее, должны быть размечены.

Капиталисты всех стран, соединяйтесь!

По признанию менеджеров, кофейни – дело выгодное, быстро окупаемое и перспективное.

в) Не всегда возможно провести границу между самостоятельными предложениями, вводными предложениями и вводными словами. Ситуация осложняется и тем, что на практике вводные слова часто не выделяются запятыми, что создает формальные основания для включения их в состав членов предложения. Однако определить синтаксическую функцию таких единиц представляется трудновыполнимой задачей.

…и вообще работать на комбинате – почти такое же везение, как жить в Москве.

г) Еще одной проблемой оказывается разметка составного сказуемого.

Неопределенность границы между составным сказуемым и простым сказуемым, выраженным фразеологическим оборотом. Если считать фразеологический оборот составной лексемой, то сказуемое, выраженное такой лексемой, должно размечаться как простое. Однако при решении такого рода вопросов приходится опираться на фразеологические словари, которые не отличаются последовательностью. Так, например, фразеологические словари выделяют фразеологизм «выводить из строя», но не выделяют «выводить из тени». При разметке это должно означать, что в первом предложении глагольное сказуемое «выводят из строя», а во втором – «выводят».

Они выводят из строя оптику.

Они выводят из тени неизвестных артистов.

д) Множество «мелких» единиц исключаются из синтаксического разбора.

И работы Минкульту и Михаилу Швыдкому хватит еще надолго.

Но все чаще и чаще президент проговаривается, обнаруживая истинные свои воззрения.

Дополнительная литература

1. Abeillé A. (ed.). Treebanks: Building and using parsed corpora. Springer, 2003.

2. Wallis S. Searching treebanks and other structured corpora // Lüdeling A. & Kytö M. (ed.) Corpus Linguistics: An International Handbook. Handbücher zur Sprache und Kommunikationswissenschaft series. Berlin: Mouton de Gruyter, 2008. Р. 738–759.

Страницы книги >> Предыдущая | 1 2

Скачать книгу "Введение в корпусную лингвистику"