Читать книгу "Введение в корпусную лингвистику"

Текст добавлен: 19 февраля 2016, 19:40

Автор книги: Михаил Копотев

Жанр: Языкознание, Наука и Образование

сообщить о неприемлемом содержимом

Авторские права соблюдены

Текущая страница: 5 (всего у книги 11 страниц) [доступный отрывок для чтения: 2 страниц]

Скачать книгу

Шрифт:

- 100% +

3. Апресян Ю. Д., Богуславский И. М., Иомдин Б. Л. и др. Синтаксически и семантически аннотированный корпус русского языка: современное состояние и перспективы // Национальный корпус русского языка: 2003–2005. М.: Индрик, 2005. С. 193–214.

4. Гладкий А. В. Синтаксические структуры естественного языка в автоматизированных системах общения. М., 1985.

5. Копотев М. В. Принципы синтаксической разметки Хельсинкского аннотированного корпуса русских текстов ХАНКО // Компьютерная лингвистика и интеллектуальные технологии. Труды международной конференции «Диалог – 2006». М.: Издательство РГГУ, 2006. С. 280–284.

6. Ножов И. М. Морфологическая и синтаксическая обработка текста (модели и программы) сегментации русского предложения. Автореф. дисс… канд. филол. наук. М., 2003.

7. Толдова С.Ю. и др. Оценка методов автоматического анализа текста 2011–2012: синтаксические парсеры русского языка // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог». Вып. 11(18). М.: Изд-во РГГУ, 2012. C. 797–809.

Задания

1. На одной лингвистической олимпиаде утверждалось, что предложение Письма знакомой из Москвы не заменят фотографии его любимой и милой дочери Марии имеет более тысячи различных значений. Покажите несколько вариантов, нарисовав стрелки, показывающие синтаксические связи между словами.

2. На сегодняшний день существует несколько синтаксически размеченных корпусов русского языка, например:

● на сайте НКРЯ: ruscorpora.ru/search-syntax.html

● на сайте ХАНКО: www.ling.helsinki.fi/projects/hanco

Познакомьтесь с ними и предположите, в рамках каких синтаксических теорий они созданы.

3. Сравните синтаксические анализаторы на сайтах aot.ru/demo/graph.html и www.dictum.ru/ru/syntax/blog, предложив для разбора несколько одинаковых предложений. Попробуйте объяснить разницу в разборах и, если есть, ошибки.

4*. Проведите синтаксический анализ следующего предложения: И будильник так тикает в тишине, точно дом через десять минут взорвется. Пользуясь списком семантических отношений (aot.ru/docs/SemRels.htm), объясните все связи, найденные в этом предложении (другими словами, расшифруйте названия стрелок). Объясните, почему программа не может построить полное дерево для этого предложения.

Глава 9. Семантическая разметка

В любом языке лексем гораздо больше, чем морфологических классов или синтаксических типов, поэтому создать более-менее полное описание лексики оказывается гораздо сложнее, чем описать падежи или синтаксические связи. Кроме того, лексическая неоднозначность встречается чаще, чем морфологическая.

Подсчитано (Fellbaum и др. 1998), что носители языка, описывая значение слов, соглашаются друг с другом менее чем в 80 % случаев. Двадцать процентов остается неопределенным даже для носителей языка! Сравните с морфологией: несогласие в определении падежа у школьников возникает, только если они не очень хорошо подготовились к уроку.

Полного и непротиворечивого описания лексики языка, основанного на общепринятой теории, не существует. Поэтому корпусная лингвистика находится в незавидном положении, пытаясь использовать существующие частичные, противоречивые и авторские подходы. Под семантической разметкой обычно понимают приписывание лексемы к определенному семантическому классу. Хотя иногда встречаются и расширенные толкования, включающие разметку семантики словообразовательных морфем (префиксов, суффиксов и т. д.). Проблема, однако, заключается в том, что на сегодняшний день не существует не только общепринятой (как в морфологии), но даже хоть сколько-то законченной (как в синтаксисе) классификации, нацеленной на описание лексики и применимой к любому произвольно взятому речевому отрезку. Уместнее в этом смысле говорить не о полной реализации семантической разметки на корпусном материале, а о наличии ряда подходов, позволяющих более или менее полно реализовать описание лексических единиц. Семантическая разметка в современном корпусе является скорее полем проверки конкретной теории, чем полным теоретически нейтральным описанием семантических признаков.

В 1990-е годы в Японии был проведен эксперимент, в котором компьютер анализировал упрощенный текст одной басни и рисовал иллюстрации к нему. Текст звучал так: «Заяц бежал. Заяц оглянулся назад. Заяц сказал: “Черепаха никогда не сможет обогнать меня”. Заяц лег на траву и заснул». В мультфильме, нарисованном компьютером, заяц лежал на траве с повернутой назад головой. Машина упустила всем понятную информацию о том, что обычно спят в удобной позе.

Этот эксперимент показывает реальную сложность автоматической семантической обработки и то, какую роль играет невыраженная, не эксплицированная в тексте информация. Как ее извлекать и описывать – непонятно. Если говорить о русском языке, то в настоящее время существует несколько подходов к разметке русских текстов. Все они являются в большей или меньшей мере авторскими и экспериментальными.

Электронные словари

Толковые словари, конечно, не являются системами семантического анализа, поскольку представляют собой просто сравнительно полно организованный перечень единиц. Однако они создают основу для семантического анализа и являются одними из самых широко распространенных лингвистических продуктов.

Словарь, вероятно, древнейший лингвистический продукт. Самый старый словарь, дошедший до наших дней, создан больше четырех тысяч назад в Аккаде (современная Сирия). Этот двуязычный шумеро-аккадский словарь не электронный и даже не бумажный, а каменный.

При попытках использовать словари для решения компьютерных задач довольно быстро выяснилось, что они плохо подходят для этого и не только потому, что представляют собой глиняную табличку или бумажную книгу. Оказалось, что, даже переведенные в электронную форму, они плохо систематизируют и организуют лексику: слова описываются не как единая система, а как набор отдельных единиц, специальные пометы используются непоследовательно, единого «метаязыка» для представления всех значений не существует.

В самом большом словаре русского языка (17-томный БАС) слово забывать толкуется как ‘переставать помнить’, а помнить – как ‘не забывать’. Получается, что забывать – это ‘переставать не забывать’. Логично, но неверно. В лингвистике и логике эта проблема получила названия порочный круг в толковании, что точно отражает суть проблемы.

Тем не менее, поскольку словари оказываются самыми объемными источниками лексического материала, их нередко используют для семантического аннотирования. Один из самых простых способов использования словаря – ссылка от каждой текстоформы корпуса к соответствующей словарной статье. Такая разметка позволяет искать, например, все слова, имеющие в толковании лексему мебель или помету устар. Еще одна возможность – перенос помет из словаря в корпус. По идее, любой словарь должен содержать в предисловии конечный список помет (разг., устар., диал. и т. д.) и их точное описание, что можно использовать для аннотирования корпуса. В словарной практике, однако, все не так однозначно.

При внимательном анализе (Беликов 2005) оказывается, что пометы расставлены бессистемно. В Большом толковом словаре (БТС) слово лубок в значении ‘твёрдая накладка в повязке на место костного перелома’ имеет помету мед., а у слова шина в том же значении такой пометы нет. Хуже того, корпусной анализ показывает, что лубок связан не с медицинской, а с ветеринарной терминологией.

Итак, главная проблема использования словаря как основы для семантического аннотирования корпуса состоит в том, что словарные толкования разнородны и противоречивы. Кроме этого, не решаются и более общие проблемы: выбор нужного значения у омонимов или многозначных слов, неполный учет значений.

Компьютерные тезаурусы

В 1980-е годы в США возник проект WordNet – электронная лексическая база данных, в которой лексемы и их лексические связи представлены формальным образом. Основной единицей в WordNet является не лексема, а синонимическая группа. Она называется синсет (англ. synset, synonym set) и в строго лингвистическом смысле состоит из квазисинонимов (слов с близким значением), которые связаны друг с другом отношениями антонимии, гиперонимии, гипонимии и т. д. Таким образом, база представляет собой не словарь, а тезаурус, отражающий более сложные отношения между лексическими единицами языка.

Тезáурус (от греч. θησαυρός – сокровище) в современной лингвистике – особая разновидность словарей общей или специальной лексики, в которых указаны семантические отношения (синонимы, антонимы, паронимы, гипонимы, гиперонимы и т. п.) между лексическими единицами (ru.wikipedia.org/wiki/Тезаурус).

На рисунке снизу приведен фрагмент тезауруса для русского языка: глагол чувствовать является гиперонимом для глаголов бояться, верить, волноваться, гордиться; глагол бояться связан каузативными отношениями с глаголом пугать, глагол дрожать связан синонимическими отношениями с глаголом трястись и т. д.

Продолжением американского проекта стал европейский проект EuroWordNet, объединяющий лексические системы конкретных языков, в том числе и русского. На верхних уровнях иерархически организованной системы располагаются базовые лексические концепты единые для всех языков в этой системе. На нижних – лексические единицы, специфичные для конкретных языков.

Тезаурусы могут применяться в самых различных областях компьютерной лингвистики. Кроме простого использования их как словарей синонимов, антонимов и т. д., они используются для оптимизации поиска, измерения семантической схожести между словами путем подсчета ветвей до общего узла в иерархии, образуемой гиперонимическими и гипонимическими связями слов, и т. д. Среди прочего, и WordNet, и EuroWordNet могут быть использованы для семантического аннотирования корпуса.

Одним из самых популярных текстов в корпусной лингвистике стал роман Оруэлла «1984». Множество новых типов аннотаций было апробировано на этом тексте и его переводах. В частности, была сделана семантическая аннотация на основе WordNet. Любопытно, что в романе предлагается новый язык (новояз, англ. Newspeak), лексика которого «была сконструирована так, чтобы точно, а зачастую и весьма тонко выразить любое дозволенное значение, нужное члену партии, а кроме того, отсечь все остальные значения, равно как и возможности прийти к ним окольными путями» (Оруэлл «1984»). Удобный для семантической разметки, но, к счастью, так и не созданный в реальности язык.

Базы данных WordNet структурированы гораздо более формально, чем словари, и синсеты легко использовать в качестве семантической разметки корпуса. Однако и этот подход не лишен недостатков. Один из существенных получил название «проблема тенниса».

Слова теннисист и теннисистка тесно связаны в иерархии WordNet, поскольку оба обозначают человеческое существо, связанное со спортом, а именно с теннисом. Однако слова теннисист и ракетка оказываются связанными только через длинную цепочку отношений, поскольку слово теннисист входит в гиперонимическую группу человек, а ракетка – в группу инструмент. Домена теннис, который бы «накороть» связывал теннисиста и его ракетку, в WordNet не существует и его невозможно создать.

Еще одна проблема – большое количество синсетов, почти не отличимых друг от друга: например, в английской версии тезауруса можно найти четыре различных синсета, обозначающие сходство: sameness, similarity, likeness, resemblance, каждый следующий из которых является гипонимом для предыдущего и при этом является практически не отличимым от своего гиперонима.

Онтологии

Часто тезаурусы считаются разновидностью онтологий. Однако если тезаурусы представляют отношения между языковым единицами – лексемами, то принцип онтологии – это различение собственно явления и способов его называния. Говоря формально, онтология включает в себя понятия, являющиеся классами, отношениями, функциями и индивидами.

Отношения между реальными объектами и соответствующими словами могут совпадать: брат и сестра являются антонимами и в языке, и, случается, в реальном мире. Однако в рамках онтологии возможно задать отношения между объектами мира, даже если эти отношения не выражены лексемами: например, в русском языке нет специального слова для понятия «брат-и-сестра», но в рамках онтологии можно задать «ячейку» для этого класса объектов. В немецком языке такая эта ячейка будет заполнена конкретным словом – Geschwister.

Основными компонентами онтологий являются:

● понятия (англ. concepts), или классы (англ. classes): «мужчина» и «женщина» входят в класс «человек», который входит в класс «млекопитающие» и т. д.;

● атрибуты (англ. attributes): мужчина имеет атрибут «мужской пол», женщина, соответственно, «женский пол»;

● отношения (англ. relations): «отец» и «мать» находятся в отношении «быть родителем для…»;

● экземпляры (англ. instances), или индивиды (англ. individuals): конкретные представители класса, например, Петя, Алексей в следующем предложении.

Некий экземпляр Алексей имеет атрибут мужской пол и находится в отношении «быть родителем для Пети», что автоматически определяет Алексея в класс «отец» (даже если он этого не знает).

Традиционная область использования онтологий – автоматическое извлечение информации (англ. automatic information extraction / retrieval), например из новостных потоков или твиттер-сообщений. Специализированные онтологии широко используются для обработки тематической информации, такой как медицинские тексты или криминальные сводки.

Предположим, вы простудились. Представьте теперь, что ваш сосед оказался в той же ситуации. И другой сосед, и третий… Врачи узнают о возможной массовой эпидемии через несколько дней или даже недель. Специалисты по извлечению информации из социальных сетей – через пару минут при условии, что вы и ваш сосед напишите об этом Вконтакте.

Описание семантических ролей

Существуют проекты, нацеленные на полное семантическое описание любого текстового фрагмента. В основе описания лежат разные варианты падежной грамматики, или описания семантических ролей (англ. thematic role / deep case). Семантические роли, или глубинные падежи, – это введенный американским лингвистом Чарлзом Филлмором метод описания семантики предиката через указание на участников называемой предикатом ситуации: агенс (одушевленный инициатор и контролер действия), пациенс (участник, претерпевающий существенные изменения), бенефактив (участник, чьи интересы затронуты в процессе осуществления ситуации), экспериенцер (носитель чувств и восприятий) и т. д. Три самых известных проекта, основанных на этих идеях Ч. Филлмора, – это FrameNet, Propbank и VerbNet. При существенной разнице в подходах во всех из них центральным объектом аннотирования является глагол и семантические роли его синтаксического окружения.

Эти проекты не являются онтологиями в строгом смысле, однако формально близки к ним, поскольку представляют определенную структуру данных, которая в идеале содержит все возможные классы объектов, их атрибуты и отношения.

На русском языке активно развивается, впитывая достижения русской лингвистики, близкий проект семантической разметки корпуса. Исходные положения описания русской лексики были заложены в работах Е. В. Падучевой и ее коллег и реализованы в 90-е годы в виде лексической базы данных «Лексикограф». В 2000-е годы база данных была существенно расширена и позже стала основой для семантической разметки НКРЯ, которая включает на сегодняшний день почти 300 тегов для всех самостоятельных частей речи. Важно, что в НКРЯ этот подход реализован в виде нестрогой онтологии, совмещающей древовидный (англ. tree hierarchy) и фасеточный (англ. faceted hierarchy) принципы организации. Древовидный принцип значит, что разработчику корпуса нужно выбирать по принципу «или-или», потому что лексема может входить только в один класс. Например:

Глагол «бегать» имеет сему ‘движение’ и входит класс глаголов движения, для которых этот признак основной. Глагол ‘закрывать’, для которого эта сема не основная, не входит в этот класс. Лексема здание входит в класс «контейнеры», лексема дом входит в подкласс «здания» класса «контейнеры».

Фасеточный подход состоит в соблюдении принципа «и-и» (одна лексема может входить в несколько классов), что позволяет избежать описанной выше «проблемы тенниса»: одна и та же лексема может быть приписана к разным классам. Например, творог – это и класс «вещества и материалы», и класс «еда и напитки».

В заключение отмечу, что многие семантические классификации «дрейфуют» в сторону объединения с синтаксисом, поскольку становится ясно, что синтаксическое поведение слова связано с их семантикой. Соответственно, хорошо описав семантику, можно вывести из нее синтаксическое поведение и наоборот, описав синтаксические контексты, можно приблизиться к описанию значения слова. Что удобнее и технически целесообразнее формализовать при создании корпуса – вопрос сложный и открытый для новых поколений корпусных лингвистов. В сторону совмещения семантической и синтаксической разметки идут и создатели НКРЯ, и создатели англоязычного проекта FrameNet. Эта практическая работа сулит, по моему мнению, существенный потенциал для теоретической лингвистики.

Дополнительная литература

1. Fellbaum C. et al. Performance and confidence in a semantic annotation task // WordNet: An electronic lexical database. 1998. Р. 217–239.

2. Framenet: framenet.icsi.berkeley.edu/fndrupal, Unified Verb Index for PropBank, FrameNet, VerbNet: verbs.colorado.edu/verb-index

3. Kornilakis Η. et al. Annotating and Lemmatizing a Corpus for the Validation of Balkan Wordnets // Workshop on Balkan Language Resources and Tools. Thessaloniki, Greece, November 2003. Доступно по адресу: cgi.di.uoa.gr/~harryk/papers/Balkan_Resources.pdf.

4. Miller G. A. et al. Introduction to wordnet: An on-line lexical database // International journal of lexicography. 1990. Vol. 3. № 4. P. 235–244.

5. Palmer M. et al. The Proposition Bank: An Annotated Corpus of Semantic Roles // Computational Linguistics. 2005. № 31 (1). P. 71–106.

6. Азарова И. В., Митрофанова О. А., Синопальникова А. А. Компьютерный тезаурус русского языка типа WordNet. Доступно по адресу: project.phil.spbu.ru/RussNet/index_ru.shtml.

7. Кретов А. А. Анализ семантических помет в НКРЯ // Национальный корпус русского языка: 2006–2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009. С. 240–257.

8. Лукашевич Н. В. Тезаурусы в задачах информационного поиска. М.: Изд-во Московского университета, 2011.

9. Ляшевская О. Н., Кузнецова Ю. Л. Русский Фреймнет: к задаче создания корпусного словаря конструкций // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог 2009» (Бекасово, 27–31 мая 2009 г.). Вып. 8 (15) М.: Издательство РГГУ, 2009. С. 306–313. Доступно по адресу: www.dialog-21.ru/digests/dialog2009/materials/html/47.htm

10. Рахилина Е. В., Кустова Г. И., Ляшевская О. Н., Резникова Т. И., Шеманаева О. Ю. Задачи и принципы семантической разметки лексики в НКРЯ // Национальный корпус русского языка: 2006–2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009. С. 215–239.

11. Рубашкин В. Ш. Онтологическая семантика. Знания. Онтология. СПб.: Физматлит, 2013.

Задания

1. Найдите в Википедии определения и приведите примеры следующих терминов: мероним, гипероним, холоним, гипоним.

2. Познакомьтесь со списком семантических помет НКРЯ: ruscorpora.ru/corpora-sem.html и выполните задания.

2а. Проверьте, как решена проблема тенниса для слов «ракетка», «теннисист», теннисистка» в НКРЯ. Скопируйте наборы семантических тегов для этих лексем (для этого достаточно нажать на выбранное слово в результатах запроса). Есть ли совпадающие семантические теги? Правильно ли приписаны эти теги? Все ли они являются лексическими в строгом смысле?

2б. Для данных ниже слов сначала самостоятельно подберите семантические признаки из списка семантических помет, а затем проверьте себя, найдя эти же слова в корпусе: молоток, лук, пожилой, арендовать, аренда. Ваша интуиция или пометы в корпусе оказались более точными и полными?

3*. Попробуйте доказать, что Википедия является или не является примером онтологии.

Глава 10. Разметка мультимодального корпуса

В русской культуре мужчины при встрече пожимают друг другу руки. Игнорирование этого жеста может оскорбить партнера. У представителя маори он вызовет недоумение: коренные жители Новой Зеландии считают, что надо почувствовать дух собеседника – в буквальном смысле, прикоснувшись носами и вдохнув изо рта в рот.

Язык, как видно из этого примера, не единственное средство коммуникации. Можно общаться жестами и позами, с помощью интонации и высоты тона. Акт устной коммуникации состоит из множества взаимосвязанных и отлично синхронизированных в человеческом сознании каналов, однако исследователи часто рассматривают их как независимые модусы коммуникации, которые могут быть выделены и описаны отдельно. Например, связь между употреблением глагольных форм и движениями глаз говорящего еще не до конца понятна, но при наличии соответствующего корпуса она может быть выявлена, и тогда эти параллельные, отдельно описанные каналы окажутся связанными в сеть, отражающую реальный процесс устной коммуникации.

Корпус, содержащий такую разметку устной речи, называется мультимодальным (англ. multimodal corpus), или мультимедийным (англ. multimedia corpus). Материалом такого корпуса служат самые разные видео– или аудиозаписи: семейный видеоархив, фрагменты фильмов или даже записи скрытой камерой. Его аннотирование радикально отличается от разметки письменных текстов, привязанных к символьным цепочкам, проще говоря – к буквам. Главное отличие заключается в том, что базовыми объектами мультимодального аннотирования являются единицы, во-первых, представленные не в виде букв, а во-вторых, не вложенные друг в друга (в том смысле как слово «вложено» в предложение). Например, жест «рукопожатие» из приведенного выше примера представлен в таком корпусе не словом, а действием; «обмен дыханием» и прикосновение носами не вложены друг в друга, а являются параллельными, взаимодополняющими единицами коммуникации. Аннотирование мультимодального корпуса – это не единая связанная разметка, а набор параллельных разметок – уровней аннотации, или слоев (англ. tier), маркирующих разные каналы коммуникации. В техническом смысле разные уровни обычно хранятся в разных файлах, с которыми специалисты в разных областях могут работать независимо. Объединение уровней называется мультимодальной разметкой, или сеткой (англ. grid). Основой для объединения этих разнородных (мультимодальных) единиц становится промежуток времени, в течение которого разворачивается акт коммуникации (сессия, англ. session). Сами единицы могут выступать поочередно, накладываться и «перебивать» друг друга, но все они расположены на одной шкале и выровнены с помощью секунд и даже миллисекунд.

Включите воображение и представьте, что приведенный ниже фрагмент Русского эмоционального корпуса (www.harpia.ru/rec) движется и звучит.

Типы информации в мультимодальном корпусе

На разметку пятиминутного видеофрагмента может понадобиться целый час. Поэтому количество уровней аннотирования мультимодального корпуса напрямую зависит от наличия ресурсов. Простой перевод звукового потока в письменную форму (орфографическая транскрипция) является первым и необходимым уровнем такой разметк и. В минимальном случае корпус включает аудиофрагменты и транскрипты, но может включать и более подробную информацию. Сравните две разметки одного фрагмента из русского Корпуса рассказов о сновидениях (www.spokencorpora.ru). Вторая разметка содержит, кроме орфографической транскрипции, указания на длину пауз, движение тона и разные прочие «пыки» и «мыки»:

И когда || когда я приехала на нашу остановку,

∙∙∙(0.7) Иw мм(0.4) /когда-а || ∙∙(0.2) ’’(0.3) ∙∙(0.4) {ЧМОКАНЬЕ 0.2} ∙∙(0.4) когда я приехала на нашу /остановку’,

[Заполненную паузу мм(0.4) произносит скрипучим голосом.]

Аннотация может также включать фонетическую транскрипцию и акустическое аннотирование, сделанное с помощью специальных программ. Одна из таких программ, PRAAT (www.fon.hum.uva.nl/praat), позволяет анализировать акустические характеристики звуков, интонацию, проводить формантный анализ и многое другое. Корпус, содержащий только фонетический уровень, часто называют корпусом звучащей речи, или звуковым корпусом (англ. speech corpus, spoken corpus). В зависимости от стоящих перед исследователем задач и наличия ресурсов аннотирование может быть более или менее глубоким и включать как экстралингвистическую, так и лингвистическую разметку, описанную в предыдущих главах.

Le CID, Corpus d'interactions dialogales, – один из самых богато аннотированных корпусов. Он содержит 7 уровней разметки: фонетическую, просодическую, морфологическую, синтаксическую, дискурсивную, жестовую и мимическую. Его объем – всего 8 часов видеозаписи; это, наверняка, меньше, чем ваши разговоры в течение одного дня.

Другая популярная и бесплатная программа для работы с мультимодальным корпусом, ELAN (www.lat-mpi.eu/tools/elan), кроме всего прочего дает возможность самостоятельно создавать многоуровневое аннотирование видео– или аудиопотока, привязанного как ко времени, так и к уже существующему аннотированию (например, к орфографической транскрипции). Создатели корпуса могут по своему усмотрению выбирать необходимые уровни аннотирования. Вот пример (опять же в виде неподвижной картинки!) глубокого аннотирования, которое включает разные уровни: интонацию и акустическую характеристики, орфографическую транскрипцию, движение тела, жесты и т. д.

Сбор материала

Отдельной проблемой для создателя мультимодального корпуса является собственно сбор данных. Что записывать? Как записывать? Можно ли снимать скрытой камерой? Многое зависит от конкретных задач. Однако если вы будете записывать данные для вашего мультимодального корпуса, помните о следующем:

● запись должна быть непрерывной;

● запись должна быть без цензурных сокращений (какие бы выражения там ни встретились);

● запись должна сопровождаться точным описанием ситуации (время, социальные, возрастные, профессиональные, гендерные и другие характеристики участников);

● условия записи (свет, шум) должны, насколько это возможно, находиться в балансе между комфортом участников и техническими требованиями (бывает, что порывы ветра, незаметные человеческому уху, безнадежно портят запись);

● если запись ведется на несколько устройств, они должны быть синхронизированы по времени;

● разрешение от основных участников стоит получить до записи. При этом необходимо получить разрешение и на последующее публичное воспроизведение. Если разрешений по каким-то причинам нет, то участников записи можно анонимизировать (т. е. сделать невозможной их идентификацию) с помощью специальных приемов или не воспроизводить запись публично.

Записанные данные обычно хранятся в цифровом виде. Видеофайлы с хорошим разрешением тяжело обрабатывать и дороже хранить. С другой стороны, недостаточное качество видео может осложнить анализ мелких деталей, таких как движение глаз или микрожесты. Даже если вы точно знаете, что будете делать с полученными записями, в каждом случае стоит найти баланс между объемом сохраняемой информации и ее качеством с учетом возможного в будущем расширения разметки.

Для создания качественных видеоматериалов достаточно хорошей камеры и психологических условий максимальной естественности (обычно ощущение естественности происходящего возникает само собой через некоторое время: известны случаи, когда студенты на экзамене забывали о включенной камере). Иногда, впрочем, довольно затруднительно быть совершенно естественным: экипированный участник записи может быть похож на героя компьютерной игры.

Дополнительная литература

1. Bernsen N. O. Foundations of multimodal representations: a taxonomy of representational modalities // Interacting with Computers. Vol. 6. Issue 4. December 1994. P. 347–371.

2. Kipp M., Neff M., Albrecht I. An Annotation Scheme for Conversational Gestures: How to economically capture timing and form // Language Resources and Evaluation. 2007. Vol. 41. № 3–4. Р. 325–339.

3. MacWhinney B. The CHILDES Project: Tools for analyzing talk. transcription format and programs. Routledge, 2000

4. Богданова Н. В. и др. Звуковой корпус русского языка «Один речевой день»: пути пополнения и первые результаты исследования // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 26–30 мая 2010 г.). Вып. 9 (16). М.: Издательство РГГУ, 2010. С. 41–47. Доступно по адресу: www.dialog-21.ru/dialog2010/materials/pdf/8.pdf.

5. Гришина Е. А. Мультимедийный русский корпус (МУРКО): проблемы аннотации // Национальный корпус русского языка: 2006–2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009. С. 175–214. Доступно по адресу: ruscorpora.ru/sbornik2008/09.pdf.

6. Кибрик А. А., Подлесская В. И. (ред.). Рассказы о сновидениях. Корпусное исследование устного русского дискурса. М.: Языки славянской культуры. 2009.

7. Котов А. А., Гопкало О. С. Русскоязычный эмоциональный корпус: коммуникативное взаимодействие в реальных эмоциональных ситуациях // Труды международной научной конференции «Корпусная лингвистика – 2011». Доступно по адресу: corpora.phil.spbu.ru/Works2011/Котов_211.pdf.

8. Крейдлин Г. Е. Невербальная семиотика. М.: Новое литературное обозрение, 2002.

Задания

1. Русский мультимедийный корпус МУРКО – самый крупный русскоязычный ресурс такого рода. Прочитайте инструкцию к корпусу (ruscorpora.ru/instruction-murco.html) и дайте определение термина кликст. Что вы делаете, когда надо показать кому-то, что он дурак? Посмотрите, какие жесты со значением ‘дурак’ представлены в МУРКО (искать слово «дурак» бесполезно!). Есть ли там ваш жест?

2. Основная часть Звукового корпуса русского языка, который готовится в Санкт-Петербурге, называется «Один речевой день». Познакомьтесь с сайтом проекта model.org.spbu.ru и ответьте на следующие вопросы:

a. Что имели в виду авторы, давая такое название проекту: конкретный день календаря или что-то другое?

b. Какие варианты естественного произношения лексем «сейчас» и «конечно» можно найти в корпусе?

3. Прочитайте расшифровку одного из рассказов, включенных в Корпус рассказов о сновидениях (www.spokencorpora.ru/showtrans.py?file=00dreams/053z), попробуйте по полной или упрощенной транскрипционной записи догадаться об эмоциональном состоянии говорящего. Проверьте себя, нажав на «Старт» в правом верхнем углу и прослушав этот же рассказ.

Страницы книги >> Предыдущая | 1 2

Скачать книгу "Введение в корпусную лингвистику"