Электронная библиотека » Михаил Копотев » » онлайн чтение - страница 6


  • Текст добавлен: 19 февраля 2016, 19:40


Автор книги: Михаил Копотев


Жанр: Языкознание, Наука и Образование


сообщить о неприемлемом содержимом

Текущая страница: 6 (всего у книги 11 страниц) [доступный отрывок для чтения: 3 страниц]

Шрифт:
- 100% +

4*. Самой значительной коллекцией устных текстов (включая аудио– и видеозаписи) является проект CHILDES, объединяющий около 130 корпусов детской речи (больше 20 языков). Найдите этот проект в интернете и выясните, есть ли там записи русской детской речи.

Глава 11. Многоязычные корпуса

История компьютерной лингвистики (к которой относится и корпусная), как в капле воды, отражается в развитии машинного перевода: надежды и разочарования, интерес и скепсис пользователей – все в этой области отражает успехи и провалы компьютерной лингвистики. История машинного перевода берет начало в далеком 1949 году, когда Уоррен Уивер написал свой знаменитый меморандум «Translation»:

«I have a text in front of me which is written in Russian but I am going to pretend that it is really written in English and that it has been coded in some strange symbols. All I need to do is strip off the code in order to retrieve the information contained in the text».

«У меня перед глазами текст, написанный по-русски, но я собираюсь сделать вид, что на самом деле он написан по-английски и закодирован при помощи довольно странных знаков. Все, что мне нужно, – это взломать код, чтобы извлечь информацию, заключенную в тексте».

Задача оказалась не такой простой, как это представлялось вначале: было изобретено множество систем и программ, пока наконец машинный перевод во второй половине 1980-х годов не обратился к корпусной лингвистике. Современные системы автоматического перевода, такие как переводчик Google (translate.google.ru) или Moses (www.statmt.org/moses), используют статистические модели, основанные на сравнении уже сделанных переводов. Для этого были подготовлены разные многоязычные корпуса (англ. multilingual corpora), содержащие тексты, пригодные для автоматизации перевода: сравнительные и параллельные. Кроме этого, многоязычные корпуса используются не только для создания киборгов-переводчиков последней модели, но и для составления словарей, написания учебников и многого другого.

Сравнительные корпуса

Сравнительный корпус (англ. comparable corpus) – это многоязычный корпус, в котором собраны похожие тексты на разных языках. Слово «похожие» в этом определении надо понимать в самом широком смысле: тексты могут быть похожи тематически, жанрово, хронологически и т. д. В сравнительном корпусе часто используется общий формат хранения данных, но тексты на одном языке не связаны с другим языком. Унифицированный доступ к такому ресурсу позволяет, например, быстро сопоставлять среднюю длину предложения во французской и немецкой статье или определять лексическое разнообразие в твиттер-сообщениях.

Французские исследователи из лаборатории LIMSI создали систему автоматического распознавания языка звонящего для быстрого переключения на нужного оператора. С этой целью они собрали большой четырехъязычный корпус телефонных разговоров, состоящий из нескольких сотен звонков, сделанных людьми разного пола и возраста, проживающими в разных частях света. Затем они выяснили, какие особенности произношения, какие слова и фразы характерны для всех тех, кто говорит по телефону, скажем, на французском языке, и чем они отличаются от итальянцев.

Сравнительным корпусом иногда называют и корпус, содержащий тексты на одном языке: например, переводные и оригинальные тексты на одном и том же языке или территориальные варианты английского языка. Конечно, это не многоязычные корпуса в строгом смысле слова, но и их можно использовать для сравнения языков или их разновидностей. Как бы мы ни понимали сравнительный корпус, его главным и очевидным минусом является несовпадение текстов на разных языках. То, что мы ищем в одном тексте, может просто отсутствовать в другом, и наше сравнение окажется ненадежным. В связи с этим для сопоставления языков лучше подходит другой тип корпуса.

Параллельные корпуса

В двуязычной Канаде задачи по переводу всегда были актуальными, и исследователи из этой страны предложили использовать переведенные тексты, вычленяя из них фрагменты (англ. chunks), совпадающие с теми, которые требуется перевести. Так возникли корпуса, содержащие один и тот же текст на разных языках.

Параллельный корпус, или корпус переводов (англ. parallel или translation corpus) – это корпус, состоящий из текстов на одном языке вместе с его переводом на другой язык или языки. Такие параллельные пары или ряды текстов называют битекстами (англ. bitext).

Для создания параллельного корпуса мало просто иметь оригинал и его перевод. Надо обеспечить нахождение соответствующего оригиналу фрагмента в переводе. С этой целью используют процедуру выравнивания (англ. alignment), в результате которой одинаковые фрагменты параллельных тестов оказываются сопоставлены друг с другом.


Розеттский камень – ранний пример «параллельного корпуса». Созданный во II веке до нашей эры, он содержит один и тот же текст на двух вариантах древнеегипетского письма и по-древнегречески. Для точного выравнивания текстов понадобилось бы выбить их еще раз. Желающих сделать это пока не нашлось…

Задача по созданию параллельных текстов сложнее, чем кажется на первый взгляд. До нашей эры это было связано с тяжелой работой камнереза, но и сейчас подводных камней немало. Основной из них – что, собственно, выравнивать. Идеальным является пословное выравнивание (англ. word alignment), но оно часто оказывается почти невозможным по естественным причинам: наборы лексем, словоформ и устойчивых выражений в разных языках не совпадают. Тем не менее, системы статистического машинного перевода (например, Переводчик Гугл) как-то справляются с этой задачей. Часто тексты выравнивают по предложениям (англ. sentence alignment) или по абзацам (англ. paragraph аlignment). Впрочем, оказывается, что количество предложений и абзацев тоже может не совпадать.

Ниже приведен фрагмент русско-финского параллельного корпуса ParRus. Создатель корпуса М. Н. Михайлов подсчитал, что число слов в оригинальных текстах больше, чем в переводах, а число предложений меньше. Даже если вы не знаете финского, попробуйте подсчитать количество слов (от пробела до пробела) и предложений (от точки до точки) в исходном тексте и в его переводе на финский язык. Есть разница?


Но и это еще не все сложности. Отдельной проблемой при создании корпуса становится несоответствие текстов: переводчики по разным причинам, например цензурным, могут сокращать тексты; авторские переводы при наличии вдохновения или идеологических задач могут существенно отходить от оригинала и т. д.

В 80-е годы XIX века Пантелеймон Кулиш написал роман «Черная рада», вышедший почти одновременно на украинском и русском языках. Перевод он сделал сам, и вы можете посмотреть, что у него получилось.


I дiстав iз полички жбан, прехимерно з срiбла вилитий i що то вже за приукрашений! Не жалували пани грошей для своєї пихи i потiхи. По боках бiгли босонiж дiвчата – iнша i в бубон б'є; а зверху сидiв, мов живий, божок гречеський, Бахус.И он достал с полки большую серебряную кружку с барельефами, представлявшими греческих вакханок. Крышка была украшена литою статуйкой Фауна.

Даже если вам удастся выровнять тексты, получить автоматический ответ на вопрос, как именно переводится, например, «серебряный» или «жбан» на другой язык, будет непросто. Параллельный корпус не отвечает на вопросы, как слово Х переводится на другой язык. Он лишь находит по заданным лексемам или грамматическим параметрам фрагменты на одном языке и показывает привязанные к ним (т. е. выровненные) фрагменты на другом. Важно понимать, что поиск в параллельном корпусе не отличается от поиска в корпусе одноязычном: второй язык «прицепляется» лишь на последнем этапе вывода результатов на экран.

Известная шутка гласит, что у финнов нет будущего. Это верно, но касается только грамматики. Задав поиск форм будущего времени в русской части корпуса ParRus, вы получите пестрый набор переводов, в которых придется самому искать финские соответствия (это будут и формы настоящего времени, и лексикализованные способы указания на время, и даже формы перфекта).

Безусловно, интересной задачей было бы создание параллельных, то есть связанных друг с другом разметок, которые позволили бы автоматически искать грамматические и лексические соответствия в разных языках. Может быть, вы когда-нибудь займетесь этим?..

Параллельные корпуса естественным образом делятся на двуязычные (англ. bilingual) и многоязычные (англ. multilingual). По направлению перевода можно выделить корпуса однонаправленные (англ. unidirectional) и двунаправленные (англ. bidirectional).

Существует более сотни переводов «Слова о полку Игореве» на русский язык и две сотни переводов – на другие языки. Корпус переводов «Слова» – редкий случай параллельного однонаправленного корпуса, выровненного по предложениям (nevmenandr.net/slovo). С его помощью можно легко увидеть, что загадочная мысль в обороте «растекашется мыслiю по древу» переводилась множеством способов: соловей, мысль, векша, белка. Трудно сказать, что из этого более верно…

Главным недостатком параллельного корпуса является то, что тексты не лишены влияния языка-источника, переводческих ошибок, индивидуального стиля переводчика. Однако схожие проблемы несбалансированности подстерегают и в одноязычном корпусе. Решение в любом случае одно: чем больше и разнообразнее корпус, тем меньше влияние отдельного текста.

Дополнительная литература

1. Baker M. Corpora in translation studies: An overview and some suggestions for future research // Target. 1995. Т. 7. №. 2. С. 223–243.

2. Barlow G. M. Parallel texts in language teaching // S. P. Botley, T. McEnery, A. Wilson (ed.), Multilingual Corpora in Teaching and Research. Amsterdam, Rodopi, 2000. Р. 106–115.

3. McEnery A. M., Xiao R. Z. Parallel and comparable corpora: What are they up to? // Incorporating Corpora: Translation and the Linguist. Translating Europe. Multilingual Matters, Clevedon 2007.

4. Resnik P., Smith N. A. The web as a parallel corpus // Computational Linguistics. 2003. Vol. 29. № 3. P. 349–380.

5. Sitchinava D. V. Parallel Corpora within the Russian National Corpus // Prace Filologiczne. 2012. № LXIII. P. 271–278.

6. Teubert W. The role of parallel corpora in translation and multilingual lexicography // Lexis in contrast: Corpus-based approaches. 2002. Р. 189–214.

7. Waldenfels R. von. Compiling a parallel corpus of Slavic languages. Text strategies, tools and the question of lemmatization in alignment // B. Brehmer, V. Zdanova, R. Zimny (eds) Beitrage der Europaischen Slavistischen Linguistik (POLYSLAV). Munchen: Verlag Otto Sagner, 2006. Vol. 9. Р. 123–138.

8. Zanettin F. Bilingual comparable corpora and the training of translators // Meta: Journal des traducteurs. Meta: Translators' Journal. 1998. Vol. 43. № 4. Р. 616–630.

9. Добровольский Д. О., Кретов А. А., Шаров С. А. Корпус параллельных текстов: архитектура и возможности использования // Национальный корпус русского языка: 2003–2005. М.: Индрик, 2005. С. 263–296.

10. Михайлов М. Параллельные корпуса художественных текстов: принципы составления и возможности применения в лингвистических и переводоведческих исследованиях. Тампере, 2003 Режим доступа: tampub.uta.fi/handle/10024/67313.

11. Орехов Б. В. Параллельный корпус переводов «Слова о полку Игореве»: итоги и перспективы // Национальный корпус русского языка: 2006–2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009. С. 462–473.

Задания

1. На сайте Национального корпуса размещены параллельные русско-английский, – немецкий, – украинский, – и-так-далее корпуса: www.ruscorpora.ru/search-para.html. Выберите знакомый вам язык и проверьте, какие варианты перевода существуют для слова «авось» или конструкции «мне неудобно».

2. В том же параллельном корпусе НКРЯ выберите грамматический признак, не имеющий соответствия в известном вам иностранном языке (например, полные формы русских прилагательных). Как переводчики справляются с этим несоответствием?

3. На сайте открытого параллельного корпуса OPUS (opus.lingfil.uu.se) выберите интересующий вас язык (например, русский) и выясните, тексты на каких языках можно найти в паре с выбранным языком.

4*. Наиболее перспективные технологии машинного перевода основывается на совмещении нескольких подходов, в том числе использовании параллельных корпусов. Прочитайте статью Vincent Vandeghinste, Removing the Distinction Between a Translation Memory, a Bilingual Dictionary and a Parallel Corpus и ответьте на следующие вопросы.

● Как расшифровываются аббревиатуры: RBMT, SMT, EBMT?

● Какие подходы совмещает описанный в статье проект?

● Можно ли сказать, что параллельные корпуса и Translation Memory – это одно и то же?

5*. Подумаете, что заставило Пантелеймона Кулиша создать такие разные тексты для своего романа «Черная рада».

Глава 12. Корпуса второго языка

Каждый раз, когда я пишу статью на иностранном языке, я отдаю ее на языковую проверку: не хочется, чтобы в тексте оставались ошибки. Но есть лингвисты, которые собирают именно их. Они создают корпуса текстов, написанных (или произнесенных) на неродном языке. Зачем? Неужели недостаточно «правильных» текстов?..

Ответов на этот вопрос два. Во-первых, корпусного лингвиста интересуют не только (и не столько!) «правильные» тексты, сколько живая материя языка во всех его проявлениях. Во-вторых, такие тексты обладают одним уникальным свойством: cобрав большое количество подобных текстов, можно понять, какие грамматические темы просты для всех изучающих тот или иной язык, а что остается сложным даже для тех, кто владеет языком как вторым родным. Определение такого корпуса может показаться слишком простым:

Корпус не носителей языка (англ. L2 corpus) – это собранная систематическим образом электронная коллекция текстов, созданных не носителями данного языка.

В этом определении требуют комментария несколько вещей.

«Корпус» понимается в самом обычном смысле, как это было определено в главе 1. Таким образом, репрезентативность, сбалансированность, наличие разных видов аннотации и т. д. составляют специфику такого корпуса, как и всякого другого. Особенности аннотирования корпусов второго языка мы обсудим чуть позже.

«Собранная систематическим образом» значит, что в корпус попадают не любые тексты. Например, не имея информации об уровне владения языком или о первом (родном) языке, мы не сможем сказать, какие ошибки характерны для той или иной группы говорящих. Определенные критерии отбора текстов приводятся ниже.

Самая сложная часть определения – «не носители» языка. Это широкое и не до конца установленное понятие. В настоящее время ведутся серьезные дискуссии (например, Мустайоки 2013) о том, какой язык считать родным, а какой неродным. Язык говорящих по-русски эмигрантов (например, мой или моего коллеги, проживающего в Грузии) – это родной? А международный английский, на котором большую часть времени говорит бизнесмен из Гонконга или программист из «Нокии»? Согласно современной точке зрения к группе «не носителей» относятся следующие.

● Прежде всего, это ученики, изучающие иностранный язык. Корпус таких текстов называют корпусом ученических текстов, или просто ученическим корпусом (англ. learner corpus).

● В эту же группу попадают и люди, которые регулярно используют неродной язык для общения, например на работе. Такой язык называют лингва франка. Этот термин связан с использованием общего романского языка (франкского, как его называли) в Средиземноморье. Теперь так называется любой язык межнационального общения, например русский, а корпус таких текстов называют корпус lingua franca (англ. lingua franca corpus).

● Наконец, сюда же с некоторыми оговорками можно отнести и билингвов (двуязычных людей), у которых два (или даже больше) родных языка. Часто один из таких языков усваивается только от родителей и является «домашним». Усвоившие язык таким образом занимают промежуточное положение между носителями литературного стандарта и иностранцами с очень хорошим знанием языка. Такой язык называют материнским (англ. mother tongue) или наследуемым (англ. heritage language), а корпус таких текстов – соответственно, корпусом наследуемого языка, или херитажным/эритажным корпусом.

Надо сказать, что не все согласятся с объединением школьника, изучающего английский, и билингва, свободно говорящего на двух языках, в одну группу, но оказывается, что по тем или иным параметрам их тексты обладают общими особенностями, главной из которых является интерференция – влияние другого (обычно более сильного) языка. И как бы ни классифицировать типы владения языком, сами материалы, собранные в корпус, ценны тем, что содержат специфические особенности (не только «ошибки»), которые аннотируются в корпусе сходным образом.

Первыми корпусами второго языка стали ученические корпуса, которые появились в начале 1990-х годов и были связаны с ростом популярности английского языка. Без сомнений, английский является самым изучаемым языком в мире. Самые крупные английские ученические корпуса созданы в Кембридже (The Cambridge Learner Corpus (CLC), 40 млн текстоформ, больше 200 тыс. студентов, 217 стран, 148 родных языков) и в издательстве «Лонгман» (Longman Learners’ Corpus, (LLC)). Оба корпуса активно используются для создания всемирно известных учебных пособий и словарей, но, к сожалению, недоступны для некоммерческого использования.

Обычно такие корпуса создаются из письменных работ: эссе, экзаменационных сочинений, курсовых работ, хотя существуют и корпуса устных выступлений. Важно, чтобы при сборе материала были максимально учтены следующие условия:

● тексты должны быть созданы людьми, для которых язык является неродным или вторым родным. Обычно это тексты на одном иностранном языке, хотя существуют и многоязычные ученические корпуса, созданные учениками с общим родным языком;

● уровень владения языком должен быть каким-то образом определен (это может быть указание на сложность пройденного курса, результат параллельно проведенного теста или просто количество лет, потраченных на изучение языка);

● необходимо собрать данные о социолингвистическом окружении (родной язык, другие иностранные языки, пол, возраст, место проживания);

● материалы могут быть собраны как у учеников разного уровня, так и у одного ученика в течение определенного времени его обучения (так называемые лонгитюдные данные, англ. longitude data).

Приведу пример.

Для изучения языка русско-финских билингвов мы создали небольшой корпус рассказов. Детям предлагалось ответить на вопросы социолингвистической анкеты, сдать специальный тест и написать рассказы на финском и русском языках. Эти рассказы на основе мультфильма о Пингу – пингвиненке, говорящем на своем особом языке, и стали основой корпуса. Вот как выглядит один из текстов, включенных в наш корпус. Его написал двуязычный школьник, для которого русский язык является домашним, но не основным языком. В каком-то смысле это тоже «особый» язык, похожий на язык Пингу… Попробуйте отметить ошибки в этом тексте.

Пингвиm сидел на стуле и читал гозету. Мама пингвина заставила ему идти в школу ну пингвин не хотел и ростроился. Ну потом он пабумал и пошол в школу и в зял газету собой. И на школнай водворе была много детей. И потом они стали играть игру.


Базовая разметка корпуса неносителей совпадает с разметкой обычного: леммы, частичная или полная морфологическая разметка. Автоматизировать такую работу намного сложнее, поскольку в тексте неносителя больше «слов», отсутствующих в обычном языке. Часто такой корпус содержит специальную разметку ошибок (англ. error annotation). В самом простом случае тексты исправляются (переписываются) квалифицированными носителями языка. В таком случае в корпусе сохраняются оба варианта с возможностью поиска в них и сравнения результатов. Более сложный подход предполагает наличие многоуровневой разметки, которая может строиться на следующих основаниях:

● языковые уровни: орфографический, пунктуационный, грамматический, лексический, прагматический (например, стилистические ошибки), дискурсивный (например, цельность текста или местоименная референция);

● формальные особенности ошибок: пропуск, добавление, искажение и т. д.;

● источник ошибки: внутриязыковой, межъязыковое влияние.

Вот как выглядит фрагмент многоуровневой разметки ученического корпуса чешского языка (Rosen et al. 2013)



Как видно, технически эта аннотация похожа на набор параллельных разметок – уровней аннотации, о которых мы говорили в главе о мультимодальной разметке. Идеальная модель разметки ошибок должна, во-первых, учитывать ошибки не только на уровне токенов, но и на уровне их сочетаний, а во-вторых, учитывать несколько возможных правильных вариантов. Последнее представляет собой сложную проблему аннотирования, поскольку человек, аннотирующий ошибки, должен принять определенное решение относительного того, что могло бы быть правильным (это называется целевая гипотеза, англ. target hypothesis).

Знающие немецкий язык легко найдут ошибку в следующем предложении:

Die Erklärung für diese Phänomen ist einfach (‘Объяснение этого феномена простое’).

Надо поставить либо местоимение в средний род (dieses), либо существительное – во множественное число (Phänomene). Но что считать правильным? Чтобы уменьшить произвол эксперта-разметчика, в немецком корпусе FALKO (linguistik.hu-berlin.de/institut/professuren/korpuslinguistik/forschung/falko) было принято решение размечать все возможные целевые гипотезы:


Использование корпусов не носителей языка

В Хельсинкском университете создан корпус английского языка как лингва франка (англ. English as a Lingua Franca, ELFA, www.helsinki.fi/englanti/elfa). Корпус состоит из аудиозаписей и расшифровок академических выступлений: докладов, лекций, защит диссертаций и т. д. Анализ корпуса показывает, что независимо от страны проживания и родного языка люди, превосходно говорящие на английском, образуют формы 3 лица ед. числа по общим правилам: они часто пропускают окончание – s глаголов (he/she write/speak/go…).

Приведенный пример показывает самый простой способ использования корпуса: анализ особенностей. Продолжая эту работу, можно составить частотный словарь, получить представление об использовании морфологических форм и т. д. В результате мы получим своеобразное описание языка, в котором часть слов, форм, синтаксических конструкций используется слишком часто, а часть – слишком редко. Такой язык получил название интерязык, или интеръязык (орфография еще не устоялась; англ. interlanguage).

Интер(ъ)язык – это динамическая лингвистическая система, которая складывается в процессе обучения иностранному языку у ученика, не полностью овладевшего этим языком, но находящегося в процессе активного усвоения. Этот язык характеризуется сохранением влияния родного языка, гиперобобщением или упрощением правил иностранного языка.

Следующий шаг в применении таких корпусов – сравнение их с корпусами носителей языка.

Например, выяснилось, что пропуск окончания – s в английских глаголах находит отражение не только в ученических корпусах, но и в речи носителей английского языка. Кажется, английский язык рискует потерять и эту флексию…

Метод сравнения данных носителей и неносителей получил название сравнительный интер(ъ)языковой анализ (англ. contrastive interlanguage analysis, CIA), он активно применяется для исследования отклонений от естественной речи, характерных как для всех учеников, так и для определенных групп.

Самый популярный английский ученический корпус The International Corpus of Learner English (ICLE), созданный в Лёвене, содержит несколько миллионов слов, тексты написаны носителями 16 разных языков, включая русский. На материале этого корпуса проводятся многочисленные исследования. С помощью CIA, например, было установлено, что слишком частое употребление союзных единиц в начале английского предложения – особенность носителей французского, нидерландского и китайского языков. А ошибки в употреблении некоторых вводных слов и выражений не связаны с родными языками, но являются приметой общего интер(ъ)языка.

Дополнительная литература

1. Alsufieva A., Kisselev O., Freels S. Results 2012: Using Flagship Data to Develop a Russian Learner Corpus of Academic Writing // Russian Language Journal. 2012. № 62. P. 79–105/

2. Díaz-Negrillo A., Domínguez J. F. Error tagging systems for learner corpora // Revista española de lingüística aplicada. 2006. № 19. Р. 83–102.

3. Granger S. Learner corpora // A. Lüdeling A., Kytö M. (eds.) Handbook on corpus linguistics. Berlin & New York: Walter de Gruyter, 2008. Vol. 1. Р. 259–275.

4. Granger S., Hung J., Petch-Tyson S. (eds.). Computer learner corpora, second language acquisition and foreign language teaching. John Benjamins Publishing Company, 2002.

5. Kutuzov A. B. et al. Russian Learner Parallel Corpus as a Tool for Translation Studies // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 30 мая – 3 июня 2012 г.). В 2 томах / Отв. ред. А. Е. Кибрик. Т. 1: Основная программа конференции. М.: Российский государственный гуманитарный университет, 2012. С. 362–369. Доступно по адресу: www.dialog-21.ru/digests/dialog2012/materials/pdf/133.pdf.

6. Lüdeling A., et al. Multi-level error annotation in learner corpora // Proceedings of corpus linguistics. 2005. Доступно по адресу: www.birmingham.ac.uk/Documents/college-artslaw/corpus/conference-archives/2005-journal/LanguageLearningandError/multilevelerror.doc.

7. Mauranen A. Investigating English as a lingua franca with a spoken corpus // Campoy M. C., Luzón M. J. (eds) Spoken Corpora in Applied Linguistics. Berlin: Peter Lang, 2007. Р. 33–56.

8. Pravec N. A. Survey of learner corpora // ICAME journal. 2002. № 26(81). Р. 114.

9. Reznicek M., Lüdeling A., Schwantuschke F. Das Falko-Handbuch: Korpusaufbau und Annotationen: Version 2.01. Berlin, 2012.

10. Rosen A., Hana J., Štindlová B., Feldman A. Evaluating and automating the annotation of a learner corpus // Language Resources and Evaluation. April 2013. Р. 1–28.

11. Tono Y. Learner corpora: design, development and applications // Paper presented at the Corpus Linguistics 2003 Conference. Lancaster, 2003.

Задания

1. В настоящее время создано множество ученических корпусов (каталог: www.ulocuvain.be/en-cecl-lcworld.html), однако текстов русскоязычных учеников, изучающих другие языки, очень мало. Мне известно всего четыре таких проекта. Может быть, вам удастся найти больше? Воспользуйтесь каталогом и поиском в интернете.

2. В предыдущем задании я написал «в интернете». А какой предлог чаще используют люди, чей родной язык английский? Russian Learner Corpus of Academic Writing (RULEC) – один из немногих доступных русскоязычных корпусов, в котором собраны тексты учеников и носителей домашнего русского из США. Составьте запрос, который позволит вам установить, какие предлоги возможны при текстоформе «интернете» (предложный падеж единственного числа). Адрес корпуса: web-corpora.net/RussianLearnerCorpus/search.

3*. В последние годы стали возникать корпуса, находящиеся на стыке параллельных и ученических: корпуса ученических переводов. В них собраны оригиналы и переводы, созданные студентами. Один из них – англо-русский Корпус несовершенных переводов (RLTC, rus-ltc.org). Познакомьтесь с этим корпусом, найдите в нем переводы студентов, получивших оценку «2». Много ли ошибок в этих переводах?


Страницы книги >> Предыдущая | 1 2 3
  • 5 Оценок: 1

Правообладателям!

Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.

Читателям!

Оплатили, но не знаете что делать дальше?


Популярные книги за неделю


Рекомендации