Электронная библиотека » Михаил Копотев » » онлайн чтение - страница 7


  • Текст добавлен: 19 февраля 2016, 19:40


Автор книги: Михаил Копотев


Жанр: Языкознание, Наука и Образование


сообщить о неприемлемом содержимом

Текущая страница: 7 (всего у книги 11 страниц) [доступный отрывок для чтения: 3 страниц]

Шрифт:
- 100% +

Глава 13. Интернет как корпус?

По удачному сравнению Адама Килгариффа, интернет похож на Вавилонскую библиотеку, описанную в рассказе Х. Л. Борхеса: он состоит из дубликатов, почти дубликатов, документов, указывающих на отсутствующие дубликаты, и документов, которые прикидываются дубликатами, но не являются ими. Более того, мы не можем ответить на вопрос, какие языки (или их разновидности) представлены в интернете. Если говорить о русском языке, то это тексты Пушкина и чаты, смешанные русско-украинские тексты и бесчисленные клоны «золотых сочинений» и т. д. Другими словами, назвать интернет корпусом было бы крайне рискованно.

Перефразировав базовое определение языкового корпуса, которое мы дали в начале книги, можно сказать, что интернет – это собрание не текстов (точнее не только текстов), не собранных в соответствии с определенными принципами и не размеченных по определенному стандарту.

Но иногда даже многомиллионного или ежедневно пополняемого корпуса недостаточно, чтобы подобрать нужное количество примеров или понять значение только что появившегося выражения. В таких случаях отважные корпусные рейнджеры обращаются ко всему массиву текстов в интернете. Это направление корпусной лингвистики получило название «интернет как корпус» (англ. Web as corpus). Для лингвистической работы с интернетом надо уметь пользоваться поисковыми интернет-сервисами, например Яндексом (www.yandex.ru) или Гуглом (www.google.com). Однако стоит иметь в виду, что эти сервисы предназначены прежде всего не для поиска языковых примеров, а для доставки информации, в том числе и рекламной. Конечно, их можно использовать для быстрого чернового поиска нужного фрагмента или для проверки рабочей гипотезы. Но следует помнить, что эти результаты нельзя использовать без дополнительной проверки. Несмотря на гигантский объем текстов, который обрабатывается поисковыми системами, в результатах поиска часто оказывается мусор, вызванный, мягко говоря, пестрыми орфографическими нормами, ошибками сканирования, особенностями интернет-коммуникации и т. д.

Только что поисковая система Яндекс выдала мне следующие варианты написания: риэлтор – ок. 8 млн, риелтор – ок. 4 млн, риэлтер – ок. 592 тыс., риелтер – ок. 91 тыс. Нормативный вариант, зафиксированный в орфографическом словаре, оказался не самым частотным. Найдите в словаре рекомендуемый вариант и проверьте, совпадает ли он с интернет-узусом на тот момент, когда вы читаете этот учебник.

Конечно, все зависит от поставленной задачи. Однако в целом можно дать следующий совет: если лингвистическая задача может быть решена с помощью корпуса, ее надо решать с помощью корпуса. Простой поиск в интернете заведомо дает неизвестный результат. Обращение к такому поиску возможно, только если корпус сам с такой задачей не справляется. Прежде всего такое случается при работе с материалом, еще не отраженным или плохо представленным в корпусе (исторические памятники, изменения «вчерашнего дня» и т. п.). Кроме того, ряд редчайших языковых явлений просто не попадает в корпус или представлен там в недостаточном количестве (попробуйте, например, поискать в корпусе местоимения нашенский, вашенский, ейный, евонный). Незаменим интернет и при поиске региональных различий в языке (например, разница между Москвой и Санкт-Петербургом). Однако в любом случае при использовании интернета как лингвистического источника возникает несколько существенных проблем. Одна связана с особенностями того массива файлов, из которого мы извлекаем материал. Вторая – с особенностями поисковых систем, которые в общем случае не предназначены для специфического лингвистического поиска.

Ограничения интернет-поиска

Поисковые машины позволяют приблизить хаос к корпусу. Для более успешного лингвистического поиска в интернете необходимо знание специальных команд, или операторов, которые добавляются в поисковую строку. Наиболее простым способом ограничения является поиск на определенном сайте с помощью оператора «site:», что позволяет контролировать состав и репрезентативность текстов.

lib.pushkinskijdom.ru

На сайте Института русской литературы (Пушкинский дом) размещена электронная версия Библиотеки литературы Древней Руси. Представляя собой крупнейшую коллекцию древнерусских «художественных» текстов, она прекрасно подходит для решения литературоведческих и многих лингвистических задач. Используя команду site: (site: lib.pushkinskijdom.ru), мы получим возможность искать в текстах только этого сайта, ограниченных по объему и собранных в соответствии с определенными принципами.

Особенности поисковых машин

Говоря по-простому, задача Гугла или Яндекса – поиск и доставка информации, а не слов. Для оптимального решения этой задачи поисковые системы могут исключать из поиска самые частотные слова (например, предлоги или союзы), искать не только данную лексему, но и ее синонимы (часто расширительно толкуемые, например, проигрыватель, плейер, player и т. д.).

Если попытаться выяснить значение и сочетаемость лексемы животъ в текстах Библиотеки литературы Древней Руси, то с помощью описанного выше поиска по сайту мы получим результаты, в которых смешаны лексемы животъ и живот. Поисковые машины считают, что для нас несущественны варианты написания слова. Однако именно они нам и важны, поскольку животъ – древнерусское слово, а живот – слово современного русского языка с другим набором значений. Для того чтобы искать не информацию, а слова, точнее текстоформы, достаточно поставить искомое слово в кавычки: «животъ». Именно так мы даем системе знать, что ищем конкретную форму слова. Попробуйте убедиться, насколько разные результаты выдают поисковые машины при поиске с кавычками и без.

Никто не ожидает от поисковой системы профессиональной экспертизы любого текста на любом языке, но для многих лингвистических исследований критически важно знать, насколько единица X встречается чаще, чем единица Y. Однако поисковые машины устроены так, чтобы быстро выдавать приблизительный результат.

Попробуйте поискать с помощью Яндекса любое редкое слово или сочетание слов, например «интернет как корпус» (в кавычках!). Поисковая система покажет количество найденных результатов. Пересчитайте их сами и проверьте, совпало ли реальное количество с тем, что указано наверху страницы.

Цифра, которую выдает поисковая система, может не иметь ничего общего с реальными результатами. Расхождение между ними иногда достигает десяти и более раз. Это происходит потому, что поисковые машины заранее обрабатывают интернет-страницы, превращая их в удобные для поиска индексы. Именно эти индексы хранятся на серверах поисковых компаний, и именно в них происходит поиск по умолчанию.

Эта технология наглядно проявляется при так называемом «поиске в кеше» (например, с помощью оператора «cache:» в Гугле), который позволяет искать уже удаленную с сайтов информацию. Для хранения этих индексов необходимы гигантские хранилища. Самый крупный центр хранения данных в Европе компания Google построила в холодной Финляндии в здании бывшей бумагоделательной фабрики. Оказывается, что и для производства бумаги, и для охлаждения серверов необходимо много холодной балтийской воды.

К счастью, есть возможность «заставить» поисковые машины показать реальное количество найденных результатов. Особенно удобно это сделать с помощью Яндекса, который нумерует результаты так, что пользователь, пролистав их до последнего, может получить адекватную оценку найденного количества (при этом не стоит забывать про повторы и совпадения слов из других языков).

Поисковые системы Яндекс и Гугл предлагают целый набор операторов, которые существенно облегчают поиск лингвистического материала. Основные из них приведены в таблице ниже.



Из этой таблицы видно, что поиск в Яндексе существенно лучше приспособлен для решения лингвистических задач. Не лишним будет сказать, что большинство указанных операторов Яндекса работают и на сайте НКРЯ, что позволяет существенно расширить возможности поиска в национальном корпусе. С другой стороны, преимущества Яндекса ограничены небольшим списком языков, прежде всего русским. При работе, например, с финским или итальянским языком его возможности заметно скромнее.

Кроме поисковых машин, предназначенных для широкого пользователя, существуют также специализированные ресурсы и инструменты, приближающие интернет к более жесткому формату корпуса. Один из способов – создать копию, лишенную повторов, нетекстовых фрагментов и иноязычных текстов. Понятное дело, такая копия будет отставать от интернет-реальности.

В интернете доступен целый ряд таких «копий», некоторые из них даже содержат автоматическую морфологическую и синтаксическую разметки, что делает их существенно более полезными, чем общедоступные поисковые машины. Русскоязычный интернет-корпус можно найти на сайте: corpus.leeds.ac.uk/it.

Другой способ – создание специальных поисковых машин, предназначенных для лингвистической обработки интернет-данных, что называется, на лету. Их основные преимущества связаны с широким спектром собственно лингвистических возможностей, актуальностью языкового материала и удобным представлением в формате конкорданса.

Ресурс Webcorp (webcorp.org.uk) предоставляет возможность лингвистического поиска в интернете в текстах на определенном языке, в частности русском, и вывода результатов в формате конкорданса.

Обычно для работы с такими ресурсами очень полезными оказываются так называемые символы подстановки (англ. wildcard character), позволяющие существенно облегчить поиск. Самыми полезными символами являются знак астериска «*», заменяющий любое количество любых символов, и знак вопроса «?», заменяющий любой символ. C их помощью можно составить регулярные выражения (англ. regular expression). Например, выражение «стол*» позволит найти все слова, содержащие буквы с-т-о-л и любое количество символов после них (например, стола, столом, столовый), а выражение «стол?» – только формы типа стола, столы, столу и т. п.

Дополнительная литература

1. Baroni M., Ueyama M. Building general-and special-purpose corpora by web crawling // Proceedings of the 13th NIJL international symposium, language corpora: Their compilation and application. 2006. Р. 31–40.

2. Fletcher W. H. Concordancing the web: promise and problems, tools and techniques // Language and Computers. 2006. Vol. 59. № 1. P. 25–45.

3. Kilgariff A. Googleology is Bad Science // Computational Linguistics. № 33 (1). P. 147–151.

4. Kilgarriff A. et al. A Corpus Factory for Many Languages // LREC – 2010. Доступно по адресу: www.lrec-conf.org/proceedings/lrec2010/pdf/79_Paper.pdf.

5. Mautner G. Time to get wired: Using web-based corpora in critical discourse analysis // Discourse & Society. 2005. Vol. 16. № 6. P. 809–828.

6. Sharoff S. Creating general-purpose corpora using automated search engine queries // Baroni M., Bernardini S. (eds) WaCky! Working papers on the Web as Corpus. Bologna: Gedit, 2006.

7. Sharoff S., Nivre J. The proper place of men and machines in language technology: Processing Russian without any linguistic knowledge //Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 25–29 мая 2011 г.). 2011. №. 10. С. 657–670. Доступно по адресу: www.dialog-21.ru/digests/dialog2011/materials/en/pdf/58.pdf

8. Беликов В. И. Yandex как лексикографический инструмент // Компьютерная лингвистика и интеллектуальные технологии. Труды Международной конференции «Диалог 2004». М., 2004. С. 39–46.

9. Захаров В. П. Веб-пространство как языковой корпус // Компьютерная лингвистика и интеллектуальные технологии. Труды международной конференции «Диалог 2005». М., 2005. С. 166–171.

Задания

1. Задайте поиск вашего имени и фамилии в кавычках и без кавычек. Что нашел поисковик в том и другом случае? В каком случае оценка количества найденных результатов более грубая. Как вы думаете, почему?

2. Сравните операторы поиска Яндекса (help.yandex.ru/search/?id=481939) и Гугла (www.google.com/support/websearch/bin/answer.py?answer=136861). Назовите по крайней мере три отличия.

3. Слово «снятник» не зафиксировано ни в одном корпусе. С помощью поисковых систем установите значение и сферу его функционирования в русском языке начала XXI века.

4. Компания Google предлагает корпусным лингвистам особый поиск в гигантском архиве Google Books, похожем одновременно и на корпус, и на интернет-библиотеку. С помощью так называемого Обозревателя n-грамм (англ. Ngram Viewer, books.google.com/ngrams) попробуйте проследить количество упоминаний в русских текстах слов «Гугл» и «Яндекс» за последние двадцать лет.

5*. Прочитайте статью «Googleology is bad science» A. Килгариффа: www.kilgarriff.co.uk/Publications/2007-K-CL-Googleology.pdf.

Назовите четыре основные проблемы использования Гугла (и Яндекса), о которых пишет автор.

6*. Прочитайте в Википедии статью «Регулярные выражения». Проверьте, какие из них работают в программе редактирования текстов (Ворд или любой другой)?

Глава 14. Сделай сам!

Когда я был ребенком, в моем городе был магазин «Сделай сам», в котором можно было купить множество мелочей, чтобы делать разные полезные вещи. Он не предлагал самому свалить дерево или выточить колесо, чтобы собрать самокат. Магазин предлагал заготовки и инструменты, из которых можно было относительно легко собрать самокат, не похожий на другие. То же самое может предложить и корпусная лингвистика тем, кому универсальный корпус по каким-то причинам не подходит. Необходимость работать с собственным корпусом (англ. DIY-corpus, do-it-yourself corpus) возникает по разным причинам: исследование языка конкретного автора или жанра, собранный в экспедициях собственный материал и т. д. Кроме того, интернет-доступ к корпусу часто ограничивает возможности поиска, которые открываются при хранении файлов на собственном компьютере. Так или иначе, может оказаться удобным представить тексты в виде корпуса-самоделки и применить к нему тот набор инструментов, о котором идет речь в этой главе.

Заготовки

В качестве заготовок могут выступать коллекции уже готовых электронных текстов. Доступные в интернете коллекции можно разделить на две неравные части: большую часть составляют плохо подготовленные и содержащие большое количество ошибок любительские материалы. Качество подготовки большинства из них оставляет желать лучшего. Меньшая часть подготовлена с участием специалистов и содержит обычно художественные тексты, собранные в электронные библиотеки. Вообще при отборе текстов для собственного корпуса можно ориентироваться на следующее правило:

Чем меньший объем текстов привлекается для анализа и чем большее значение для исследования имеет своеобразие каждого текста, тем более надежным должен быть источник текста. Верно и обратное: для исследования общеязыковых тенденций можно использовать большие объемы текстовых данных, где возможные ошибки и опечатки конкретного текста будут растворены в общем объеме текстов.

Если «вес» отдельного текста в научной работе достаточно мал (например, исследование фразеологизма «наше дело» в текстах второй половины XIX века), то возможными неточностями при поиске нужных контекстов в электронных копиях можно пренебречь. Для этого можно использовать крупнейшую в интернете коллекцию русских текстов – библиотеку Максима Мошкова (www.lib.ru). Однако собранный там материал в некоторых случаях имеет смысл проверить по бумажным копиям и сделать ссылки на бумажные издания.

Если исследовательская работа предполагает анализ языка конкретного произведения или группы произведений, то выбор источника должен быть более тщательным: следует избегать использования некритически опубликованных текстов (это в равной степени касается и бумажных изданий). В настоящее время в интернете существует несколько ресурсов, которые отвечают этим требованиям. Один из них – это Фундаментальная электронная библиотека «Русская литература и фольклор» (www.feb-web.ru). Сайт ФЭБ активно развивается, на нем можно найти электронные тексты, подготовленные с опорой на академические издания, снабженные комментариями, справочным аппаратом и научными публикациями, дополняющими комментарии. На сайте представлены электронные версии произведений XVIII–XX веков, а также произведения древнерусской литературы и фольклорные тексты. Еще один русскоязычный ресурс – Русская виртуальная библиотека, создатели которой ставят перед собой в общем те же цели, что и разработчики ФЭБ. На сайте www.rvb.ru можно найти публикации классических и современных произведений русской литературы с приложением необходимого справочного материала. В этой библиотеке хорошо представлены авторы XVIII–XX веков.

Студентам, занимающимся исследованием творчества А. С. Грибоедова и Ф. М. Достоевского, можно порекомендовать конкордансы, с помощью которых можно легко искать нужные контексты в произведениях этих авторов.

● конкорданс А. С. Грибоедова: feb-web.ru/feb/concord/abc;

● конкорданс Ф. М. Достоевского: dostoevskij.karelia.ru.

Тем, кому нужны тексты на иностранных языках, я советую обратить внимание на проекты Гутенберг (www.gutenberg.org) и Викитека (wikisource.org), в которых собраны сотни художественных (первый проект) и не только (второй проект) текстов. В основном это тексты, не защищенные копирайтом. Конечно, преобладают произведения на английском языке, но можно найти и множество текстов на других языках, например, на эрзя или крымчакском.

Для определенных задач могут понадобиться специализированные наборы текстов, например новостные сообщения или записи в блогах. В главе 13 я рассказывал, что поисковые машины могут быть использованы для поиска в интернете или на конкретной странице. Этот вариант обладает своими преимуществами по сравнению с созданием собственного корпуса, прежде всего скоростью. Однако использование «самодельного» корпуса может оказаться предпочтительнее, поскольку избавит от известных проблем поиска в интернете: повтора текстов, несбалансированности, вкрапления текстов на других языках и т. д. В любом случае для создания собственного корпуса понадобятся специальные инструменты.

Инструменты

Для создания корпуса «Сделай сам» часто достаточно просто собрать тексты: скачать, отсканировать или напечатать. Про две последние возможности мы не будем говорить, а вот для скачивания текстов существуют специальные программы, найти которые можно, например, набрав в строке поисковой машины «html text extractor».

Нарушаются ли авторские права?

В статье 1274 части 4 Гражданского кодекса РФ говорится: «Свободное использование произведения в информационных, научных, учебных или культурных целях 1. Допускается без согласия автора или иного правообладателя и без выплаты вознаграждения, но с обязательным указанием имени автора, произведение которого используется, и источника заимствования: 1) цитирование в оригинале и в переводе в научных, полемических, критических или информационных целях правомерно обнародованных произведений в объеме, оправданном целью цитирования, включая воспроизведение отрывков из газетных и журнальных статей в форме обзоров печати». Другими словами, использование фрагментов текста в научных целях без права публикации и извлечения выгоды не является нарушением авторского права.

Как составителю корпуса вам придется ответить на вопросы о сбалансированности и представительности корпуса (см. главу 4). Ответ может быть простым: корпус составлен из всего материала, собранного в экспедиции, или всех статей, опубликованных в журнале «Балда» в 1906 году. Эти материалы сами по себе образуют закрытый список текстов. Ответ может быть и более сложным: создание корпуса севернорусских житий или твиттер-сообщений потребует определения временных границ и вынужденного компромисса из-за недоступности всех источников. Существует представление о том, что чем больше данных, тем лучше. Это в общем случае верно, но очень затратно. Я могу предложить вам следующую «формулу» вычисления размера корпуса: объем корпуса должен быть максимально большим в существующих условиях. В любом случае необходимо задуматься о том, какой языковой срез представляет собранный корпус и какие выводы можно сделать на его основе.

Для работы с файлами в самом простом случае можно использовать текстовые редакторы типа MS Word, которые позволяют быстро искать нужные фрагменты. Однако есть специальные программы, конкордансеры и корпус-менеджеры, существенно расширяющие возможности работы с текстовым корпусом. Разница между этими двумя типами программ невелика: конкордансер обычно позволяет искать только контексты употребления, тогда как корпус-менеджер добавляет к этому возможность составления частотных списков, поиска ключевых слов, анализ распределения и т. д. Найти их в сети по ключевым словам «concordancer», «corpus manager», «corpus builder», «конкордансер», «корпус-менеджер» и научиться ими пользоваться не составляет большого труда. Я, например, пользуюсь программой WordSmith. Эта программа платная, но существуют и бесплатные аналоги, например AntConc (ссылка).

Пример 1. WordSmith

Набор инструментов WordSmith – один из самых популярных корпус-менеджеров, который включает в себя возможности создания корпуса на основе интернет-страниц или файлов на компьютере, построения конкорданса и индексов, поиска ключевых слов, аннотирования и лемматизации. Набор утилит дает возможность работать с выровненными параллельными текстами и получать разнообразные статистические данные. Для одного исследования я составил совсем небольшой корпус – два интервью, на финском и русском языках, которые дал человек с непростой языковой историей: американская финка из СССР. Этот мини-корпус был обработан с помощью программы WordSmith, которая предлагает множество инструментов автоматической обработки корпуса.

Во-первых, использовался так называемый индекс TTR (англ. type-token ratio) – отношение числа уникальных лемм ко всем текстоформам в тексте. Грубо говоря, этот индекс показывает, как часто человек повторяет одно и то же слово. Например, в следующем фрагменте из интервью 27 текстоформ, из которых 20 уникальных. Соответственно индекс TTR равен 20/27=0,74.

В Петрозаводске была финская школа, девятилетка. А в Америке я училась на английском. Там в школе нам не разрешали говорить на финском, чтобы мы лучше знали английский.

С его помощью было подсчитано лексическое разнообразие обоих текстов (оно оказалось примерно равным 0,46 для финского и 0,42 для русского).

Во-вторых, были составлены частотные списки глаголов, существительных и прилагательных. Например, самые частотные существительные в русском интервью: язык, год, школа, институт, Америка, а в финском – год, работа, школа, отец, муж. Это позволило определить, что тематически русский текст больше связан с образованием и социальными лифтами, тогда как финский – с семьей.

Наконец, были составлены конкордансы, позволившие быстро провести качественный анализ текстов, проанализировать заимствования, кальки, ошибки и т. д. В итоге удалось описать многослойный этноязыковой комплекс: персональная идентичность – финская, социальная идентичность – русская (точнее советская).

Поскольку собранный корпус достаточно мал, описанную выше задачу можно решать и без применения специальных инструментов, правда потратив куда больше времени. Однако существуют задачи, которые невозможно решить никаким другим способом, кроме машинной обработки. Одна из таких задач – работа с очень большими корпусами, состоящими из миллиардов слов и требующими значительных компьютерных ресурсов. Так, для задач автоматического перевода и улучшения поиска Гугл создал корпус объемом больше одного триллиона (1 000 000 000 000) текстоформ. Размер самого большого русскоязычного корпуса Интегрум больше 500 миллиардов текстоформ. В примере 2 я покажу, какие задачи можно решать с помощью таких гигантских корпусов.

Пример 2. Как правильно: заходиться хохотом / от хохота / из-за хохота / в хохоте?

В русском языке существуют варианты глагольного управления приведенного выше типа. Задача, стоявшая перед нами, – найти все такие глаголы. Задача решалась следующим образом: для любой пары «глагол + существительное», например «заходиться хохотом», находилось сочетание с этими же глаголом и существительным (стоящие подряд или на расстоянии друг от друга), но так, чтобы существительное стояло в другой форме, например, «заходиться от хохота». Проще говоря, мы искали разные токены одной леммы-существительного на расстоянии 1–2 от леммы-глагола. Если формы существительного (и предлоги!) в найденных цепочках не совпадали (в нашем случае: хохотом – от хохота), то глагол считался потенциально вариативным. Понятно, что такой алгоритм давал большой процент шума, поэтому применялись дополнительные фильтры, которые здесь мы обсуждать не будем. Для решения этой задачи нужен очень большой корпус. Ни один из существующих корпусов не приспособлен для ее решения: во-первых, доступ через интерфейс в браузере не дает возможности организовать такой сложный поиск. Во-вторых, поскольку алгоритм построен на поиске одинаковых текстоформ, а не падежей, то даже объема НКРЯ оказывается недостаточно для извлечения редких вариаций. Для поиска был собран массив данных в 4 миллиарда текстоформ, из которого были извлечены все сочетания «глагол (+ предлог) + существительное» и собраны в базу данных. Набор запросов и фильтров позволил извлечь из текстов больше трех с половиной тысяч глаголов с вариативным управлением, что на порядок превосходит известные до этого списки. Помимо указанного выше примера мы получили, например, следующие пары:

● встать на якоре / на якорь;

● исчислить в деньгах / деньгами;

● приехать из Москвы / с Москвы.

Возможно, некоторые варианты кто-то назовет неправильными. Я не берусь выносить решение о правильности/неправильности. Почему – см. главу 17.

Собранные тексты можно хранить в разных форматах: простые текстовые файлы (.txt) экономят место на диске и увеличивают скорость обработки при больших объемах; формат языка разметки XML удобен для публикации размеченного корпуса в интернете, но требует большей квалификации и предварительной подготовки файлов; формат базы данных (например, формат MS Access) удобен при работе с небольшими аннотированными корпусами, но требует знания языка запросов и умения создавать реляционные базы данных. В следующей главе мы поговорим об этом подробнее.

Дополнительная литература

1. Kilgarriff, A., Grefenstette, G.: 2003, Introduction to the special issue on web as corpus // Computational Linguistics. 2003. № 29 (3). Р. 333–347.

2. Maia B. Making corpora: A learning process // I corpora nella didattica della traduzione. Corpus Use and Learning to Translate. Bologna: CLUEB. 2000. Р. 47–60.

3. McEnery T., Xiao R., Tono Y. Going solo: DIY corpora // Corpus-based language studies: An advanced resource book. Taylor & Francis, 2006.

4. Millar N., Lehtinen B. DIY local learner corpora: Bridging gaps between theory and practice // JALT CALL Journal. 2008. Vol. 4. № 2. Р. 61–72.

5. Sánchez Gijón P. Developing documentation skills to build do-it-yourself corpora in the specialised translation course // Corpus Use and Translating. Amsterdam/Philadelphia: John Benjamins, 2009. Р. 109–127.

6. Scott M. et al. Comparing corpora and identifying key words, collocations, and frequency distributions through the WordSmith Tools suite of computer programs // Small corpus studies and ELT. 2001. Р. 47–67.

7. Sharoff, S. (2006) Open-source corpora: using the net to fish for linguistic data // International Journal of Corpus Linguistics. 2006. № 11(4). Р. 435–462.

8. Zanettin F. Главы ‘3.5.2 Manual creation of a DIY monolingual corpus’ и ‘3.5.3 Automatic creation of a DIY bilingual comparable corpus’ // Translation-Driven Corpora. Corpus Resources for Descriptive and Applied Translation Studies. St. Jerome Publishing, 2012.

Задания

1. Напишите тему вашей курсовой/дипломной работы и объясните, можно ли использовать для ее выполнения самостоятельно подготовленный корпус. В чем могли бы быть его преимущества в сравнении с существующими корпусами? Опишите реальный или придуманный для этого задания алгоритм создания собственного корпуса: 1) лингвистическая задача; 2) объем и репрезентативность корпуса; 3) программа (назовите конкретную) для сбора или извлечения текстов из сети; 4) формат хранения данных; 5) программа (назовите конкретную) для обработки собранных данных. Объясните, почему для решения этой задачи нельзя воспользоваться существующими корпусами или интернетом.

2. Зарегистрируйтесь на сайте Sketch Engine и загрузите туда свой корпус (любой достаточно большой текстовый файл). Попробуйте самостоятельно поработать с ним и определить десять самых частотных существительных в вашем корпусе (помните, что нужны частоты лемм, а не текстоформ!). Сравните полученный результат с данными из нового Частотного словаря русской лексики О. Н. Ляшевской и С. А. Шарова (www.dict.ruslang.ru). Что показывают ваши результаты: специфику конкретного текста или же языка в целом?

3. Установите на компьютер программу AntConc (ссылка), загрузите в нее собственную курсовую или дипломную работу. Используя доступные в программе меры MI и t-score, создайте списки коллокаций. Чем отличаются полученные списки? Какой из них дает более точное представление о теме вашей работы?

4*. Отдельную проблему для обработки русских текстов представляет собой кодировка символов. Опишите преимущества и недостатки 8-битного (KOI-8) и 16-битного (Unicode) кодирования.


Страницы книги >> Предыдущая | 1 2 3
  • 5 Оценок: 1

Правообладателям!

Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.

Читателям!

Оплатили, но не знаете что делать дальше?


Популярные книги за неделю


Рекомендации