Текст книги "Введение в корпусную лингвистику"
Автор книги: Михаил Копотев
Жанр: Языкознание, Наука и Образование
сообщить о неприемлемом содержимом
Текущая страница: 10 (всего у книги 11 страниц) [доступный отрывок для чтения: 3 страниц]
Существует огромное количество хранящихся в памяти выражений. По самым грубым подсчетам, их число сопоставимо с количеством лексем в словаре. Едва ли они являются маргинальным компонентом нашего языкового опыта (Jackendoff 1995: 136).
В целом, этот новый подход, в котором когнитивная и корпусная лингвистка дополняют и обогащают друг друга, ориентирован на исследование и моделирование сознания человека. Но в отличие от генеративной грамматики Н. Хомского, это направление обращает внимание не на виртуальное конструирование языковых единиц, а на реальное существование языка (англ. usage-based model). Наиболее радикальные сторонники этого подхода отрицают существование языка в том смысле, в котором этот термин использует Ф. де Соссюр.
Итак, современная корпусная лингвистика, несмотря на относительно короткую историю существования, является хорошо разработанным направлением языкознания, тесно связанным с компьютерной и когнитивной лингвистикой. С первой она связана технологией и инструментами обработки языкового материала, со второй совпадает в базовой предпосылке: как когнитивная, так и корпусная лингвистика интересуется речевой деятельностью, представленной в бесконечном числе текстов (Gonzalez-Marquez et al. 2007). В определенном смысле корпусная лингвистика меняет приоритеты исследования: объектом изучения становится речь, несводимая к языковой абстракции, нормам литературного языка, суждениям о правильности/неправильности в языке, основанным исключительно на интуиции образованного исследователя. Вторым важным теоретическим следствием корпусных исследований можно считать то, что соссюровская дихотомия langue-parole заменяется представлением о первичности речевой деятельности с плавной шкалой от речевого штампа до грамматического правила.
Наконец, следует помнить, что корпусная лингвистика – при всей революционности тех возможностей, которые она открывает, – всего лишь часть из обширного методологического инструментария современной науки. Последнее я хочу проиллюстрировать отличным замечанием Чарлза Филлмора:
Я не думаю, что существует корпуса – какими бы большими они ни были – которые содержат всю информацию об английской грамматике и лексиконе. <..> Но работа с любым корпусом – каким бы маленьким он ни был – предоставляла мне данные, которые я не смог бы найти никаким другим способом (Fillmore 1992: 35).
Любой корпус удивляет нас неожиданными открытиями, трудно улавливаемыми без обращения к реальному языковому материалу. Но даже самые крупные корпуса не в состоянии отразить все возможное в языке. Компьютер сам по себе не может стать автором лингвистических открытий, он лишь эффективный инструмент в руках современного лингвиста.
Дополнительная литература
1. Aarts J. Does corpus linguistics exist? Some old and new issues // From the COLT’s mouth… and others: language corpora studies in honour of Anna-Brita Stenström. Amsterdam, 2002. Р. 1–17.
2. Andor J. The master and his performance: An interview with Noam Chomsky // Intercultural Pragmatics. 2004. № 1:1. Р. 93–111.
3. Brazil D. A Grammar of Speech (Describing English Language). Oxford, 1995.
4. Fillmore Ch. Corpus linguistics or computer-aided armchair linguistics // Directions in Corpus Linguistics: Proceedings of Nobel Symposium 82. Stockholm, 4–8 August, 1991. Berlin, 1992. Р. 35–60.
5. Gonzalez-Marquez М., Mittelberg I. et al. (eds) Methods in Cognitive Linguistics. Amsterdam/Philadelphia, 2007.
6. Hunston S., Gill F. Pattern Grammar: a Corpus-driven Approach to the Lexical Grammar of English. Amsterdam, 2000.
7. Janda L. (ed). Cognitive Linguistics: The Quantitative Turn. The Essential Reader. De Gruyter Mouton, 2013.
8. Janda L. et al. Why Russian aspectual prefixes aren’t empty: prefixes as verb classifiers. Bloomington: Slavica Publishers, 2013.
9. McEnery T., Xiao R., Tono Yu. Corpus-based Language Studies: An Advanced Resource Book. London, 2006.
10. Mukherjee J. The state of the art in corpus linguistics: three book-length perspectives // English Language and Linguistics. 2004. № 8:1. Р. 103–119.
11. Sinclair J. Corpus, Concordance, Collocation. Oxford, 1991.
12. Sinclair J., Mauranen A. Linear Unit Grammar; Integrating speech and writing. Amsterdam, 2006.
13. Tognini-Bonelli E. Theoretical overview of the evolution of corpus linguistics // Routledge Handbook of Corpus Linguistics. Abingdon: Routledge. 2010. P. 14–27.
14. Зализняк А. А., Микаэлян И. Л. О некоторых дискуссионных моментах аспектологической концепции Лоры Янды // Вопросы языкознания. 2012. № 6. C. 48–65.
Словарь терминов
Словарь содержит основные термины корпусной лингвистики и смежных областей. Термины, имеющие более широкое значение (например, в статистике или теории информации), толкуются здесь только применительно к корпусной лингвистике. Лишь часть из приведенных в словаре терминов объясняется в учебнике. Таким образом, словарь стоит рассматривать как самостоятельную главу, чтение которой может составить небесполезное, хотя и скучное занятие. Для большинства терминов в скобках даются английские переводы. При этом следует иметь в виду, что употребление многих терминов (особенно русских) еще не устоялось: существует и синонимия, и орфографическая вариативность. В таких случаях для основной статьи выбран наиболее частотный термин, альтернативные термины даны на своем месте, с отсылками к основному. При отборе терминов использовались следующие источники:
● Baker P., Hardie A., McEnery T. A glossary of corpus linguistics. Edinburgh: Edinburgh University Press, 2006.
● Википедия (wikipedia.org)
ASCII (англ. American Standard Code for Information Interchange) – стандарт кодирования символов (→ см.), в основе которого лежат символы латинского алфавита, с его помощью может быть закодировано 128 символов (цифры, латинский алфавит, знаки пунктуации и некоторые другие символы). Расширенная версия ASCII включает 256 символов и позволяет закодировать и кириллицу.
Framenet – проект семантической разметки (→ см.), создаваемый в университете Беркли, США. Теоретическая основа проекта связана с идеями глубинных падежей и фреймовой семантики (Ч. Филлмор и др.). Например, предложения Иван продал машину Марии и Мария купила машину у Ивана описывают одну и ту же ситуацию (фрейм) с различных точек зрения, которая и будет описана в формате этой теории.
ipm (англ. instances per million) / чмс (частота на миллион) – стандартное представление частоты токена или леммы (→ см.), вычисляемое относительно условного корпуса в миллион единиц независимо от объема реального корпуса. Вычисляется как соотношение ipm(x)=freq(x) × 1 000 000/corp, где freq(x) – частота единицы в корпусе, а corp – объем реального корпуса.
KWIC (читается «квик», англ. key word in context) – формат вывода конкорданса (→ см.) на экран таким образом, что искомые слова располагаются по центру в один столбик, что облегчает их быстрый просмотр и анализ.
MI-тест (англ. MI-test, где MI это mutual information, ‘взаимная информация’) – стандартная мера выявления устойчивых сочетаний (→ см. коллокация, коллигация) в текcте (→ см. мера правдоподобия). Вычисляется по формуле:
где F(w1) – частота первого коллоката в корпусе, F(w2) – частота второго коллоката, F(w1, w2) – частота коллокации W1W2, N – общее число токенов в корпусе (ср. t-score, логарифмическая функция правдоподобия).
n-грамма / n-грамм (англ. n-gram) – цепочка, состоящая из идущих подряд двух, трех, четырех и т. д. текстоформ (которые называются соответственно биграммы, триграммы и т. д.). Например, предложение «корпусная лингвистка изучает язык с помощью корпуса» может быть представлено в виде шести биграмм (корпусная лингвистика, лингвистика изучает и т. д.) или пяти триграмм (корпусная лингвистика изучает, лингвистика изучает язык и т. д.).
Text Encoding Initiative (TEI) – общественная организация, разрабатывающая стандарт представления и аннотирования данных (→ см.) в формате XML ((→ см.).
T-score – стандартная мера выявления устойчивых сочетаний (→ см. коллокация, коллигация) в текcте. Вычисляется по формуле:
где F(w1, w2) – частота коллокации W1W2, F(w1) – частота первого коллоката (→ см. коллокат) в корпусе, F(w2) – частота второго коллоката, N – общее число токенов в корпусе. (ср MI-тест, логарифмическая функция правдоподобия)
Unicode – см. Юникод.
Wordnet – лексическая база данных (→ см. база данных), представляющая в унифицированном и формальном виде связи между лексемами. Базовой словарной единицей в WordNet является не отдельное слово, а так называемый синонимический ряд – синсет (→ см.). Синсеты связаны между собой различными семантическими отношениями (гипонимия, антонимия, «часть-целое» и т. д.). Используется для создания словарей и тезаурусов (→ см.), а также для семантического аннотирования корпусов (→ см. семантическая разметка).
XML (расширяемый язык разметки, англ. eXtensible Markup Language) – легко настраиваемый язык разметки документа, удобный как для машинной обработки, так и для чтения человеком. Представляет собой собственно данные (например, тексты) и разметку (→ см. аннотация), вводимую <в угловых скобках>.
Абсолютная частота (англ. absolute frequency) – величина, показывающая, сколько раз единица встретилась в корпусе.
Аккуратность (англ. accuracy) – мера оценки качества автоматического аннотирования. Вычисляется как отношение числа токенов, размеченных верно, к общему числу токенов.
Альтернативный тег (англ. portmanteau tag) – тег (→ см. тег), используемый для решения проблемы неоднозначности (→ см. языковая неоднозначность). При невозможности однозначного анализа указываются все варианты, при этом более вероятный обычно указывается на первом месте. Например, в Британском национальном корпусе существует тег VVD-VVN для единиц типа written, annotated, означающий «либо прошедшее время, либо причастие прошедшего времени».
Анализ, направляемый корпусом (англ. corpus-driven analysis/approach) – языковой анализ, рассматривающий корпус как данные, на основе которых можно выявить закономерности и исключения в языке. Такой анализ предполагает исключение (или минимальное использование) заранее заданных теоретических положений относительно языка. Примером такого подхода может служить автоматическое определение словоизменительных классов, не заданных заранее классификацией частей речи, а извлеченных из корпуса.
Анализ, использующий корпус (англ. corpus-informed analysis/approach) – языковой анализ, при котором корпусные данные используются лишь как источник примеров на естественном языке. Количественного анализа не предполагается, хотя роль интроспекции (языковой интуиции самого исследователя) существенно снижается.
Анализ, основанный на корпусе (англ. corpus-based approach/analysis) – языковой анализ, при котором корпусные данные анализируются как качественно, так и количественно, при этом исходные теоретические положения заранее заданы и не меняются в ходе эксперимента. Например, поиск частотности существительных третьего склонения в корпусе не ставит под сомнения существование самого концепта склонения, в том числе и его третьего типа.
Аннотация – см. разметка.
Аннотированный / размеченный корпус (англ. annotated corpus) – корпус, содержащий помимо собственно текстов лингвистическую информацию об этих текстах, словах, предложениях и т. д. Самым распространенным видом разметки является морфологическое аннотирование (→ см. морфологическая разметка).
Анонимизация (англ. anonymisation) – удаление или замена имен и других личных данных для невозможности идентификации автора или информанта в том случае, если материал является конфиденциальным (личная переписка, неизданные работы и т. п.).
Атрибут (англ. attribute) – 1. (в онтологии → см.) признак, характеризующий определенный объект в рамках онтологии. Например, объект «мужчина» имеет атрибут «мужской пол». 2. (в языке XML → см.) признак, содержащий дополнительную информацию об элементе текста. Например, в следующей записи Звонили<ana lemma="ЗВОНИТЬ" /> тег ana имеет дополнительный атрибут lemma.
База данных (англ. database) – формально представленная совокупность связанных данных.
Бессловарный метод – метод морфологического аннотирования (→ см. морфологическая разметка), при котором текстоформы (→ см. токен) не заданы заранее, а анализируются на основе правил (например, наличия определенных окончаний).
Биграм (англ. bigram) – n-грамма, состоящая из цепочки в два токена (→ см. n-грам).
Битекст (англ. bitext / parallel text) – см. параллельный текст
Вероятностное снятие неоднозначности (англ. probabilistic disambiguation) – набор методов для выбора верного тега при автоматической разметке текста (→ см. аннотация), который основывается на известной вероятности того, какой тег является верным в данном контексте. Для анализа неразмеченных текстов используются частоты, полученные для ранее размеченных корпусов.
Вероятностно-статистические методы (англ. stochastic / probabilistic models) – методы лингвистического анализа, основанные на статистическом выделении и аннотировании единиц текста.
Выравнивание (англ. alignment) – процедура представления текстов, в результате которой одинаковые фрагменты текста и его перевода оказываются связанными друг с другом.
Выравнивание по абзацам (англ. paragraph аlignment) – выравнивание параллельных текстов (→ см.), в результате которого абзац исходного текста оказывается связан с соответствующим абзацем перевода.
Выравнивание по предложениям (англ. sentence alignment) – выравнивание параллельных текстов (→ см.), в результате которого предложение исходного текста оказывается связанным с соответствующим предложением перевода.
Данные (англ. data) – информация любого рода. В корпусной лингвистике это обычно текст, содержащийся в корпусе, а также аудио-, видеозаписи и др. C помощью различных статистических инструментов из исходных данных извлекаются производные данные, например, список коллокаций (→ см.) или самых частотных существительных.
Двунаправленный корпус (англ. bidirectional corpus) – параллельный корпус (→ см.), содержащий оригинальные тексты и переводы на двух языках. Например, оригинальные английские и русские тексты и их переводы на русский и английский языки соответственно.
Двуязычный корпус (англ. bilingual corpus) – параллельный корпус (→ см.), содержащий тексты на двух языках (оригиналы и их переводы).
Диалектный корпус (англ. dialect corpus) – особый вид звукового или текстового корпуса (→ см. корпус), создаваемый для исследования региональных вариантов языка. Такой корпус обычно включает диалектную и географическую разметку (→ см. аннотация), иногда с возможностью отражения данных на карте.
Дивергенция / расхождение (англ. divergence) – математическая величина, описывающая расхождение признаков от заданной точки.
Дизамбигуация / снятие омонимии / снятие неоднозначности (англ. disambiguation) – процедура выбора правильного языкового разбора из предложенных программой аннотирования (→ см. теггер) омонимичных вариантов (→ см. омонимы).
Дистантная многокомпонентная единица (англ. skipgram / concgram / non-contiguous MWE) – набор токенов, образующих многокомпонентную единицу, но располагающихся дистантно. Например, «то…, то…», «или…, или…».
«Длинный хвост» (англ. long tail) – группа низкочастотных единиц одного ранга (→ см.), которые на графике частотного распределения образуют длинную, не изменяющую своих характеристик линию.
Доцифровой корпус (англ. pre-electronic corpus) – корпус, созданный в эпоху, предшествовавшую активному вхождению компьютера и электронных технологий в лингвистическую практику.
Древовидный (англ. tree hierarchy) – принцип семантической разметки, при котором единица может попадать только в одну классификационную ячейку (ср. фасеточный).
Звуковой корпус (англ. speech corpus, spoken corpus) – см. корпус звучащей речи.
Значение (в XML) (англ. value) – приписанное атрибутам XML разметки значение, позволяющие включить дополнительную информацию о единицах текста. Обычно именно атрибуты и их значения представляют собой аннотацию корпуса. Например, lemma="ЗВОНИТЬ", атрибут lemma имеет значение «ЗВОНИТЬ».
Золотой стандарт (англ. gold standard) – тщательно проверенный вручную размеченный корпус. Используется для оценки систем автоматического аннотирования, например программ частеречной разметки. Результат автоматического аннотирования сравнивается с «золотым стандартом», что позволяет сделать вывод о точности аннотирования.
Иллюстративный корпус (англ. sample corpus) – небольшой по объему корпус, задача которого не представлять весь язык (или его разновидность) во всем его многообразии, а лишь иллюстрировать те или иные явления, например в учебных или юридических целях.
Индекс лексического разнообразия (англ. type/token ratio, TTR) – мера, определяющая лексическое богатство текста. Вычисляется как число уникальных лемм в тексте, деленное на общее число токенов и выраженное в процентах. Высокое значение этого параметра предполагает, что текст представляет богатое лексическое разнообразие.
Индекс удобочитаемости (англ. readability test) – мера, определяющая сложность текста для восприятия. Он вычисляется на основе нескольких параметров: длины токенов и предложений, числа наиболее частотных слов и т. д.
Индивид (англ. individual) / экземпляр (англ. instance) (в онтологии → см.) – конкретные представители класса, например, Петя, Алексей – представители класса мужчин.
Интер(ъ)язык (англ. interlanguage) – динамическая лингвистическая система, которая складывается в процессе обучения иностранному языку у ученика, не полностью овладевшего этим языком, но находящегося в процессе активного усвоения. Этот язык характеризуется сохранением влияния родного языка, гиперобобщением или упрощением правил иностранного языка.
Исторический корпус (англ. historical corpus) – корпус, представляющий язык или вариант языка в прошлом. С помощью такого корпуса возможно исследовать определенный период развития в языке или сравнить с другим периодом (например, с корпусом современного языка). Разновидностью исторического корпуса является диахронический корпус, который включает в себя тексты, представляющие большой период времени.
Классы (англ. classes) / понятия (англ. concepts) (в онтологии → см.) группа объектов, объединенных общим признаком. Например, «мужчина» и «женщина» входят в класс «человек»; класс «человек» входит в класс «млекопитающие» и т. д.
Ключевое слово (англ. keyword) – 1. токен или лемма, которое появляется в тексте или подкорпусе значительно чаще, чем в целом по корпусу. Стандартными инструментами выявления ключевых слов являются тест χ² (→ см.) или log-likelihood (→ см.). Типичными ключевыми словами являются, например, знаменательные слова (показатели содержания текста), имена собственные, служебные слова (показатели стилистического профиля текста). 2. Токен, лемма или группа токенов/лемм, являющиеся непосредственным объектом поиска в корпусе. Именно ключевое слово пользователь набирает в поисковой строке и получает выделенным тем или иным способом в результатах поиска.
Кодировка символов (англ. character set/encoding) – набор символов, используемых для цифрового представления текста. Традиционно для представления европейских языков используется кодировка ASCII (→ см.), однако в последнее время получил распространение формат Юникод (→ см.), который включает большой набор символов, достаточный для представления всех письменных систем мира.
Коллигация (англ. colligation) – устойчивое сочетание грамматических показателей двух или более токенов или лемм. Например, коллигация «до + сущ. род. пад.», где лемма «до» устойчиво сочетается с существительными в род. падеже.
Коллокат (англ. collocate) – токен, входящий в коллокацию. Например, день – первый коллокат в коллокации «день и ночь».
Коллокация (англ. collocation) – устойчивое сочетание токенов или лемм. Например, «день и ночь».
Компьютерная/машинная морфология (КМ) (англ. computational/machine morphology) – прикладная адаптация морфологической теории, предназначенная для обработки и представления морфологической структуры языка в компьютерных системах.
Конкорданс (англ. concordance) – список найденных примеров (вхождений) нужного слова в минимальном контексте. Обычно такой контекст представляет собой фрагмент из нескольких слов слева и справа.
Конкордансер (англ. concordancer) – программа для автоматического создания конкордансов.
Контактная неомонимичная многокомпонентная единица (англ. unambiguous contiguous MWE) – набор токенов (→ см.), непосредственно располагающихся друг за другом и образующих многокомпонентную единицу. Например, составные числительные («тридцать три», «33») и единицы типа «потому что», «несмотря на».
Контактная омонимичная многокомпонентная единица (англ. ambiguous contiguous MWE) – набор токенов (→ см.), непосредственно располагающихся друг за другом, образующих единицу, омонимичную (→ см. омонимы) сочетанию двух (или более) слов, связанных синтаксически или же не имеющих непосредственной синтаксической связи. Например, «в общем» (ср. «в общем вагоне»), «в прошлом» (ср. «в прошлом году») и т. д.
Контекстуальная неоднозначность (англ. contextual ambuguity) – неоднозначность (→ см. языковая неоднозначность), при которой близкий контекст не дает достаточных оснований для выбора правильного варианта разбора. Например, в предложении Двери не открывать невозможно точно определить падеж существительного «двери».
Копирайт (англ. copyright) – право публиковать и продавать литературные, музыкальные и художественные произведения. При создании корпуса необходимо получить разрешение на использование текстов у правообладателя или обеспечить недоступность данных без специального разрешения.
Корпус «Сделай сам» (англ. DIY-corpus, do-it-yourself corpus) → см. собственный корпус.
Корпус lingua franca (англ. lingua franca corpus) – корпус текстов, созданных людьми, которые регулярно используют неродной язык для общения.
Корпус n-грамм (англ. n-gram corpus) – фрагментированный корпус (→ см., содержащий n-граммы (→ см.).
Корпус второго поколения (англ. second generation corpus) – обобщающее название для корпусов, которые создаются с 90-х годов по настоящее время. Они характеризуются большим объемом данных (более 100 млн слов) и богатой разметкой (→ см. аннотация). Примерами корпусов второго поколения являются the British National Corpus, the Longman Corpus Network или Национальный корпус русского языка.
Корпус звучащей речи / звуковой корпус (англ. speech corpus, spoken corpus) – корпус, материалы которого представляют собой записанные в аудио/видео формате записи разговорной речи. Обычно такой корпус содержит расшифровку и аннотирование (→ см. аннотация) таких записей для более удобного поиска.
Корпус наследуемого языка, или херитажный корпус (англ. heritage language corpus) – корпус текстов, созданных людьми, владеющими двумя или более языками. В такой корпус обычно включается более слабый язык, усвоенный вне школы – в семейном окружении.
Корпус не носителей языка (англ. L2 corpus) – это собранная систематическим образом электронная коллекция текстов, созданных не носителями данного языка.
Корпус ошибок (англ. error corpus) – корпус, в котором собраны тексты, созданные людьми, изучающими иностранный язык, и содержащий разметку ошибок, сделанных этими учениками (ср. ученический корпус).
Корпус первого поколения (англ. first generation corpus) – обобщающее название для первых электронных корпусов сравнительно небольшого размера, которые были созданы по схожему образцу и не содержали аннотирования (→ см. аннотация). К ним относятся, например, Brown Corpus of American English и Lancaster-Oslo/Bergen Corpus of British English.
Корпус переводов / параллельный корпус (англ. parallel или translation corpus) – параллельный корпус, состоящий из оригинальных текстов и их переводов на другие языки.
Корпус ученических текстов (англ. learner corpus) – см. ученический корпус.
Корпус / текстовый корпус (англ. (text) corpus) – собрание языковых материалов (текстов, аудио/видеозаписей и т. д.), собранных в соответствии с определенными принципами, размеченных по определенному стандарту (→ см. аннотация) и обеспеченных специализированной поисковой системой (→ см. корпус-менеджер). Корпусом (неразмеченным корпусом) могут называть любое собрание текстов, объединенных каким-то общим признаком (языком, жанром, автором, периодом создания текстов).
Корпус-менеджер (англ. corpus manager) – программы, позволяющие осуществлять поиск в корпусе и производить определенные числовые подсчеты.
Корпусная лингвистика (англ. corpus linguistics) – 1. раздел компьютерной лингвистики, связанный с созданием корпусов. 2. раздел языкознания, использующий корпуса текстов для анализа данных с помощью корпусных методов.
Коэффициент вариации D (англ. coefficient of dispersion D / Juilland’s D) – числовое значение, показывающее, насколько равномерно единица распределена по всем текстам корпуса. Вычисляется по формуле:
где δ – среднеквадратичное отклонение (→ см.) частоты токенов (→ см.), а n – сумма частот всех токенов.
Критерий согласия Пирсона (англ. test for independence, Pearson's chi-squared test) – см. тест χ² (хи-квадрат)
Лемма (англ. lemma) – совокупность текстоформ (→ см. токен), отличающихся друг от друга только морфологическим значением. Таким образом, лексическое значение или разница в ударении при лемматизации (→ см. лемматизация) не учитывается. Например, в предложении «Зáмок закрывается на замóк» две леммы: «замок» и «закрываться».
Лемматизатор (англ. lemmatizer) – программа, автоматически сводящая текстоформы (→ см. токен) к леммам (→ см.) без приписывания им морфологической информации.
Лемматизация (англ. lemmatization) – автоматическое приписывание текстоформы (→ см. токен) к ее лемме (→ см.).
Лингвистически аннотированный корпус (англ. linguistically annotated corpus) – языковой корпус, содержащий, помимо собственно текстов, лингвистическую информацию (разметку, см. аннотация), что позволяет искать не только отдельные слова, но и целые лингвистические классы, например глаголы в прошедшем времени и т. п. Чаще всего аннотированный корпус содержит морфологическую информацию обо всех единицах корпуса (→ см. морфологическая разметка).
Линейка / уровень аннотации (англ. tier) – набор параллельных разметок в мультимодальном корпусе (→ см. мультимедийный корпус), маркирующих разные каналы коммуникации. Эти разметки обычно выровнены по общей временной шкале.
Логарифмическая функция правдоподобия / мера правдоподобия (англ. log-likelihood) – мера статистической значимости, которая используется в корпусном анализе, например, для анализа коллокаций (→ см.) или ключевых слов (→ см.). Как и тест χ² (→ см.), log-likelihood сравнивает наблюдаемые и ожидаемые значения для двух наборов данных, однако использует другую формулу: G2=2∑xij (logexij—logemij), где xij – это наблюдаемая частота, а mij – ожидаемая частота. Например, для определения степени связанности частей той или иной коллокации в качестве ожидаемой частоты мы указываем абсолютные частоты (→ см.) каждого из коллокатов в корпусе, а в качестве наблюдаемой – частоту данной коллокации.
Машинная морфология (англ. computational/machine morphology) – см. компьютерная морфология.
Медиана (англ. median) – статистическая мера, позволяющая разделить высоко– и низкочастотные данные (→ см. частота встречаемости). За медиану принимается значение, стоящее ровно посередине выстроенного по частоте ряда полученных данных. Например, в ряду 120-150-200 медианой является 150.
Мера правдоподобия (англ. log-likelihood) – см. логарифмическая функция правдоподобия.
Мера устойчивости (анл. lexical association measure) – величина, показывающая, насколько случайны или устойчивы сочетания единиц в составе коллокации (→ см.) или коллигации (→ см.). Для ее вычисления используется множество разных методов, например MI-score (→ см. мера MI), t-score (→ см. t-score) и др.
Метаданные / метатекстовая разметка (англ. metadata) – разметка (→ см. аннотация), содержащая информацию в целом о тексте или совокупности текстов: обстоятельства создания, социальные и возрастные характеристики автора, жанр и т. д.
Многоуровневая / мультимодальная разметка (англ. multimodal grid) – языковая аннотация (→ см.), состоящая из разметки лингвистических единиц на нескольких уровнях: звуковом, морфологическом и т. д. и отражающая несколько взаимосвязанных каналов коммуникации: речь, жесты, позы и т. п.
Многоязычный корпус (англ. multilingual corpus) – корпус, в состав которого входят тексты на нескольких языках
Мода (англ. mode) – величина, которая указывает не среднее, а самое часто встречающееся значение (→ см. частота встречаемости). Например, в ряду данных 120-120-150-200 мода равна 120.
Мониторный корпус (англ. dynamic/monitor corpus) – постоянно пополняемый корпус, создаваемый с целью мониторинга изменений в определенном подъязыке или языке в целом.
Морфологическая разметка (англ. morphological annotation/ tagging) – морфологический разбор текстоформы (→ см. токен), приписывание ему релевантных морфологических признаков. Результат разметки хранится в корпусе и доступен для поиска.
Морфологический анализатор / морфологический теггер (англ. morphological analyser/tagger) – программа, анализирующая форму токена (→ см. токен) с целью определения его морфологических параметров.
Мультимедийный / мультимодальный корпус (англ. multimedia / multimodal corpus) – аннотированная коллекция сообщений (→ см. аннотация), передаваемых по нескольким взаимосвязанным каналам коммуникации: речь, жесты, позы и т. п. На практике мультимедийный корпус наиболее полно отражает реальные акты коммуникации.
Мультимодальный корпус (англ. multimodal corpus) – см. мультимедийный корпус.
Национальный корпус (англ. national corpus) – сбалансированный репрезентативный корпус (→ см. сбалансированность, репрезентативность), представляющий национальный язык в целом во всех его жанрах и разновидностях.
Неоднословная лексическая единица / оборот (англ. multiword expressions, MWE) – последовательность двух или более токенов/лемм (→ см. токен, лемма), свойства которой не выводятся из суммы свойств входящих в нее текстоформ/лемм. Например, сыграть в ящик, потому что, в общем и т. д.
Нормальное распределение (англ. normal distribution) – статистическая мера, определяющая случайность или не случайность отклонения полученных данных от средней величины.
Правообладателям!
Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.Читателям!
Оплатили, но не знаете что делать дальше?