Электронная библиотека » Коллектив авторов » » онлайн чтение - страница 15


  • Текст добавлен: 27 мая 2022, 02:01


Автор книги: Коллектив авторов


Жанр: Журналы, Периодические издания


сообщить о неприемлемом содержимом

Текущая страница: 15 (всего у книги 17 страниц)

Шрифт:
- 100% +

34. Latour B. An Attempt at a «Compositionist Manifesto» // New Literary History. – Baltimore: Johns Hopkins University Press, 2010. – Vol. 41, N 3. – P. 471–490.

35. Meyer М. Epistemic Communities and Collaborative Research // International Encyclopedia of the Social and Behavioral Sciences. – Oxford: Elsevier, 2015. – P. 862–866. – DOI: 10.1016/B978–0-08–097086–8.41024-X

36. Moran J. Interdisciplinarity. – London: Routledge, 2002. – 207 p.

37. Sharif N. Emergence and development of the National Innovation Systems concept // Research Policy. – Amsterdam: Elsevier B.V., 2006. – Vol. 35, N 5. – P. 745–766.

38. Wallerstein I. Unthinking Social Sciences: The Limits of Nineteenth-Century Paradigms. – Cambridge: Polity Press, 1991. – 296 p.

39. Weber M. Basic Concepts in Sociology. – N.Y.: Citadel Press, 1962. – 128 p.

Наукометрия и полнотекстовая аналитика в российских реалиях

И.А. Тихомиров, И.В. Соченков, А.В. Швец

Ключевые слова: наукометрия; полнотекстовый анализ; анализ научных цитирований; автоматизированная оценка научных работ.

Keywords: scientometrics; full-text analysis; analysis of scientific citations; automated assessment of scientific works.


Аннотация. В статье описаны основные проблемы, с которыми сталкивается современная наукометрия в российских реалиях при попытке ее применения к ряду задач, связанных с оценкой научной деятельности. Представлено обоснование необходимости решения этих проблем за счет использования анализа полных текстов научных публикаций. Предложена система индикаторов для автоматизированной оценки больших массивов научных работ. Рассмотрены методы, основанные на достижениях компьютерной лингвистики, позволяющие выполнять полнотекстовый анализ и определять значения индикаторов, которые вместе с традиционными наукометрическими показателями могут быть использованы для всесторонней оценки публикаций.

Abstract. The article describes main problems related to the applying scientometric methods in Russian realities. It justifies the use of full-text analysis in solving these problems. The system of indicators aimed to conduct the automated assessment of a large corpus of scientific works is presented. The article examines methods that can be used to conduct the full-text analysis and to determine the value of the indicators under review. These methods are based on the progress of the modern computational linguistics. Such methods, as well as traditional scientometric indicators, can be used to conduct a thorough analysis of scientific texts.


Введение

В настоящее время ведутся активные дискуссии о возможности использования наукометрии для оценки ученых, составления рейтингов вузов, оценки качества научных журналов, выявления приоритетов исследований и целого ряда других задач. Однако при всех плюсах наукометрии важно понимать, с какими данными в цитатных базах мы имеем дело и как в них реально отражена российская наука. Так, анализ структуры российской науки по Scopus [38] или WoS [43] показывает сильные различия со структурой в РИНЦ [12]. Если в западных базах больше всего отечественных публикаций по физике, математике, астрономии, науках о материалах, химии, то в РИНЦ лидируют медицина, юридические науки и педагогика [6]. Cравнение реальных объемов выпускаемых в России научных публикаций с их отражением в Scopus или WoS показывает, что в эти цитатные базы попадает менее 10% от всего потока. Это значительно искажает оценки, вычисляемые с помощью наукометрических методов. К тому же, различные авторы уже неоднократно отмечали, что наши статьи плохо цитируются западными учеными, таким образом, мы имеем дело со слабо связанным графом цитирований российских работ в Scopus или WoS, а при малых значениях и тематической несбалансированности выборки делать статистически достоверные выводы невозможно [9]. Даже притом что в РИНЦ индексируется на порядок больше статей из российского сегмента, чем в Scopus или WoS, мы не можем делать достоверные выводы, так как российская культура цитирования развита очень слабо, и имеет место тот же слабосвязный граф цитирований.

Другой проблемой является возможность умышленного завышения значений наукометрических показателей. Известны случаи публикации сборников статей, каждая из которых имеет малый размер и ссылается на работы одного автора [15]. При выпуске нескольких таких сборников в год этот автор может получить сотни цитирований. Еще один способ – создание нечетких дублей статей с незначительно измененными названиями и содержимым, список литературы в таких статьях тоже дублируется, искусственно завышая цитируемость определенного автора. Также встречается случай не вполне корректного увеличения цитирования при рецензировании статей, когда рецензент указывает на необходимость сослаться на ряд работ, которые имеют отношение либо к нему самому, либо опубликованы в продвигаемом издательством журнале. Известны и другие способы искусственного увеличения количества цитирований: вставка ссылок на публикации, не имеющие никакого отношения к содержанию статьи; приписывание авторов к статьям, которые они даже не читали; добавление в списки литературы без ведома авторов ссылок на публикации и др.

Таким образом, можно сделать вывод, что использование только наукометрических методов для анализа широкого спектра состояния дел в отечественной науке недостаточно. Существенную помощь в решении проблем с искусственным увеличением количества цитирований и слабосвязным графом цитирований могли бы оказать средства анализа полных текстов научных публикаций, которые позволили бы не только выявлять подобные случаи, но и оценивать качество текстов. Рассмотрим в настоящей работе возможное решение обозначенных проблем с применением достижений современной компьютерной лингвистики.

Анализ качества научных публикаций

При помощи традиционных наукометрических инструментов РИНЦ можно вычислить такие показатели, как импакт-фактор, индекс Хирша, индекс Херфиндаля и ряд других. Однако по причине попадания в РИНЦ статей вне зависимости от импакт-фактора журналов гарантировать, что вычисленные значения соответствуют действительности, построены на публикациях надлежащего качества и отражают реальное положение дел, невозможно. Для этого требуется провести детальное изучение тех источников, на основе анализа которых они были получены. Если для отдельно взятого ученого провести такую «ручную» оценку в целом возможно, то для организации, когда количество рассматриваемых публикаций превышает несколько сотен, а количество ссылок – несколько тысяч, «ручная» проверка становится невозможной. Кроме того, импакт-фактор журнала не является достаточным и необходимым показателем для оценки качества опубликованных материалов, поскольку он тесно связан с культурой и принятой практикой научного цитирования, которая варьируется в зависимости от предметной области. Далее рассмотрим основные способы анализа полных текстов, которые могут помочь в выявлении фиктивных ссылок и научных работ низкого качества, и сформируем систему индикаторов для автоматизированной оценки больших массивов научных публикаций. Эти индикаторы позволят выделять работы низкого качества, опубликованные в основном с целью быстрого увеличения значений классических наукометрических показателей (количество опубликованных работ, количество цитирований, индекса цитирования и проч.) недобросовестных исследователей. Рассматриваемые далее индикаторы и наукометрические показатели не являются абсолютными. Взятые по отдельности, без верификации экспертом, они не свидетельствуют ни о высоком, ни о низком уровне оцениваемой научной работы. Однако в совокупности они могут служить мощным критерием первичного отделения недоброкачественных научных работ от остальных.

1. Размер публикации. Оценку публикации можно начать, просто определив ее размер по количеству содержащихся в ней слов. Если публикация представляет собой краткие тезисы, то, скорее всего, она опубликована в низкорейтинговом журнале или сборнике тезисов. Безусловно, участие с докладами в научных мероприятиях, семинарах и конференциях и публикация тезисов являются важной составляющей научной деятельности. Конференции, ориентированные на студентов и аспирантов, также играют важную роль в подготовке будущих научных работников высокого уровня. Однако среди представленных на них работ часто встречаются обзорные тезисы, а также публикации в большей степени технического характера, нежели научные. Такие работы относительно невелики по объему, однако содержат большое количество ссылок [15]. Этот фактор также можно учитывать при автоматизированной оценке научных работ.

2. Заимствования в публикации. Критерий оригинальности научной публикации является весьма важным в современной научно-образовательной среде. Общепризнанным является тот факт, что в научных работах недопустим плагиат в любой его форме. С интенсификацией процесса научных исследований в условиях острой необходимости публикации недобросовестные исследователи применяют практику присвоения чужих результатов. Опыт экспертных исследований вольного сетевого сообщества «Диссернет» показывает [4, 10, 11], что недобросовестные авторы часто используют дословные заимствования чужого текста, в некоторых случаях прибегая к его перефразированию.

Близкой проблемой являются самоповторы, когда одна и та же научная работа, возможно, с некоторыми изменениями, публикуется в нескольких журналах или представляется на нескольких конференциях. В разных областях научных знаний приняты различные негласные соглашения о том, какой материал можно считать новым, оригинальным и допустимым, а какой не удовлетворяет понятию оригинальной научной работы и, следовательно, является повтором (допустимыми считаются количества самоповторов от 30 до 70% текста публикации).

3. Проверка грамотности. Требование к грамотности текста является одним из наиболее важных. При написании статьи необходимо «представить полученные значимые научные результаты в такой форме, чтобы текст не только адекватно отражал интеллектуальное содержание, но и соответствовал критериям культуры речи в сфере научной коммуникации» [7]. Среди частых нарушений норм культуры речи можно выделить нарушение синтаксической и семантической связности слов, нарушение последовательности изложения, употребление плеоназмов, нарушение правил согласования и другие. Тексты, содержащие такие нарушения, как правило, не позволяют в совершенстве понять содержание и разобраться в представленных результатах. Если бы не целенаправленное искусственное увеличение цитирований, такие тексты, в большинстве своем, так и остались бы незамеченными научным сообществом. Однако высокие показатели цитируемости заставляют ученых вновь и вновь обращаться к этим статьям и тратить свое время на попытку осознать их и найти для себя что‐то ценное. В связи с этим автоматическое выявление перечисленных выше нарушений является необходимым условием при оценке качества текстов научных статей. Стоит также отметить, что подобные нарушения могут допускаться недобросовестными авторами целенаправленно для искажения заимствованного текста, что усиливает значимость методов определения грамотности текста.

4. Оценка лексики. Критерий употребления лексики, подобающей научным работам, перекликается с предыдущим критерием, поскольку так же основан на необходимости соблюдения культуры речи. При написании научных текстов принято использовать научный функциональный стиль речи, который обладает следующими свойствами: обобщенно-отвлеченный характер речи, подчеркнутая логичность, последовательность изложения, его доказательность и аргументированность, точность, ясность, объективность, некатегоричность изложения. Точность формулировок достигается употреблением терминов, абстрактной лексики и устойчивых общенаучных словосочетаний. Под общенаучными словосочетаниями и выражениями понимают научные и технические термины и различные выражения общего характера, такие как: «принятая гипотеза», «по указанной причине», «обосновать вывод», «описанный ниже» и другие [22]. Использование таких выражений позволяет логично выстроить содержание текста, передать мысль наиболее строгим образом. Отклонение от научного стиля приводит к снижению ясности изложения, начинает прослеживаться субъективный характер высказываний, текст становится менее информативным, читателю приходится догадываться, что автор имел в виду.

5. Оценка соответствия структуры. В каждой предметной научной области существует своя устоявшаяся структура текста, которая позволяет научному сообществу объективно оценить выполненное исследование, воспроизвести эксперименты и правильным образом использовать представленные методы и результаты. Например, во многих естественных науках принята структура IMRAD [24], согласно которой статья, описывающая результаты оригинального экспериментального исследования, должна включать в себя следующие основные разделы: «Введение и постановка проблемы», «Методы или теоретическое обоснование», «Результаты» и «Выводы и обсуждение». Работы, структура которых не соответствует принятым нормам, не может быть по достоинству оценена учеными, поскольку она не обладает полнотой содержания и тем самым ограничивает их доступ к необходимой информации. Если автор в своих публикациях не представляет новые научные результаты (ни положительные, ни отрицательные), то его по одним лишь публикациям сложно отнести к ученым. Оценка научной деятельности такого автора не имеет смысла, даже в том случае, если он по каким-либо причинам имеет высокий рейтинг цитирования. Поэтому оценка содержательной составляющей текста, а именно проверка соответствия структуры требованиям, предъявляемым к научным публикациям, является важным критерием оценки качества научных работ.

6. Тематическое соответствие. Важным фактором, который следует учитывать для выявления низкокачественных публикаций, является тематическое соответствие цитирующей и цитируемой работ. Большинство источников в списке литературы должно относиться к той же теме, что и содержащая их публикация. Если же в публикации присутствует несколько тем, то и источники в списке литературы должны, преимущественно, относиться к этим темам. Само понятие темы может трактоваться достаточно широко, однако наличие в статье по тематике одной предметной области значительного числа ссылок на работы другой предметной области в совокупности с другими рассматриваемыми здесь факторами может трактоваться как свидетельство невысокого уровня статьи и являться попыткой ввести читателя в заблуждение неподходящими цитированиями.

7. Совпадающий контекст. Этот критерий тесно связан с предыдущим. Контекст ссылки цитируемой публикации должен пересекаться с контекстом цитирующей публикации в пределах некоторой окрестности ссылки, т.е. текст абзаца (в общем случае некоторого окружения ссылки) в большинстве случаев должен соотноситься (явно или тематически) с текстом документа, на который в этом абзаце присутствует ссылка. В простом случае цитата может представлять собой дословное или перефразированное (корректное) заимствование. В более сложном случае, когда идет неявная отсылка к цитируемой публикации, в контексте цитирования должны присутствовать термины, понятия, лексика, имеющая отношение к теме цитируемого документа.

Этот критерий важен также с точки зрения верификации корректности цитирований, поскольку заимствованный из одного источника текст может быть оформлен как цитата из другого источника, не имеющего отношения к оригиналу.

8. Оценка тональности цитирования. Этот критерий важен с точки зрения оценки не самой цитирующей работы, а, скорее, для понимания того, как положительный / отрицательный контекст может быть учтен при рейтинговании цитируемых работ. В научном сообществе наиболее распространенным является случай положительного или нейтрального цитирования. Это ситуация, когда публикуемые результаты исследования опираются на ранее полученные результаты, сравниваются с предшествующим научным уровнем и аналогичными подходами. С другой стороны, возможна ситуация, когда научное цитирование указывает на недостатки работы, на которую приводится ссылка.

9. Проверка наличия ссылки. Один из индикаторов связан с проверкой корректности библиографического списка: наличие в тексте научной работы ссылок на все источники, добавленные в этот список. Регулярно появляются статьи, авторы которых необоснованно вставляют в список литературы ссылки на источники, которые не используют в своей работе, однако такие источники затем получают дополнительные цитирования. Эти случаи должны учитываться при вычислении наукометрических показателей, основанных на цитированиях, чтобы не завышать значимость публикаций, которые по факту использовались не во всех цитирующих их работах.

10. Выявление неявных цитирований. Этот критерий позволяет, в некотором смысле, оценить полноту библиографического списка по отношению к содержанию статьи. Если автор использует формулировки результатов, которые встречались в предшествующих работах других авторов, можно указать на наличие связи между этими работами. То же самое может относиться к определениям терминов, которые, наряду с результатами, выступают в работах как важный самостоятельный объект. Наконец, наличие других работ, тематически очень близких к рассматриваемой, также может свидетельствовать о наличии неявной связи, которую автору уместно было бы выразить в виде библиографической ссылки.

11. Проверка знакомства авторов статьи с современным состоянием исследований. Анализ библиографического списка позволяет в некоторой мере определить, знаком ли автор с текущим положением дел в исследуемой предметной области. Так, список должен включать цитирования современных работ и наиболее цитируемых другими публикациями по схожей теме. Низкая осведомленность автора о теме приводит к неоправданно высокому самоцитированию: автор начинает ссылаться по большей части на свои работы, считая, что никто подобной проблемой не занимался. Такая публикация имеет низкую информативность, читатель не имеет возможности оценить, как соотносятся представленные результаты с мировым уровнем, можно ли их использовать, или они в реальности уже являются устаревшими и неактуальными.

Методы полнотекстового анализа

Для решения задачи оценки научной деятельности и экспертизы научных публикаций могут применяться автоматизированные средства – информационно-аналитические системы научной информации, например, SciVal [36], Scopus [37], WoS [43]. Функциональность этих систем ориентирована на анализ библиометрических показателей отдельных научных публикаций, а также научных изданий и других субъектов научной деятельности. При этом ни одна из перечисленных систем не включает в себя автоматизированный анализ содержания научных работ (как уже опубликованных, так и представленных к публикации). Однако именно содержание публикаций является определяющим при экспертной оценке научных работ. В [28, 31] формулируются принципы рецензирования и критерии экспертной оценки научных работ, сходные по своей природе с критериями, предложенными в настоящем исследовании. Индикаторы и критерии оценки научных работ, представленные в предыдущем разделе, предполагают автоматическую обработку полных текстов научных публикаций и другой научно-технической информации. Исключительно ручная «экспертная» оценка научных работ в значительной степени затруднена из-за объемов ежегодно публикуемых научных материалов. Готовых информационно-аналитических решений, способных заменить эксперта, в настоящее время не создано ни в России, ни за рубежом, однако основы соответствующих информационных технологий успешно развиваются, в том числе и в нашей стране.

Далее рассмотрим актуальные направления исследований в сфере полнотекстового анализа и наукометрии, ориентированные на решение задач автоматизированной оценки научных работ в соответствии с вышеприведенными индикаторами. В основе всех предлагаемых далее решений лежат современные методы, относящиеся к области информационного поиска, обработки больших массивов данных и машинного обучения.

При определении отношения размера публикации и количества использованных источников возникает задача выделения библиографических ссылок в тексте. Эта задача успешно решается с высокой точностью путем применения методов извлечения информации [23]. Более того, выделенные библиографические записи разделяются на части с определением значимых атрибутов: фамилий авторов, заглавия публикаций, названия и места издания, года публикации и т.п. Эта информация размещается в структурированной базе данных и учитывается впоследствии при оценке других критериев, в том числе при проверке знакомства авторов статьи с современным состоянием исследований. Автоматическое сопоставление выделенных записей со ссылками в тексте с применением регулярных выражений позволяет проверить наличие ссылки для каждой записи. Обозначенные курсивом индикаторы в сочетании с наукометрическими показателями цитирования дадут прирост точности при оценке публикаций.

Масштабы проблемы заимствований в публикациях привели к появлению ряда отечественных и зарубежных систем, успешно определяющих дословные заимствования с минимальными изменениями текстов источников («Антиплагиат» [2], TurnitIn [41]). Это способствовало тому, что недобросовестные исследователи стали применять различные техники сокрытия заимствований: от изменения порядка слов, удаления, добавления и перестановки фрагментов текста до перевода текста с другого языка. Следует отметить, что «переосмысление», перефразирование текста чужой или собственной работы является «пограничным случаем», оценить который с точки зрения научной этики может только эксперт в соответствующей области науки. Точное значение «процента оригинальности» или «уровня заимствований» служит лишь ориентиром для привлечения внимания эксперта к возможной проблеме. Поэтому в современных реалиях важно обнаруживать заимствование «идей»: сильное перефразирование исходного текста с сохранением смысла и переводной плагиат. Определенные успехи достигнуты в обнаружении заимствований обоих типов [35, 40, 42]. В обоих случаях лучшим методом является сопоставление работ по спискам цитируемой литературы и по порядку следования библиографических ссылок в тексте [5, 25]. Однако если публикация является компиляцией с перестановкой частей нескольких работ, этот метод оказывается бессилен. Альтернативой ему (для обнаружения смысловых заимствований) является метод на основе полного семантического анализа и многокритериального сопоставления текстов [39, 44].

В области проверки грамотности текста основным применяемым средством является инструмент проверки правописания Microsoft Word [33]. Он позволяет найти большинство часто допускаемых грамматических ошибок, однако ряд нарушений остается не выявленным. Для публикаций на английском языке может быть использована развивающаяся система Grammarly.com [27], для русского языка исследования по анализу полных текстов с целью выделения дополнительных нарушений находятся на стадии развития. Например, в [18] предлагается метод, в основе которого лежит автоматизированный подход к построению правил, с помощью которых можно выявлять нарушения синтаксической и семантической связности слов, нарушения последовательности изложения, употребление плеоназмов, нарушения правил согласования.

Для того чтобы оценить лексику текста и определить, содержатся ли в тексте слова, характерные для научных текстов, могут применяться специальные общенаучные словари. При этом эффективнее рассматривать не отдельные слова, а словосочетания с синтаксическими или семантическими связями. В [16] предложен метод формирования словаря общенаучных словосочетаний и показано, что с его использованием возможно автоматически отличить научные тексты от научно-популярных и ненаучных текстов.

Оценка соответствия структуры текста может быть выполнена с применением методов машинного обучения, позволяющих автоматически классифицировать фрагменты текстов в соответствии с их содержанием, по различным структурным категориям. В [20] представлен метод для распределения предложений по категориям «Введение», «Методы», «Результаты» и «Выводы» (IMRAD). В качестве признаков классификации использовались слова и их последовательности, наличие цитирований, времена глаголов, позиция в тексте. Для некоторых предметных областей выделяют и другие категории предложений. Например, в [31] для публикаций по химии и биологии различают следующие: «Гипотеза», «Мотивация», «Цель», «Объект», «Фон», «Метод», «Эксперимент», «Модель», «Наблюдение», «Результат», «Вывод». Обе указанные выше работы использовали в качестве основного признака классификации заголовки разделов в тексте, которые были одинаковыми в большинстве отобранных для экспериментов статей и часто совпадали с названием категории. Для статей с нестандартными или отсутствующими заголовками могут применяться другие методы, например, основанные на выявлении специальных маркеров, характерных для той или иной структурной категории [8].

Рассмотрим несколько существующих способов оценки тематического соответствия текстов.

Первый способ основан на применении рубрикаторов (УДК, ГРНТИ, МПК и др.) с предопределенной иерархией классов. Этот метод имеет множество недостатков, главный из которых состоит в неоднозначности критериев отнесения документов к рубрикам, а также в запутанности структуры самой иерархии. На практике это затрудняет ручную классификацию документов по рубрикам, делает ее неоднозначной и противоречивой (разные эксперты относят один и тот же текст к разным наборам рубрик). В совокупности это не позволяет реализовать систему автоматической рубрикации в рамках заданной таксономии, которая обеспечила бы приемлемое качество классификации [26].

Второй способ состоит в выделении тем с помощью методов тематического моделирования [29, 34]. Как показывает практика [3], эти методы позволяют выделить в информационном массиве заранее предопределенное число тем и соотнести документы с представленными в них темами. Недостатком же является необходимость априорного задания количества тем и сложность обработки коллекций, насчитывающих десятки миллионов документов.

Третий способ заключается в оценке тематического сходства документов на основе некоторой «метрики» тематического сходства [1, 14]. Метод оценки тематического сходства может использоваться непосредственно или применяться впоследствии для кластеризации текстов, выделения научных направлений, близких тематик исследований и т.п. [38]. Эти методы ориентированы на обработку больших, постоянно пополняемых коллекций за счет реализации эффективного поиска тематически схожих документов с применением инвертированных индексов ключевой лексики. На основе этого метода возможна реализация разведочного (эксплоративного) поиска [32].

Для оценки совпадения контекста библиографической ссылки и цитируемого источника можно совместно применять две группы методов. Поиск заимствованных из цитируемого документа фрагментов (с учетом возможного перефразирования) в анализируемом документе возможно реализовать на основе метода многокритериального сравнения текстов [13]. Однако библиографическая ссылка в тексте не всегда означает цитирование или переосмысление текста оригинальной работы. Зачастую речь идет об отсылке к результатам, методам, терминологии, первоисточником которых является цитируемая работа, без прямого заимствования текста. В этом случае имеет смысл применять оценку тематического сходства контекста ссылки (например, окружающих абзацев) по отношению к цитируемой работе в целом, как это было описано выше для сопоставления двух работ. Современный уровень развития методов первой и второй группы позволяет решать задачу оценки соответствия цитируемого и цитирующего документов (фрагментов), если они написаны на одном языке. В то же время при кроссязыковом цитировании (как в случае, например, с настоящей статьей, которая цитирует источники на английском языке) для оценки тематического сходства необходимо учитывать лексическое соответствие между терминологией на разных языках. И именно это направление исследований может стать перспективным в ближайшем будущем.

Задача определения тональности высказываний достаточно популярна у исследователей социальных медиа. В то же время важность этой задачи при наукометрическом анализе и картировании науки недостаточно широко осознается [21]. Некоторое исследование может являться развитием, служить подкреплением или же, наоборот, опровержением положений другого исследования. В другом случае в некоторой работе могут использоваться результаты предшествующего исследования в качестве приложения к решению целевой задачи. Дальнейшие исследования в этой области в перспективе помогут отслеживать преемственность исследований, а также случаи, когда результаты одного исследователя были приложены к решению другой задачи.

Реализация метода автоматизированного выявления неявных цитирований может основываться на трех основных принципах: оценка тематического сходства документов в целом, поиск заимствований, поиск именованных сущностей (терминов, определений, понятий) в тексте статьи [19] и соотнесение их с ранее введенными в своих работах другими авторами.

Заключение

Проведенное исследование показало, что использование зарубежных аналитических инструментов, как и применение существующих средств работы с российскими базами цитирования, не позволяет должным образом оценить публикации российских ученых. Необходимо сочетать принятые наукометрические показатели с дополнительными индикаторами, которые могут быть вычислены автоматизированно на основе полнотекстового анализа публикаций с применением новых методов компьютерной лингвистики, методов информационного поиска, интеллектуального анализа текстов, машинного обучения. Часть предложенных индикаторов уже учитывалась при оценке одного из ведущих российских научных журналов [17]. Установлено, что количественные и качественные характеристики, определяемые с помощью методов полнотекстового анализа, дают дополнительную значимую информацию, которую невозможно получить с помощью стандартных библиометрических методов. В дальнейшем планируется проведение экспериментов по вычислению приведенных индикаторов и оценке качества статей.

Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта № 14-29-05008 офи_м.


Страницы книги >> Предыдущая | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 | Следующая
  • 0 Оценок: 0

Правообладателям!

Это произведение, предположительно, находится в статусе 'public domain'. Если это не так и размещение материала нарушает чьи-либо права, то сообщите нам об этом.


Популярные книги за неделю


Рекомендации