Электронная библиотека » Коллектив авторов » » онлайн чтение - страница 5


  • Текст добавлен: 14 ноября 2023, 17:52


Автор книги: Коллектив авторов


Жанр: Публицистика: прочее, Публицистика


сообщить о неприемлемом содержимом

Текущая страница: 5 (всего у книги 27 страниц) [доступный отрывок для чтения: 9 страниц]

Шрифт:
- 100% +
2.2. Специальные проекты НАТО и Европейского союза

В 2014 г. начал функционировать Центр передового опыта стратегических коммуникаций НАТО (NATO Strategic Communications Centre of Excellence, NATO StratCom COE). Центр является аккредитованной НАТО международной военной организацией, которая не входит в состав командования НАТО и не подчиняется ни одному другому подразделению НАТО. Как указано на сайте организации, миссия NATO StratCom COE состоит в том, чтобы способствовать коммуникационным процессам Североатлантического союза, предоставляя ему всесторонний анализ, своевременные консультации и практическую поддержку. Например, интересными, но требующими дальнейшей верификации и объяснения можно считать, например, исследования так называемого роботизированного троллинга, которые осуществляет NATO StratCom COE. Роботизированный троллинг, или роботтроллинг, – это скоординированное использование фейковых аккаунтов и записей в социальных сетях[141]141
  Fredheim R., Gallacher J. Robotrolling. 2018. Iss. 3. NATO Strategic Communications, Centre of Excellence. URL: https://www.stratcomcoe.org/robotrolling-20183 (дата обращения: 25.12.2020).


[Закрыть]
.

Американский аналитический центр Atlantic Council* запустил проект Digital Forensic Research Lab[142]142
  URL: https://www.digitalsherlocks.org/about (дата обращения: 05.09.2022).


[Закрыть]
. Исследования того, как боты в социальных медиа используются для управления общественным мнением в разных странах, осуществляются в рамках проекта «Teh Computational Propaganda Research Project (COMPROP)» Оксфордского университета[143]143
  URL: https://comprop.oii.ox.ac.uk (дата обращения: 15.01.2019).


[Закрыть]
. Развивая мысль об идентификации ботов, троллей и фейк-ньюз, перечислим также ряд современных технологических инструментов и проектов, позволяющих выявлять цифровую дезинформацию в Twitter: Hamilton 68[144]144
  URL: http://dashboard.securingdemocracy.org (дата обращения: 15.01.2019).


[Закрыть]
, Botometer[145]145
  URL: https://botometer.iuni.iu.edu (дата обращения: 15.01.2019).


[Закрыть]
, Debot[146]146
  URL: https://www.cs.unm.edu/~chavoshi/debot/ (дата обращения: 15.01.2019).


[Закрыть]
. Существует и много других подобного рода проектов. Помогают своим пользователям идентифицировать фейк-ньюз также Facebook*, Google[147]147
  Al-Heeti A. Facebook* will fight fake news with real newspaper ads (and more) // CNET. 2018. May 23. URL: https://www.cnet.com/tech/tech-industry/facebook-is-fighting-misinformation-with-news-literacy-campaign-help-from-researchers/ (дата обращения: 20.10.2019).


[Закрыть]
и другие IT-компании. Например, Facebook* и Instagram* удалили 120 тысяч постов, связанных с президентскими выборами в США в ноябре 2020 г., не дали опубликовать 2,2 миллиона рекламных объявлений, разместив 150 миллионов предупреждений в отношении постов с дезинформацией[148]148
  См.: Facebook* и Instagram* удалили 120 тыс. постов за вмешательство в выборы // Интерфакс. 2020. 19 октября. URL: https://www.interfax.ru/world/732108 (дата обращения: 21.10.2019).


[Закрыть]
.

В Европейском союзе разработкой коммуникационных материалов и кампаний, разъясняющих политику Европейского союза и противодействующих дезинформации, в соответствии с уже упоминавшимся Планом действий в области стратегических коммуникаций, призвана заниматься Оперативная рабочая группа по стратегическим коммуникациям (East StratCom Task Force), созданная решением глав государств и правительств Европейского союза в марте 2015 г. В рамках кампании «ЕС против дезинформации» Оперативная рабочая группа разработала портал EUvsDisinfo[149]149
  URL: https://euvsdisinfo.eu (дата обращения: 05.09.2022).


[Закрыть]
, новая версия которого запущена в сентябре 2017 г. В конце 2017 г. Европейская комиссия создала группу экспертов высшего уровня для консультирования по вопросу противодействия фейк-ньюз, которая начала широкомасштабный процесс консультаций с общественностью, включающий онлайн-опросы, структурированные диалоги с соответствующими заинтересованными сторонами и опрос общественного мнения «Евробарометр», охватывающий все 28 государств – членов Европейского союза. Итоги консультаций с общественностью по поводу фейк-ньюз и цифровой дезинформации были представлены в марте 2018 г. в специальном докладе[150]150
  Synopsis report of the public consultation on fake news and online disinformation. URL: https://ec.europa.eu/digital-single-market/en/news/synopsis-report-public-consultation-fake-news-and-online-disinformation (дата обращения: 09.10.2018).


[Закрыть]
.

Европейский центр передового опыта противостояния гибридным угрозам (Teh European Centre of Excellence for Countering Hybrid Threats) начал функционировать в июле 2017 г. Судя по информации на сайте центра, его цель заключается в содействии общему пониманию гибридных угроз на стратегическом уровне и разработке всеобъемлющих ответных мер на национальном уровне, а также скоординированных ответных мер на уровнях Европейского союза и НАТО.

Нельзя не заметить, что большинство прикладных исследований Европейского союза и НАТО посвящены России. Европейские и американские исследователи четко выявляют источники, каналы, аудиторию российского воздействия, анализируют ключевые нарративы стратегических коммуникаций[151]151
  Подробнее см.: Filatova O., Bolgov R. Strategic communication in the context of modern information confrontation…


[Закрыть]
. В частности, европейские исследователи считают, что «российские стратегические коммуникации содержат мета– или гранднарративы, то есть серию ключевых тем, которые последовательно проявляются в большинстве коммуникационных событий… Ключевой месседж изображает Запад как образование, с одной стороны, агрессивное и экспансионистское, и с другой – как слабое и находящееся на грани коллапса. Европейский союз изображается как близкий к распаду под совместным давлением финансового и миграционного кризисов»[152]152
  EU strategic communications… P. 8.


[Закрыть]
.

К сожалению, мы не можем утверждать, судя по открытым источникам, что подобные проекты существуют и в России. Укажем лишь, что на сайте МИД РФ создана специальная вкладка с примерами публикаций, тиражирующих недостоверную информацию о России[153]153
  Примеры публикаций, тиражирующих недостоверную информацию о России // Министерство иностранных дел Российской Федерации. URL: http://www.mid.ru/nedostovernie-publikacii (дата обращения: 12.12.2020).


[Закрыть]
. И можно отметить деятельность нескольких групп инициативных граждан – например, «Наблюдатели» собирают базу данных из профилей пользователей на YouTube, которых относят к ботам.

В целом, на наш взгляд, основная проблема в изучении пропаганды и контрпропаганды на сегодняшний день заключается в том, что они принимают множество форм и распространяются по многим каналам. Коммуникации стремительно развиваются, и, хотя пропаганда имеет долгую историю, сегодня ее охват, масштаб и эффективность поднялись на беспрецедентный уровень благодаря вирусной скорости социальных сетей и возможностям искусственного интеллекта.

В настоящий момент можно выделить две эпохи в развитии пропаганды. Первую условно назовем эпохой классической пропаганды, а вторую (воспользовавшись терминологией Г. Почепцова) – эпохой «пропаганды 2.0», или «цифровой пропаганды». И если классическая пропаганда хорошо изучена, то есть выявлены ее виды, цели, каналы, аудитории, механизмы и принципы воздействия, построены модели ее изучения, то «пропаганды 2.0» еще ждет своих исследователей. Здесь, безусловно, большие возможности предоставляет искусственный интеллект: в частности, современные методы машинного обучения и автоматической обработки текстов необходимы для идентификации пропаганды. Представим далее результаты исследовательского проекта, ориентированного на применение искусственного интеллекта для выявления пропагандистского контента в текстах СМИ.

2.3. Идентификация пропагандистского контента на базе тематической модели корпуса текстов СМИ

В данном параграфе мы продемонстрируем возможности использования подхода, основанного на тематическом моделировании (topic modeling) для идентификации пропаганды в СМИ. Отметим, что, насколько нам известно, описанный подход для выявления столь семантически нечеткого явления, как пропаганда, предлагается впервые.

Данный инициативный исследовательский проект осуществлялся в апреле – июне 2020 г. международным коллективом, в который входили медиаэксперты О. Г. Филатова (Россия), Дж. М. Ионеску (Румыния) и группа исследователей из Казахстана под руководством профессора Р. И. Мухамедиева (основной исполнитель – К. О. Якунин). Опыт коллег из Казахстана, которые в течение последних лет выполнили серию проектов[154]154
  См., например: Barakhnin V. B., Muhamedyev R. I., Mussabaev R. R., Kozhemyakina O. Yu., Issayeva A., Kuchin Ya. I., Murzakhmetov S. В., Yakunin K. O. Methods to identify the destructive information // Journal of Physics: Conference Series. 2019. Vol. 1117. http://dx.doi.org/10.1088/1742–6596/1117/1/012001; Muhamedyev R. Machine learning methods: An overview // Computer modelling & new technologies. 2015. Vol. 19, no. 6. P. 14–29.


[Закрыть]
, ориентированных на применение систем искусственного интеллекта в различных прикладных областях исследований на стыке машинного обучения, обработки естественного языка и изучения социума, активно задействовался в рамках представленного ниже исследовательского проекта[155]155
  Подробнее о проекте см.: Yakunin K., Ionescu G. M., Murzakhmetov S., Mussabayev R., Filatova O., Mukhamediev R. Propaganda identification using topic modelling // 9thInternational Young Scientist Conference on Computational Science, YSC 2020, 05–12 September 2020. 2020. Vol. 178. P. 205–212.


[Закрыть]
.

Как уже отмечалось, в данном проекте использовался подход по выявлению текстов с пропагандистским содержанием с применением тематической модели корпуса текстов.

Анализ больших объемов текстовой информации в настоящее время обеспечивается методами автоматической обработки естественных языков (natural language processing). Эти технологии позволяют пользователям собирать информацию из больших объемов текстовых данных[156]156
  Korencÿic D., Ristov S., Sÿnajder J. Document-based topic coherence measures for news media text // Expert Systems with Applications. 2018. Vol. 114. P. 357–373.


[Закрыть]
, обеспечивают анализ контента[157]157
  Neuendorf K. A. Teh content analysis guidebook. SAGE, 2016; Flaounas I., Ali O., Lansdall-Welfare T., De Bie T., Mosdell N., Lewis J., Cristianini N. Research methods in the age of digital journalism: Massive-scale automated analysis of news-content topics, style and gender // Digital Journalism. 2013. Vol. 1. P. 102–116.


[Закрыть]
, персонализированный доступ к новостям[158]158
  Steinberger J., Ebrahim M., Ehrmann M., Hurriyetoglu A., Kabadjov M., Lenkova P., Steinberger R., Tanev H., Vázquez S., Zavarella V. Creating sentiment dictionaries via triangulation // Decision Support Systems. 2012. Vol. 53, no. 4. P. 689–694; Vossen P., Rigau G, Serafnii L., Stouten P., Irving F., Hage W. News reader: Recording history from daily news streams // Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC’14). 2014. P. 2000–2007; Li L., Zheng L., Yang F., Li T. Modeling and broadening temporal user interest in personalized news recommendation // Expert Systems with Applications. 2014. Vol. 41. P. 3168–3177.


[Закрыть]
и даже поддерживают их производство и распространение[159]159
  Clerwall C. Enter the robot journalist: Users’ perceptions of automated content // Journalism Practice. 2014. Vol. 8. P. 519–531; Popescu O., Strapparava C. Natural language processing meets journalism // Proceedings of the 2017 EMNLP Workshop. Copenhagen, Denmark: Association for Computational Linguistics, 2017.


[Закрыть]
. Впечатляющие результаты в области автоматической обработки естественных языков, согласно современным исследованиям[160]160
  Hirschberg J., Manning C. D. Advances in natural language processing // Science. 2015. Vol. 349, no. 6245. P. 261–266.


[Закрыть]
, стали возможны благодаря достижениям в развитии методов машинного обучения, многократному увеличению вычислительной мощности, наличию большого объема лингвистических данных и развитию понимания структуры естественного языка в приложении к социальному контексту.

Проблема автоматической классификации текстов с пропагандистским содержанием рассматривается в ряде работ[161]161
  Da San Martino G., Yu S., Barrón-Cedeno A., Petrov R., Nakov P. Fine-grained analysis of propaganda in news article // Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9thInternational Joint Conference on Natural Language Processing (EMNLP-IJCNLP). 2019. P. 5640–5650; Barrón-Cedeno A., Barrón-Cedeno A., Jaradat I., Da San Martino G., Nakov P. Proppy: Organizing the news based on their propagandistic content // Information Processing & Management. 2019. Vol. 56, no. 5. P. 1849–1864.


[Закрыть]
, однако количество публикаций по этой теме на порядок меньше, чем, например, количество исследований в области анализа тональности текстов (sentiment analysis). Объем размеченных по пропагандистскому содержанию корпусов (наборов данных для обучения моделей) также невелик. Так, в одной из публикаций[162]162
  Da San Martino G., Yu S., Barrón-Cedeno A., Petrov R., Nakov P. Fine-grained analysis of propaganda…


[Закрыть]
представлен подход, основанный на «мешке слов» (bag-of-words). Метод «мешка слов» учитывает лишь частоту встречаемости слов в документе вне зависимости от места расположения слова. Данный метод позволил классифицировать пропаганду на уровне отдельных предложений с показателем качества F1 Score – 0,6. F1 score, или гармоническая мера, объединяет ошибки первого и второго рода в процессе классификации. С некоторой долей условности можно считать, что метод правильно классифицирует пропаганду примерно в 60 % случаев.

Одним из методов, продуктивно применяемых в области обработки естественных языков, является тематический анализ, или тематическое моделирование. Тематическое моделирование – это метод, основанный на статистических характеристиках коллекций документов, который используется в задачах автоматического реферирования, извлечения информации, информационного поиска и классификации[163]163
  Машечкин И. В., Петровский М. И., Царёв Д. В. Методы вычисления релевантности фрагментов текста на основе тематических моделей в задаче автоматического аннотирования // Вычислительные методы и программирование. 2013. Т. 14, № 1. С. 91–102.


[Закрыть]
. Смысл данного подхода заключается в интуитивном понимании того, что документы в коллекции образуют группы, в которых частота встречаемости слов или сочетаний слов различается. Основой современных тематических моделей является статистическая модель естественного языка. Вероятностные тематические модели описывают документы дискретным распределением на множестве тем, а темы – дискретным распределением на множестве терминов или слов[164]164
  Воронцов К. В., Потапенко А. А. Регуляризация, робастность и разреженность вероятностных тематических моделей // Компьютерные исследования и моделирование. 2012. Т. 4, № 4. С. 693–706.


[Закрыть]
. Другими словами, тематическая модель определяет, к каким темам относится каждый документ и какие слова образуют каждую тему. Кластеры документов, относящихся к совокупности тем, формируемых в процессе тематического моделирования, в частности, позволяют решать задачи синонимии и полисемии терминов[165]165
  Пархоменко П. А., Григорьев А. А, Астраханцев Н. А. Обзор и экспериментальное сравнение методов кластеризации текстов // Труды ИСП РАН. 2017. Т. 29 (2). С. 161–200. https://doi.org/10.15514/ISPRAS-2017–29(2)-6


[Закрыть]
.

Предложенный нами подход отличается от существующих тем, что анализ происходит не на уровне отдельных предложений или слов, а на более высоком уровне абстракции – на уровне так называемых топиков (групп текстов, объединенных единой темой), к которым тексты могут иметь большее или меньшее отношение. При этом тексты, которые могут описывать и несколько тем, могут входить в несколько топиков одновременно с разным уровнем сопричастности. Однако данный подход требует корпуса текстов большого объема (как минимум сотни тысяч документов), а также явного свойства публикаций, по которому можно провести разделение корпуса (например, по источнику публикации).

Предложенная модель была разработана в связи с тем, что классический подход к классификации текстов предполагает наличие значительного объема размеченных вручную текстов из заданного корпуса, то есть в зависимости от подхода и корпуса может потребоваться от тысяч до сотен тысяч и даже миллионов размеченных вручную текстов. В то время как для анализа тональности и других более изученных задач используется большое количество размеченных корпусов достаточного объема из самых разных областей (посты в социальных сетях, отзывы и обзоры, комментарии и т. п.), существует также множество задач с явной нехваткой размеченных данных – к таким задачам как раз и относится идентификация пропаганды, а также, например, социальной значимости, резонансности (популярности) публикаций и т. д. Мы предложили модель, которая может успешно применяться даже при наличии минимального объема ручной разметки (в данном исследовании проводится разметка новостных источников) либо вообще без ручной разметки. Последний вариант возможен в случае, когда есть некое явное свойство публикаций, которое коррелирует с целевым (неявным) свойством. Например, если целевое свойство – это потенциальная популярность, то есть резонансность, публикации, его можно связать с объективными показателями вовлеченности пользователей: просмотры, комментарии, лайки, репосты.

Предложенная модель также может быть рассмотрена как альтернативный подход к использованию принципа transfer learning[166]166
  Torrey L., Shavlik J. Transfer learning // Handbook of research on machine learning applications and trends: algorithms, methods, and techniques / eds E. Soria, J. Martin, R. Magdalena, M. Martinez and A. Serrano. IGI Global, 2010. Р. 242–264.


[Закрыть]
, поскольку она учитывает эффективное векторное представление (embedding), основываясь на большом объеме неразмеченных данных. Следовательно, даже те документы, которые невозможно отнести к определенному подкорпусу (или для которых явное свойство, например вовлеченность пользователей, неизвестно), все еще могут применяться на этапе тематического моделирования для получения более эффективных векторных представлений.

Предложенный метод состоит из четырех этапов:

1) формирование корпуса текстов и его разделение на подкорпусы с использованием некоего явного (объективного) свойства публикаций (для данной работы это новостной источник).

2) расчет тематической модели полного корпуса;

3) оценка меры межкорпусного тематического дисбаланса;

4) экстраполяция полученных оценок дисбаланса на все документы корпуса, включая те, для которых значение явного свойства (см. этап 1) неизвестно (например, когда уровень пропагандистского содержания новостного источника оценить затруднительно или он неизвестен).

Теперь остановимся на каждом этапе подробнее.

Этап 1. Формирование корпуса текстов. Мы сформировали корпус новостных публикаций из открытых русскоязычных новостных источников. Предложенный метод предполагает, что корпус должен быть разделен на два или более отдельных корпусов на основании некоего явного свойства (в данном случае новостной источник публикации) с целью выявить особенности, позволяющие определить некое неявное целевое свойство (в данном случае идентификации пропаганды в тексте публикации).

Для наиболее точного исследования мы решили проанализировать пропагандистские СМИ с явно субъективной риторикой и сравнить их с теми медиа, чья риторика является более объективной.

Русскоязычные СМИ в Российской Федерации на момент исследования были представлены государственными холдингами, контролирующими и курирующими деятельность данных СМИ, частными, или независимыми, СМИ (так называемыми оппозиционными, или либеральными, медиа) и иностранными СМИ публичной дипломатии, вещающими на русском языке, принадлежащими правительствам США, Великобритании, Германии и Франции, которые в России зарегистрированы в качестве иностранных агентов в соответствии с Федеральным законом от 02.12.2019 № 426-ФЗ «О внесении изменений в Закон Российской Федерации “О средствах массовой информации” и Федеральный закон “Об информации, информационных технологиях и о защите информации”». Существуют также два государственных средства массовой информации, Sputnik и RT, но из-за внутреннего регулирования их деятельности, их целевая аудитория – это не граждане России, а граждане стран СНГ.

Международные вещатели являются частью системы государственной публичной дипломатии, поэтому их риторика явно пропагандистская. Их цель – это продвижение имиджа и политических интересов государства в иностранном гражданском обществе. Поэтому мы решили проанализировать такие СМИ, как RT, Sputnik, «Радио Свобода»*, «Телеканал Настоящее время»* и Deutsche Welle*.

В качестве СМИ, имеющих более объективную риторику, мы решили исследовать такие СМИ, которые менее вовлечены в политическую жизнь страны и которые концентрируются на освещении бизнес-среды или экономики. Мы проанализировали одно нейтральное информагентство (Interfax), три бизнес-ориентированных СМИ (РБК, «Ведомости», Business FM) и одну интернет-газету (Lenta.ru).

Таким образом, исходя из соображений, изложенных выше, мы разделили корпус, состоящий из 428 180 публикаций за 2018–2020 гг., на два корпуса в зависимости от их типа и источника:

1) Пропагандистские публикации (346 440 публикаций):

а) RT;

б) «Телеканал Настоящее время»*;

в) «Радио Свобода»*;

г) Deutsche Welle*;

д) Sputnik;

2) Условно объективные публикации (81 740 публикаций):

а) «Ведомости»;

б) Interfax;

в) Lenta.ru;

г) Business FM;

д) РБК.

Этап 2. Тематическое моделирование. Для построения тематической модели корпуса документов применяют: вероятностный латентно-семантический анализ (probabilistic latent semantic analysis, PLSA), суммирующая регуляризация тематических моделей (additive regularization of topic models, ARTM)[167]167
  Vorontsov K., Frei O., Apishev M., Romov P., Dudarenko M. Bigartm: Open source library for regularized multimodal topic modeling of large collections // Analysis of Images, Social Networks and Texts. AIST 2015. Communications in Computer and Information Science, vol. 542 / eds M. Khachay, N. Konstantinova, A. Panchenko, D. Ignatov, V. Labunets. Cham: Springer. P. 370–381.


[Закрыть]
и весьма популярное латентное размещение Дирихле (latent Dirichlet allocation, LDA)[168]168
  Blei D. M., Ng A. Y., Jordan M. I. Latent Dirichlet allocation // Journal of machine learning research. 2003. Vol. 3. P. 993–1022; Jelodar H., Wang Y., Yuan C., Feng X. Latent Dirichlet allocation (LDA) and topic modeling: models, applications, a survey // Multimedia Tools and Applications. 2018. Vol. 78. P. 1–43.


[Закрыть]
. Последнее может быть выражено следующим равенством:



представляющим сумму смешанных условных распределений по всем темам множества T, где p(w|t) условное распределение слов в темах, p(t|m) условное распределение тем по новостям. Переход с условного распределения p(w|t,m) на p(w|t) осуществляется за счет гипотезы условной независимости, согласно которой появление слов в новостях m по теме t зависит от темы, но не зависит от новости m и есть общее для всех новостей. Данное соотношение справедливо, исходя из допущений об отсутствии необходимости сохранения порядка документов (новостей) в корпусе и порядка слов в новости; помимо этого, метод LDA предполагает, что компоненты φwt и θtm порождены непрерывным многомерным вероятностным распределением Дирихле. Целью алгоритма является поиск параметров φwt и θtm путем максимизации функции правдоподобия с соответствующей регуляризацией.

Для определения оптимального количества тематических кластеров Т часто применяется метод максимизации значения когерентности, рассчитанной с применением UMass-метрики[169]169
  Mimno D., Wallach H., Talley E., Leenders M., McCallum A. Optimizing semantic coherence in topic models // Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing. EMNLP 2011, 27–31 July 2011. Edinburgh, UK: John McIntyre Conference Centre, 2011. P. 262–272.


[Закрыть]
.

Этап 3. Оценка межкорпусного дисбаланса. Следующий этап – определение межкорпусного дисбаланса в распределении новостных публикаций разных корпусов в рамках каждого отдельного топика. Эта мера дисбаланса рассматривается как оценка влияния принадлежности к данному топику на целевой показатель (пропаганду), поскольку изначальное разделение на корпусы мы провели на основании явного объективного свойства (новостной источник), исходя из предположения, что существует присущий этому разделению дисбаланс между данными двумя корпусами: между пропагандой и условно объективной информацией.

Формула меры дисбаланса:



В данной формуле Dticj – мера дисбаланса представленности документов из корпуса cj в топике ti , а wdktlcm – вес принадлежности документа dk из корпуса cm к топику tl.

Этап 4. Экстраполяция результатов. Последним этапом предложенного метода является применение полученной тематической модели и оценок дисбаланса для получения классификации каждого отдельного документа. Для этого существует две основные причины:

1) несмотря на то что были выбраны пропагандистские и условно объективные источники, распределение пропагандистского содержания в новостях, безусловно, неравномерно, то есть пропагандистские публикации могут быть размещены в условно объективных источниках и наоборот;

2) как упоминалось выше, не все источники можно отнести к одному из двух корпусов: пропагандистское содержание определенных источников бывает сложно оценить однозначно, поскольку в разные периоды времени, в разных разделах и у разных авторов интенсивность пропагандистского содержания может сильно варьироваться.

Для агрегации оценок межкорпусного дисбаланса с весами отношения документов к каждому топику можно применить несколько подходов:

1) просто взвешенное среднее, которое было использовано для получения результатов, описываемых в данном параграфе;

2) байесовский подход к агрегации, рассматривающий субъективные вероятности отношения документа к заданному критерию[170]170
  Преимущества подхода см.: Barakhnin V. B., Muhamedyev R. I., Mussabaev R. R., Kozhemyakina O. Yu., Issayeva A., Kuchin Ya. I., Murzakhmetov S. В., Yakunin K. O. Methods to identify the destructive information; Mukhamediev R. I., Mustakayev R., Yakunin K., Kiseleva S., Gopejenko V. Multi-criteria spatial decision making support system for renewable energy development in Kazakhstan // IEEE Access. 2019. Vol. 7. P. 122275–122288.


[Закрыть]
;

3) полуобучаемый (semi-supervised) подход[171]171
  Zhu X., Goldberg A. B. Introduction to semi-supervised learning // Synthesis lectures on artificial intelligence and machine learning. 2009. Vol. 3, no. 1. P. 1–130.


[Закрыть]
, дающий возможность предобучить модель на результатах, полученных путем применения описываемого подхода, а затем провести дообучение (fine tuning) модели на вручную размеченном наборе текстовых данных, с тем чтобы увеличить качество ее работы.

Для проведения валидации предложенной модели была сформирована репрезентативная случайная выборка, включившая тысячу публикаций из оригинального корпуса, исключенных из процесса тематического моделирования и расчета мер межкорпусного дисбаланса. Эти публикации были вручную размечены экспертами по шкале Лайкерта от –2 до +2, где –2 – это условно объективная публикация, а +2 – пропагандистская.

Затем модель была применена к этой выборке для расчета метрик качества работы модели. Шкала Лайкерта была линейно нормализована в интервале от 0 до 1, экстраполированные оценки пропаганды также были нормализованы от 0 до 1. На основании полученных значений была рассчитана корреляция Пирсона. Коэффициент корреляции Пирсона показывает меру взаимосвязи между экспертной разметкой и результатами модели. Коэффициент может варьироваться от 0 до 1, где 0 – полное отсутствие взаимосвязи, а 1 – полная четкая связь между двумя показателями. При этом в гуманитарных исследованиях корреляция более высокая, чем 0,2–0,3, на выборке достаточного объема считается доказательством наличия слабой, но достоверной связи между показателями.

Затем объектам были присвоены классы: публикации с оценкой выше 0,5 были отнесены к классу «пропаганда», а с оценкой ниже 0,5 – к классу «объективные». Эти данные были использованы для расчета метрик качества классификации – точности (precision) и площадью под ROC-кривой (ROC AUC, receiver operating characteristic curve, area under curve)[172]172
  Bradley A. P. Teh use of the area under the ROC curve in the evaluation of machine learning algorithms // Pattern Recognition. 1997. Vol. 30, no. 7. P. 1145–1159. https://doi.org/10.1016/s0031–3203(96)00142-2


[Закрыть]
.

Под точностью здесь понимается доля корректно распознанных моделью примеров: то есть точность 0,83, например, означает, что 83 % размеченной выборки были распознаны моделью верно. ROC AUC является обобщенной метрикой оценки моделей машинного обучения, устойчивой к дисбалансу классов.

ROC AUC 0,5 свидетельствует о том, что модель не обладает предсказательной способностью (работает полностью случайно). ROC AUC больше 0,6 считается показателем слабой предсказательной способности, а ROC AUC выше 0,9 – показателем очень высокого качества распознавания. В исследованиях, связанных с медицинской диагностикой, модель обычно считают приемлемой для использования на практике при ROC AUC выше 0,9–0,95[173]173
  Akobeng A. K. Understanding diagnostic tests 3: Receiver operating characteristic curves // Wiley Online Library. 2007. Vol. 96, iss. 5. P. 644–647.


[Закрыть]
.

В табл. 1 порог классификации показывает, какие нормированные значения результатов работы модели рассматривались в качестве результатов с достаточной уверенностью. Например «< 0,4 или > 0,6» означает, что значения между 0,4 и 0,6 относились к классу «неизвестно/спорно», результаты меньше 0,4 – к классу «объективные», выше 0,6 – к классу «пропаганда». Это связано с тем, что при экспертной разметке выяснилось: многие документы затруднительно точно отнести к тому или иному классу. Соответственно, необходимо было проверить, что предложенная модель позволяет отличить не только пропаганду от непропаганды, но и пропаганду от спорных/трудных для классификации статей.


Таблица 1. Результаты верификации модели


Даже без такого порога модель демонстрирует достаточную предсказательную способность (ROC AUC 0,73, точность 64 %), тогда как с порогом «< 0,3 или > 0,7» предсказательная способность очень высокая (ROC AUC 0,95, точность 88 %). Это означает, что на предельных значениях модель работает значительно более точно, но она все равно позволяет отличить те новости, которые затруднительно отнести к классу «пропаганда».

Следует добавить также, что объективные новости распознаются чуть лучше, чем пропаганда, хотя и незначительно. Можно заметить, что полнота (recall) гораздо больше у объективного класса (0,83 против 0,58). Это значит, что модель из всех объективных новостей нашла 83 % таких новостей, а из всех пропагандистских – только 58 % таких новостей. Точность (precision) при этом примерно одинаковая (0,71 и 0,74). Следовательно, из тех новостей, которые модель назвала объективными, 71 % действительно таковыми являются, а из тех новостей, которые модель назвала пропагандистскими, таковых 74 %.

Таким образом, указанная модель позволяет получить высокую предсказательную способность при минимально возможном объеме ручной экспертной разметки. Мы предлагаем использовать высокоуровневую разметку корпуса по некоему явному свойству, которое должно иметь достаточную связь (корреляцию) с целевым неявным свойством. В данном случае разделение происходило по новостным источникам, однако можно применить и другие варианты разделения на корпусы, включая автоматические.

Резюмируем. Мы провели валидацию работы модели на случайной выборке из тысячи новостей, которая показала высокую предсказательную способность – точность от 64 до 88 % в зависимости от порога классификации. Проведенная работа ожидаемо подтвердила, что оценивать уровень пропаганды довольно сложно как для экспертов, так и для машины.

Конечно, встречаются очень яркие образцы пропагандистского контента, но тем не менее часто заведомо «пропагандистские» СМИ пишут не только пропагандистские статьи. И наоборот, не все условно объективные источники всегда объективны. К тому же уровень журналистского мастерства разный в разных СМИ, и нередко встречаются публикации низкого качества, что затрудняет понимание смысла. Поэтому в дальнейшем следует более тщательно подходить к отбору конкретных массмедиа, а также постепенно расширять перечень СМИ и уточнять, какие СМИ относятся к какому корпусу. Можно использовать для эксперимента такие медиа, например, где будет больше крайних, ярких вариантов пропаганды, или расширять базу, чтобы туда попадало больше таких крайних вариантов. И каждый текст должны распознавать хотя бы три эксперта, что повысит точность идентификации пропаганды. Экспертные оценки в первую очередь нужны для того, чтобы валидировать работу модели, но в перспективе такая экспертная разметка отдельных документов может использоваться для дообучения модели.

Конечно, машина пока не способна полностью заменить человека, но она может значительно сократить трудозатраты экспертов по выявлению пропагандистского контента. Использованный нами метод ограничен корпусом документов, текущим набором тематик и т. п. Но тем не менее при всех ограничениях был получен высокий результат. Возможности для дальнейшего исследования включают применение предложенной методики к другим задачам классификации текстов, таким как тональность, социальная значимость, резонансность, а также использование других методов агрегации оценок, в том числе байесовской агрегации и полуконтролируемого подхода к агрегации.


Страницы книги >> Предыдущая | 1 2 3 4 5 6 7 8 9 | Следующая
  • 5 Оценок: 1

Правообладателям!

Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.

Читателям!

Оплатили, но не знаете что делать дальше?


Популярные книги за неделю


Рекомендации