Ссылка для цитирования: Нефедова Ю.С. Исследование социального конфликта в цифровой медиасреде методами математического моделирования // Меди@льманах. 2023. № 6 (119). С. 44−51. DOI: 10.30547/mediaalmanah.6.2023.4451
УДК 316.48+004.77: 001.891.573
DOI: 10.30547/mediaalmanah.6.2023.4451
EDN: PMGXTA
© Нефедова Юлия Сергеевна
кандидат технических наук, доцент кафедры радиоэлектронных систем и устройств
МГТУ имени Н.Э. Баумана,
заведующая научно-экспериментальной лабораторией изучения технических средств журналистики факультета журналистики
МГУ имени М.В. Ломоносова
(г. Москва, Россия), yulja.nefedova@mail.ru
Современные процессы социальных коммуникаций неразрывно связаны с активным внедрением в повседневную жизнь интернет-технологий. Развитие цифровых средств массовой информации и социальных сетей привело к тому, что различные официальные сообщества, группы пользователей, а также отдельные социально активные граждане могут оказывать влияние на политическую и экономическую сферы человеческой деятельности, трансформируя общественное мнение (Олешко, Малик, 2017).
Междисциплинарные исследования позволят не только определить основные этапы развития конфликтов в цифровой медиасреде, степень проявленной в них агрессии, но и понять причину их возникновения с целью погашения конфликта в стадии его зарождения (Вартанова, Асланов, Гладкова, Дунас, 2022). Однако решение поставленных задач невозможно без сбора и обработки самых разных сведений о конфликтных ситуациях. При изучении любых процессов в интернет-пространстве основными источниками информации будут посты и комментарии в социальных сетях, ленты новостей, официальные документы и т.д. Отличительной особенностью этих данных является их колоссальный объем, поэтому классические подходы к анализу текстов, такие как контент-анализ, дискурс-анализ, интент-анализ, оказываются неэффективными, и требуется разработка и внедрение новых инструментов – автоматизированных алгоритмов.
Существуют различные методы автоматизированного анализа текстовой информации большого объема, которые представлены, например, в работах Н.И. Базенкова, Д.А. Губанова (2013), О.Ю. Кольцова, К.А. Маслинского (2013). В статье Ж. Гриммера и Б. М. Стюарта (Grimmer, Stewart, 2013) приводится подробное описание современных алгоритмов. Самыми востребованными из них можно назвать алгоритмы на основе нейросетей, вероятностные и генетические. Они используются для решения следующих задач: выявление существующих или еще не определенных категорий, поиск документов по ключевым словам, определение эмоциональной окраски текста и т.д. Применение подобных методов автоматизированного анализа текстовой информации на практике ограничивается как их особенностями (например, сложностями в обучении алгоритмов), так и спецификой решаемых задач (например, при описании и классификации комментариев пользователей социальных сетей часто отмечается отсутствие постоянного тезауруса ключевых слов). Поэтому каждая задача решается разработчиками индивидуально с подбором и последующей модификацией методов анализа. При этом активно используются различные готовые онлайн- и офлайн-инструменты, позволяющие проводить мониторинг социальных медиа (например, для исследования политических процессов по цифровым маркерам, изучения динамики протестных обсуждений в социальных сетях или для решения других социологических задач) (Bodrunova, Nepiyuschikh, 2022; Кольцова, Киркиж, 2016; Бродовская, Домбровская, Карзубов, Синяков и др., 2017; Bodrunova, Blekanov, Maksimov, 2021).
Целью данного исследования является разработка нового подхода к изучению социальных конфликтов на основе автоматизированных методов обработки текстовой информации с учетом особенностей репрезентации социальных конфликтов в медиа (Вартанова, 2021). Как явление социальное, конфликт может и должен быть рассмотрен в диахроническом аспекте (Budka, Bräucher, 2020): поскольку конфликт характеризуется определенными этапами (возникновение, развитие и завершение), очевидно, что его изучение не может осуществляться в статике. Сбор и анализ медиаданных необходимо проводить постоянно на протяжении всего времени существования конфликта, одновременно формируя динамическую картину изменения его характеристик. В представленной статье речь идет о возможности создания математической модели конфликта в цифровой медиакоммуникационной среде. Любое медиасообщество, например, социальная сеть или цифровые СМИ, рассматривается как некая система. Она подобна технической системе, имеющей вход и выход и отличающейся от других систем своими характеристиками. В нашем случае систему предлагается определить как совокупность авторов, находящихся в едином информационном пространстве и имеющих возможность реагировать на входную новость – новостное сообщение, содержащее информацию о каком-либо событии. В качестве главной характеристики системы можно рассматривать ее тип, т.е. принадлежность к одному из трех субъектов медиакоммуникационного пространства (Вартанова, 2022). Это:
– традиционные СМИ, зарегистрированные в Роскомнадзоре;
– неинституционализированные медиа, представленные блогерами, инфлюэнсерами или лидерами мнений, осуществляющими информационно-коммуникационную деятельность в онлайн-среде;
– аудитория, активность которой в производстве медиасодержания не носит системный характер, проявляется спорадически и не имеет финансовых оснований.
После появления входного сообщения система начинает на него реагировать – формировать выходной отклик. Авторы обсуждают поступившее сообщение и создают ответные – в виде статей, сторис, комментариев и т.д. Можно предположить, что интенсивность обсуждения, его содержание и эмоциональная окраска будут зависеть от многих факторов: от типа системы; от того, насколько входное сообщение близко по тематике сообществу; от социального статуса участников соцсети. В любом случае через некоторое время после появления входного сообщения система успокаивается и поток ответных сообщений иссякает. Если в процессе обсуждения на вход системы поступает следующая новость, то может произойти наложение ответных реакций, и поток выходных сообщений изменится.
Задача математической модели будет сводиться к определению наличия конфликта в ответных сообщениях и его основных характеристик, таких как количество конфликтных тем, длительность их обсуждения, уровень агрессии, а также способы ее выражения.
Для обработки потока ответных сообщений было решено использовать аппарат вероятностного тематического моделирования (ТМ), который представляет собой одну из современных технологий обработки естественного языка (Blei, 2012). ТМ описывается набором алгоритмов, позволяющих анализировать слова в больших коллекциях документов и извлекать из них темы. Задачей ТМ является определение набора тем в каждом документе из коллекции, а также совокупности наиболее вероятных слов в каждой теме. ТМ описывает каждую тему дискретным распределением вероятностей слов, а каждый документ – дискретным распределением вероятностей тем. Вероятностные модели способны решать как порождающую задачу, т.е. осуществлять генерацию документов, так и обратную по извлечению тем из имеющейся коллекции документов. Задача оценивания модели заключается в том, чтобы найти значения ее параметров, при которых наблюдаемая обучающая выборка максимально правдоподобна (Коршунов, Гомзин, 2012). За более чем двадцатилетнюю историю существования вероятностного ТМ набралось большое количество моделей этого типа: графическая модель (Buntine, 1994), вероятностное латентно-семантическое индексирование (Hofmann, 1999), скрытое размещение Дирихле (Blei, Ng, Jordan, 2003; Blei, Griffiths, Jordan, Tenenbaum, 2003) и т.д.
В настоящей статье используется многокритериальный подход – аддитивная регуляризация тематических моделей (Воронцов, Потапенко, 2014). Как известно, задача построения тематической модели имеет бесконечно много решений, что приводит к неустойчивости и плохой интерпретируемости тем. Введение регуляризаторов обеспечивает гибкий способ добавления дополнительной информации, что позволяет улучшить совокупность критериев качества практически без ухудшения перплексии модели.
Исходя из вышесказанного, можно предположить, что использование ТМ для решения поставленной задачи позволит выявить набор тем в потоке ответных сообщений и определить их распределение с течением времени. Объектом исследования выступает коллекция сообщений по теме «Приемная кампания в российские вузы в 2022 г.»: материалы официальных цифровых СМИ, отобранные с помощью базы данных «Интегрум», а также комментарии из социальных сетей «ВКонтакте» и «Одноклассники», полученные с помощью платформы «Медиалогия». Хронологические рамки исследования – с 20 июня по 31 августа 2022 г. При этом авторов публикаций в традиционных СМИ можно отнести к системе одного типа, а комментаторов в социальных сетях – другого. Таким образом, в статье рассматривается два типа систем.Для удобства последующего анализа были выделены основные этапы приемной кампании 2022 г.1 (см. табл. 1).
Таблица 1. Основные этапы приемной кампании в российские вузы в 2022 г.
Дата |
Этап |
20 июня |
Начало подачи документов |
7–20 июля |
Завершение подачи документов для специальностей с дополнительными вступительными испытаниями (ДВИ) |
20–25 июля |
Завершение подачи документов для специальностей без ДВИ |
25 июля |
Срок завершения ДВИ |
27 июля |
Публикация конкурсных списков |
28 июля |
Завершение приема заявлений на приоритетное зачисление |
30 июля |
Публикация приказов о приоритетном зачислении |
3 августа |
Завершение приема заявлений на зачисление |
9 августа |
Публикация приказов о зачислении |
Анализ собранной коллекции сообщений показал, что обсуждения по теме приемной кампании во всех источниках продолжились и после публикации приказов о зачислении 9 августа. К 31 августа они плавно сошли на нет и сменились информационными сообщениями, связанными с началом учебного года.
Перед проведением моделирования все ответные сообщения для каждого типа систем были объединены в коллекции, соответствующие одному календарному дню. На основе этих коллекций были созданы 73 вероятностные тематические модели по числу дней в анализируемом временном интервале. Количество тем в моделях составило 10, а количество слов в теме – 7. Далее была разработана развернутая карта изменения тематики ответных сообщений. Для этого каждую тему необходимо было сравнить с темами в предыдущие календарные дни и найти подобную. Если она ранее не встречалась, то получала новый порядковый номер. Подобными было принято считать те темы, в которых совпадало большинство слов или присутствовало одно-два уникальных слова, по которым сразу становилась ясной тематика сообщений. В результате были получены весьма обширные карты с более чем двадцатью темами для исследуемых типов систем (см. рис.).
Из рисунка видно, что помимо однодневных тем в картах присутствует достаточное количество повторяющихся. Для удобства восприятия цепочки таких тем отмечены разными цветами. Видно, что одни цепочки начинаются сразу после прихода входного информационного сообщения, другие появляются в середине анализируемого периода. При этом длина цепочки варьируется от четырех дней до двух месяцев. В некоторых цепочках повторение тем происходит почти ежедневно, в других – раз в несколько дней, но это не всегда означает, что в другие дни тема отсутствует.
Исходя из указанных наблюдений были определены следующие характеристики выходных сообщений системы, которые в дальнейшем можно будет использовать для анализа социального конфликта:
– длительность темы – временной интервал между первым и последним появлением повторяющейся темы;
– плотность темы – частота появления повторяющихся тем в цепочке.
На следующем этапе был проведен анализ тематических моделей по составу слов и наличию в них признаков конфликта. Сначала была рассмотрена карта ответных сообщений для традиционных СМИ. Например, в теме Т3 в качестве ключевых можно выделить следующие слова: вуз, атака, российский, сайт, июнь, госуслуга, портал. Очевидно, что эта тема связана со взломом сайта «Госуслуги», произошедшим 23 июня2. Этот взлом отрицательно повлиял на ход приемной кампании, т.к. часть абитуриентов не смогла подать документы в интересующие их вузы. Тему следует отнести к конфликтной еще и потому, что она содержит в себе агрессивное слово «атака». Другая тема, Т2, включает следующие слова: балл, ЕГЭ, экзамен, вуз, год, сдавать, статистика. Она обсуждается весь анализируемый период и не несет в себе явной агрессии. Тема T12 содержит слова: Тепляков, год, Алиса, ребенок, документ, ректор, подавать. Она затрагивает историю девочки Алисы, которая в 10 лет закончила школу и поступает в вуз. В выборке сообщений, связанных с приемной кампанией, эта тема не является конфликтной. Однако дополнительный поиск связанных с этой ситуацией сообщений показал, что здесь существует конфликт, обусловленный различными мнениями авторов о том, должна ли девочка в 10 лет получать высшее образование (обратим внимание, что тема Т12 появляется в потоке ответных сообщений два раза).
Далее была рассмотрена карта ответных сообщений, опубликованных комментаторами социальных сетей. Здесь можно выделить неконфликтную тему Т15, состоящую из слов: вуз, поступать, балл, ЕГЭ, экзамен, сдавать, год. Она совпадает с темой Т2 в системе первого типа. Другая тема, Т19, состоит из слов: ребенок, подавать, образование, год, согласие, зачисление, документ. Она касается подачи абитуриентами согласий на обучение в конкретный вуз и содержит скрытый конфликт, связанный с очередным сбоем на портале «Госуслуги». В это время в прессе активно обсуждался случай с золотым медалистом из Новосибирска, который из-за этого сбоя лишился бюджетного места, хотя по баллам ЕГЭ он мог поступить в пять столичных вузов3. Однако первые семь слов темы Т19 не указывают на обозначенный конфликт. Для устранения этой неопределенности можно поменять параметры тематической модели – например, увеличить количество слов в теме. Но при этом усложнится задача составления карты и поиска повторяющихся изо дня в день сообщений. Следует отметить, что появление темы Т19 полностью совпадет с календарем официальных дат приемной кампании: 20 июля завершился прием документов, а 3 августа – прием согласий на зачисление в выбранный вуз. В таблице 2 представлены расчетные значения длительности и плотности всех рассмотренных тем из карты ответных сообщений.
Таблица 2. Расчетные значения длительности и плотности тем
Категория |
Авторы публикаций в традиционных СМИ |
Комментаторы в социальных сетях | ||||
Тема |
Т2 |
Т3 |
Т12 (23–27 июля) |
Т12 (10–18 авг.) |
Т15 |
Т19 |
Длительность (в днях) |
58 |
7 |
5 |
9 |
59 |
15 |
Плотность (в %) |
40 |
57 |
100 |
45 |
44 |
47 |
Разработанная карта тем позволяет исследовать поток ответных сообщений, являющихся реакцией системы на входную новость. С помощью введенных характеристик можно оценить динамику появления тем, их количество, длительность обсуждения, а также наличие в них явного или скрытого конфликта. Сравнение карт тем показало, что разные типы систем по-разному реагируют на входное новостное сообщение: не совпадает набор тем, различаются характеристики одной и той же темы. Несмотря на то что входное сообщение априори содержит в себе конфликтную ситуацию, в ответных сообщениях выделяются как конфликтные темы, так и имеющие нейтральную эмоциональную окраску. Исходя из полученных результатов можно сделать вывод о том, что применение методов математического моделирования позволяет подробно исследовать социальные конфликты в цифровой медиасреде.
Исследование выполнено за счет средств гранта Российского научного фонда (проект № 22-18-00225).
1 Шейх Халиль В. Расписание приемной кампании – 2022 // Профгид. 2022. Сент., 17. Режим доступа: https://www.profguide.io/news/raspisanie-priemnoj-kampanii-2022.html (дата обращения: 16.10.2023). (дата обращения: 16.10.2023).
2 Мартынова П. Минцифры сообщило о DDoS-атаках на «Госуслуги» со стороны Украины // РБК. Технологии и медиа. 2022. Июнь, 23. Режим доступа: https://www.rbc.ru/technology_and_media/23/06/2022/62b43ea09a79471246251381 (дата обращения: 16.10.2023). (дата обращения: 16.10.2023).
3 Габдуллина Э. Отличник из Новосибирска не смог поступить на бюджет из-за сбоя на «Госуслугах» // Газета.ру. 2022. Авг., 07. Режим доступа: https://www.gazeta.ru/social/news/2022/08/07/18277940.shtml (дата обращения: 16.10.2023).
Базенков Н.И., Губанов Д.А. Обзор информационных систем анализа социальных сетей // Управление большими системами. 2013. Вып. 41. С. 357–394.
Бродовская Е.В., Домбровская А.Ю., Карзубов Д.Н., Синяков А.В. и др. Развитие методологии и методики интеллектуального поиска цифровых маркеров политических процессов в социальных медиа // Мониторинг общественного мнения: Экономические и социальные перемены. 2017. № 5. С. 79–104. DOI: 10.14515/monitoring.2017.5.06
Вартанова Е.Л. Медиа и социальный конфликт: к вопросу о двойственной природе взаимосвязи // Журналистика в 2020 году: творчество, профессия, индустрия: мат. междунар. науч.-практ. конф. М.: Фак. журн. МГУ, 2021. С. 307–309.
Вартанова Е.Л. Репрезентация социального конфликта в цифровой медиакоммуникационной среде: к постановке проблемы // Медиа в современном мире. 61-е Петербургские чтения: сб. мат. Междунар. науч. форума (21–22 апреля 2022 г.) / отв. ред. А.А. Малышев: в 2 т. Т. 1. СПб.: Медиапапир, 2022. С. 126–128.
Вартанова Е.Л., Асланов И.А., Гладкова А.А., Дунас Д.В. Социальный конфликт в отечественных медиаисследованиях: эмпирический анализ дискурса научных журналов (2014–2021) // Вопросы теории и практики журналистики. 2022. Т. 11. № 3. С. 429–452.
Воронцов К.В., Потапенко А.А. Регуляризация вероятностных тематических моделей для повышения интерпретируемости и определения числа тем // Компьютерная лингвистика и интеллектуальные технологии. 2014. Т. 13. № 20. С. 676–687.
Кольцова О.Ю., Киркиж Э.А. Влияние Интернета на участие в протестах // Полития. 2016. № 1 (80). С. 90–110. DOI: 10.30570/2078-5089-2016-80-1-90-110
Кольцова О.Ю., Маслинский К.А. Выявление тематической структуры российской блогосферы: автоматические методы анализа текстов // Социология: методология, методы, математическое моделирование. 2013. № 36. С. 113–139.
Коршунов А.В., Гомзин А.Г. Тематическое моделирование текстов на естественном языке // Труды Института системного программирования РАН. 2012. Т. 23. С. 215–242. DOI: 10.15514/ISPRAS-2012-23-13
Олешко В.Ф., Малик О.В. Влияние цифровых средств массовой информации на формирование глобальной системы социальных коммуникаций // Изв. Уральск. фед. ун-та. Сер.1: Проблемы образования, науки и культуры. 2017. Т. 23. № 4 (168). С. 5–12.
Blei D. (2012) Introduction to Probabilistic Topic Models. Communications of the ACM 55 (4): 77–84. DOI: https://doi.org/10.1145/2133806.2133826
Blei D., Griffiths T., Jordan M., Tenenbaum J. (2003) Hierarchical Topic Models and the Nested Chinese Restaurant Process. In: Proceedings of the 16th International Conference on Neural Information Processing Systems. Режим доступа: https://people.eecs.berkeley.edu/~jordan/papers/lda-crp.pdf (дата обращения: 16.10.2023).
Blei D., Ng A., Jordan M. (2003) Latent Dirichlet Allocation. Journal of Machine Learning Research 3: 993–1022.
Bodrunova S.S., Blekanov I.S., Maksimov А. (2021) Public Opinion Dynamics in Online Discussions: Cumulative Commenting and Micro-Level Spirals of Silence. In: Meiselwitz G. (ed.) Social Computing and Social Media: Experience Design and Social Network Analysis. 13th International Conference. HCII 2021. Lecture Notes in Computer Science. Vol. 12774. Cham: Springer., pp. 205–220. DOI:10.1007/978-3-030-77626-8_14
Bodrunova, S.S., Nepiyuschikh, D. (2022) Dynamics of Distrust, Aggression, and Conspiracy Thinking in the Anti-Vaccination Discourse on Russian Telegram. In: Meiselwitz G. (ed.) Social Computing and Social Media: Design, User Experience and Impact. HCII 2022. Lecture Notes in Computer Science. Vol. 13315. Cham: Springer., pp. 468–484. DOI: 10.1007/978-3-031-05061-9_33
Budka Ph., Bräucher B. (2020) Theorising Media and Conflict. Oxford: Berghahn Books.
Buntine W.L. (1994) Operations for Learning with Graphical Models. Journal of Artificial Intelligence Research 2: 159–225.
Grimmer J., Stewart Brandon M. (2013) Text as Data: The Promise and Pitfalls of Automatic Content Analysis Methods for Political Texts. Political Analysis 21 (3): 267–297. DOI:10.1093/pan/mps028
Hofmann T. (1999) Probabilistic Latent Semantic Analysis. Conference on Uncertainty in Artificial Intelligence. Режим доступа: https://arxiv.org/ftp/arxiv/papers/1301/1301.6705.pdf (дата обращения: 16.10.2023).
Дата поступления в редакцию: 15.11.2023
Дата публикации: 20.12.2023