Ссылка для цитирования: Ганюшин A.A. Информационное общество в зеркале языка сетевой коммуникации // Меди@льманах. 2023. № 2 (115). С. 88−94. DOI: 10.30547/mediaalmanah.2.2023.8894
УДК 001.891+81:004.738.52
DOI: 10.30547/mediaalmanah.2.2023.8894
EDN: CDCVVU
© Ганюшин Александр Александрович
преподаватель кафедры новых медиа и теории коммуникации факультета журналистики
МГУ имени М.В. Ломоносова
(г. Москва, Россия), envercon@gmail.com
По мнению Н. Лумана, выявить связь между эволюцией общества и развитием медиа можно исходя из двух условий: «очень большой дистанции» и «четкого понятийного абстрагирования» (1993: 309). Онлайн-сервис Google Books Ngram Viewer (GBNV), разработанный лингвистами и специалистами в области компьютерных технологий Ж.-Б. Мишелем и Э. Эйденом, охватывает корпус текстов с 1500 г. Это фактически включает в себя и Галактику Гутенберга, и Галактику Маклюэна, и реалии сетевых медиа – Галактику Кастельса (первое условие). GBNV оперирует так называемыми n-граммами1 (устоявшийся термин из лингвистического анализа, где «n-» означает количество, а «грамм» – лексические единицы), отдельными лексемами или их сетами, например «биграммами» (лексическими парами). Они очищены от контекста и функционируют в качестве индексов частоты употребления слов, т.е. числовых значений. Эта особенность позволяет соблюсти «четкое понятийное абстрагирование», сводящее значение понятия до цифровой величины (второе условие). В результате исследователи медиа получают уникальный инструмент статистического мониторинга развития инфосферы, позволяющий верифицировать историко-архивные данные и результаты их анализа посредством «увеличительного стекла» цифровой гуманитаристики.
Google Books Ngram Viewer – цифровое зеркало эволюции человеческой культуры, медиум-сообщение о статусе развития человеческой цивилизации на отрезке от 1500 г. до наших дней, отраженное в статистике употребления языковых единиц n-грамм. Можем ли мы увидеть в нем свидетельства интеграции глобального комьюнити производителей интеллектуального продукта – тех, кого в научной литературе называют «информационным обществом»?
По данным, представленным в блоге сотрудника Google Л. Тайчера, на сегодняшний день в мире насчитывается около 130 млн книг2. Корпус текстов, оцифрованных компанией в рамках метапроекта по упорядочиванию всех данных, в 2013 г. насчитывал 30 млн единиц, т.е. работникам корпорации удалось собрать вместе в пространстве виртуальной библиотеки каждую четвертую из существующих книг. И поскольку самые ранние из оцифрованных изданий близки заре самой «эпохи Гутенберга» (1500 г.), весь собранный массив информации представляет собой не просто большие, но и «длинные»3 данные. На 2012 г., когда произошло снижение скорости пополнения базы данных, корпус книг на английском языке насчитывал 4 541 627 книг (текстов), или 468 491 999 592 словоупотреблений, на русском языке – 591 310 книг (текстов), или 67 137 666 353 словоупотреблений4. После обновления баз данных компания объявила, что с этого момента корпус всех оцифрованных книг составил 40 млн наименований, т.е. уже треть всех опубликованных и учтенных в каталогах изданий5.
В феврале 2020 г. администрация Google Books Ngram Viewer на информационной страничке ресурса обновила сведения о 12 корпусах текстов. Изменения затронули библиотеки на десяти языках: американском и британском английском, литературном английском, иврите, испанском, итальянском, китайском, немецком, русском и французском.
Занимаясь изысканиями в области истории цифровой фотографии и сетевой коммуникации, мы обнаружили изменения в характере отображения графиков, связанных с частотой употребления интересующих нас терминов. В ряде случаев картина трансформаций выглядела однотипно: в 2012–2014 гг. происходило снижение числовых величин использования литературного лексикона. Это явление сопровождалось резким подъемом n-грамм, соответствующих тезаурусу сетевой коммуникации. Данные метаморфозы можно было бы объяснить расширением баз данных GBNV посредством добавления к массивам книжных сканов, вошедших в обновленный корпус 2019 г., некоторого количества сетевого пользовательского контента (UGC-контента). Поскольку на официальных ресурсах компании Google подтверждения этой догадке нам обнаружить не удалось, мы решили проверить ее с помощью статистического анализа и сопоставления данных, находящихся в открытом доступе как на GBNV, так и на платформе онлайн-репозитория научных публикаций Google Scholar (GSc).
Так как наше исследование носит прикладной характер, мы опирались на несколько ключевых источников, освещающих историко-теоретический и практический аспекты работы сервиса GBNV. В качестве первого, безусловно, необходимо сослаться на книгу «Неизведанная территория» (Эйден, Мишель, 2016), в научно-популярной форме излагающую хронику создания поисковой машины от лица ее создателей. Академический вариант представлен в статье «Количественный анализ культуры на основе использования миллионов оцифрованных книг» (Michel, Shen, Aiden, Veres et al., 2011). Практический аспект применения ресурсов GBNV для задач цифровой гуманитаристики рассматривается в публикации сотрудников СПбГУ В.П. Захарова и А.Ц. Масевича «Диахронические исследования на основе корпуса русских текстов Google Books Ngram Viewer» (2014). Рекомендации по улучшению результатов поиска, а также мультидисциплинарная подборка научных публикаций с применением GBNV приведены в работе Н. Йонес и У.-Д. Рейпса (Yones, Reips,2019).
Для того чтобы верифицировать нашу гипотезу, мы отобрали пять биграмм на русском и английском, представляющих собой синонимичные пары лексем и входящих как в словари литератургого, так и сетевого языков. Таким образом, были сформулированы пять пар (биграмм) поисковых запросов на русском и английском языках: «фотоочерк – лонгрид / photoessay – longread»; «автопортрет – селфи / self-portrait – selfie»; «радиопрограмма – подкаст / radioshow – podcast»; «пиктограмма – эмодзи / pictogram – emoji» и, наконец, «метка – хештег / tag – hashtag».
В рамках исследования были поставлены и решены следующие задачи:
Таким образом, сопоставив характер изменения кривых на обоих полученных образцах, мы получим возможность сделать выводы по интересующему нас вопросу исследования. Если начертания графиков ресурса GBNV будут контрастно отличаться от рисунков кривых, построенных на основе статистики тематически аналогичных публикаций за тот же период времени на ресурсе GSc, это, скорее всего, будет означать верность нашего предположения о расширении баз данных Google Books путем добавления к ним источников пользовательского контента из Интернета.
Сопоставление пяти двуязычных биграмм (см. рис. 1–5) позволило выявить общий характер изменений, происходящих в базах данных ресурса GBNV, связанных с частотой употребления лексем из словаря литературного языка и Интернета.
В качестве первой биграммы возьмем пару «фотоочерк – лонгрид» и ее английский перевод «photoessay – longread» (см. рис. 1).
Сопоставление графиков n-грамм ресурса GBNV с построенным нами графиком количественной статистики тематических публикаций репозитория GSc обнаруживает заметные расхождения (см. рис. 6 и 7)12.
Как показало исследование, в результате расширения баз данных проекта GBNV в 2019 г. произошел значительный рост количества лексем, употребляемых в качестве терминов в Интернете, по сравнению с лексикой оцифрованных книг, причем аналогичная картина была зафиксирована в корпусе текстов и на русском, и на английском языках (до близкого соответствия).
Тем не менее сравнительный анализ графиков присутствия выбранных нами для исследования синонимичных пар лексем UGC-контента в базах данных GBNV и GSc позволил выявить контрастные расхождения. Если в 2016–2019 гг. в GBNV происходит экспоненциальный рост словоупотреблений (например, «селфи» – в 5,5 раз) то в базах данных GSc за тот же период их количество увеличивается всего в 1,5 раза. Так, количество употреблений слова «хештег» незначительно снижается (в 2019 г. до уровня 2018 г.), «лонгрид» и «эмодзи» повышается на 10% и 20% соответственно. А лексема «подкаст» стала встречаться в публикациях за 2016–2019 гг. значительно чаще (показатель вырос в 2,5 раза). Таким образом, контрастное различие между ростом частоты употребления n-грамм на ресурсе GBNV и динамикой пополнения тематических публикаций библиотеки GSc позволяет нам сделать вывод, что наблюдаемые изменения в лингвистической структуре корпусов текстов GBNV-2019 обусловлены добавлением к традиционным книжным источникам баз данных, содержащих UGC-контент, создаваемый в процессе массовой виртуальной коммуникации пользователями Интернета.
Несмотря на то, что сочетание литературных источников и UGC-контента может восприниматься как противоречащее самому названию проекта – Google Books Ngram Viewer, на наш взгляд, оно вполне соответствует философии корпорации (слоганы ресурса – «Не будь злым» и «Организуй информацию о мире и сделай ее общедоступной и полезной»). Кроме того, оно приближает к тому моменту, когда базы данных GBNV по полноте и скорости обновления будут соответствовать скорости развития языка сетевой интерактивной коммуникации. Поскольку официальная информация о добавлении в корпус книжных текстов GBNV пользовательского контента отсутствует, можно предположить, что выявленные изменения литературного и сетевого лексикона отражают объективный процесс.
В своей книге, посвященной истории появления онлайн-сервиса GBNV, его создатели Э. Эйден и Ж.-Б. Мишель указывают: «Через всевозможные “скопы” мы смотрим на самих себя. Каждая новая линза представляет собой и новое зеркало» (2016: 230). Методы компьютерной лингвистики позволяют нам заглянуть в «зеркало языка», а благодаря инструменту GBNV и новым способам пополнения его тезауруса мы получаем еще больше доказательств тому, что современное, информационное, общество находится на новом этапе развития.
Рисунок 1. Дельта частотности употребления n-грамм «фотоочерк – лонгрид / photoessay – longread» за 2000–2019 гг.6
Рисунок 2. Дельта частотности употребления n-грамм «автопортрет – селфи / self-portrait – selfie» за 2000–2019 гг.7
Рисунок 3. Дельта частотности употребления n-грамм «радиопрограмма – подкаст / radioshow – podcast» за 2000–2019 гг.8
Рисунок 4. Дельта частотности употребления n-грамм «пиктограмма – эмодзи / pictogram – emoji» за 2000–2019 гг.9
Рисунок 5. Дельта частотности употребления n-грамм «метка – хештег / tag – hashtag» за 2000–2019 гг.10
Рисунок 6. Сводные дельты частотности употребления n-грамм «лонгрид», «селфи», «подкаст», «эмодзи» и «хештег» на ресурсе GBNV за 2010–2019 гг.11
Рисунок 7. Сводные дельты количества тематических публикаций на ресурсе GSc за 2010–2019 гг.
1 Подробнее о N-граммах см.: Cayley J. (2014) N-gram. In: Ryan M-L., Emerson L., Robertson B.J. (eds.) The Johns Hopkins Guide to Digital Media. Baltimore, MD: Johns Hopkins University Press, pp. 358–360.
2 В августе 2010 г. Тайчер насчитал 129 864 880 книг. См.: Books of the World, Stand Up and Be Counted! All 129 864 880 of You. Режим доступа: http://goo.gl/5yNV (дата обращения: 21.03.2023).
3 Эпитет позаимствован авторами книги «Неизведанная территория» – разработчиками поискового сервиса GBNV Э. Эйденем и Ж.-Б. Мишелем у редактора журнала Wired С. Арбесмана. См.: Stop Hyping Big Data and Start Paying Attention to “Long Data”. Режим доступа: https://www.wired.com/2013/01/forget-big-data-think-long-data/ (дата обращения: 21.03.2023).
4 Lin Y., Michel J.-B., Aiden E.L., Orwant J. et al. (2012) Syntactic Annotations for the Google Books Ngram Corpus. In: Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics (July 8–14). Jeju Island, Korea: Association for Computational Linguistics, pp. 169–174. Режим доступа: http://aclweb.org/anthology/P/P12/P12-3029.pdf (дата обращения: 21.03.2023).
5 15 Years of Google Books. Режим доступа: https://www.blog.google/products/search/15-years-google-books/ (дата обращения 21.03.2023).
6 Режим доступа: https://goo.su/24zE (дата обращения: 21.03.2023).
7 Режим доступа: https://goo.su/jYzCnn (дата обращения: 21.03.2023).
8 Режим доступа: https://goo.su/bRWuS (дата обращения: 21.03.2023).
9 Режим доступа: https://goo.su/23Ph (дата обращения: 21.03.2023).
10 Режим доступа: https://goo.su/JLrPzV (дата обращения: 21.03.2023).
11 Режим доступа: https://goo.su/amNPy (дата обращения: 21.03.2023).
12 Академический репозиторий Google Scholar (GSc). Режим доступа: https://goo.su/JpCM (дата обращения: 21.03.2023).
Захаров В.П., Масевич А.Ц. Диахронические исследования на основе корпуса русских текстов Google Books Ngram Viewer // Структурная и прикладная лингвистика. 2014. Вып. 10. С. 303–327.
Эйден Э., Мишель Ж.-Б. Неизведанная территория: как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры. М.: АСТ, 2016.
Luhmann N. (1993) Veränderungen im System gesellschaftlichen Kommunikation und die Massenmedien. In: Luhmann N. (Hrsg.) Soziologische Aufklärung 3: Soziales System, Gesellschaft, Organisation. Opladen: Westdeutscher Verlag, pp. 309–320.
Michel J.-B., Shen Y.K., Aiden A.P., Veres A. et al. (2011) Quantitative Analysis of Culture Using Millions of Digitized Books Science. Science 331: 176–182. DOI: 1126/Science.1199644
Younes N., Reips U.-D. (2019) Guideline for Improving the Reliability of Google Ngram Studies: Evidence from Religious Terms. PLoS ONE 14 (3): e0213554. DOI: 10.1371/journal.pone.0213554
Дата поступления в редакцию: 29.03.2023
Дата публикации: 20.04.2023