Архив



Информационное общество в зеркале языка сетевой коммуникации



Александр Ганюшин

Ссылка для цитирования: Ганюшин A.A. Информационное общество в зеркале языка сетевой коммуникации // Меди@льманах. 2023. № 2 (115). С. 88−94. DOI: 10.30547/mediaalmanah.2.2023.8894

УДК 001.891+81:004.738.52
DOI: 10.30547/mediaalmanah.2.2023.8894
EDN: CDCVVU

© Ганюшин Александр Александрович
преподаватель кафедры новых медиа и теории коммуникации факультета журналистики МГУ имени М.В. Ломоносова (г. Москва, Россия), envercon@gmail.com



Ключевые слова: цифровая гуманитаристика, Google Books Ngram Viewer, информационное общество, Google Scholar, коммуникация.



В статье рассматривается развитие конвергентных процессов в сфере взаимодействия гуманитарных наук и информационных технологий – цифровой гуманитаристики. В качестве предмета исследования выбран популярный онлайн-сервис Google Books Ngram Viewer (GBNV), который предоставляет инструмент статистического анализа информации Ngram Viewer на основе корпуса оцифрованных печатных книг в Google Books. Рассматривая эволюцию GBNV, автор выявляет изменения, которые произошли с языком массовой коммуникации в период с 2000 по 2019 г., и предпринимает попытку определить значение этих метаморфоз в контексте развития информационного общества.

 

К постановке проблемы

По мнению Н. Лумана, выявить связь между эволюцией общества и развитием медиа можно исходя из двух условий: «очень большой дистанции» и «четкого понятийного абстрагирования» (1993: 309). Онлайн-сервис Google Books Ngram Viewer (GBNV), разработанный лингвистами и специалис­тами в области компьютерных технологий Ж.-Б. Мишелем и Э. Эйденом, охватывает корпус текстов с 1500 г. Это фактически включает в себя и Галактику Гутенберга, и Галактику Маклюэна, и реалии сетевых медиа – Галактику Кастельса (первое условие). GBNV оперирует так называемыми n-граммами1 (устоявшийся термин из линг­вистического анализа, где «n-» означает количество, а «грамм» – лексические единицы), отдельными лексемами или их сетами, например «биграммами» (лексическими парами). Они очищены от контекста и функционируют в качестве индексов частоты употребления слов, т.е. числовых значений. Эта особенность позволяет соблюсти «четкое понятийное абстрагирование», сводящее значение понятия до цифровой величины (второе условие). В результате исследователи медиа получают уникальный инструмент статистического мониторинга развития инфосферы, позволяющий верифицировать историко-архивные данные и результаты их анализа посредством «увеличительного стекла» цифровой гуманитаристики.

Google Books Ngram Viewer – цифровое зеркало эволюции человеческой культуры, медиум-сообщение о статусе развития человеческой цивилизации на отрезке от 1500 г. до наших дней, отраженное в статистике употребления языковых единиц n-грамм. Можем ли мы увидеть в нем свидетельства интеграции глобального комьюнити производителей интеллектуального продукта – тех, кого в научной литературе называют «информационным обществом»?

По данным, представленным в блоге сотрудника Google Л. Тайчера, на сегодняшний день в мире насчитывается около 130 млн книг2. Корпус текстов, оцифрованных компанией в рамках метапроекта по упорядочиванию всех данных, в 2013 г. насчитывал 30 млн единиц, т.е. работникам корпорации удалось собрать вместе в пространстве виртуальной библиотеки каждую четвертую из существующих книг. И поскольку самые ранние из оцифрованных изданий близки заре самой «эпохи Гутенберга» (1500 г.), весь собранный массив информации представляет собой не просто большие, но и «длинные»3 данные. На 2012 г., когда произошло снижение скорости пополнения базы данных, корпус книг на английском языке насчитывал 4 541 627 книг (текстов), или 468 491 999 592 словоупотреблений, на русском языке – 591 310 книг (текстов), или 67 137 666 353 словоупотреблений4. После обновления баз данных компания объявила, что с этого момента корпус всех оцифрованных книг составил 40 млн на­именований, т.е. уже треть всех опубликованных и учтенных в каталогах изданий5.

В феврале 2020 г. администрация Google Books Ngram Viewer на информационной страничке ресурса обновила сведения о 12 корпусах текстов. Изменения затронули библиотеки на десяти языках: американском и британском английском, литературном английском, иврите, испанском, итальянском, китайском, немецком, русском и французском.

 

Методология и историко-теоретическая база исследования

Занимаясь изысканиями в области истории цифровой фотографии и сетевой коммуникации, мы обнаружили изменения в характере отображения графиков, связанных с частотой употребления интересующих нас терминов. В ряде случаев картина трансформаций выглядела однотипно: в 2012–2014 гг. происходило снижение числовых величин использования литературного лексикона. Это явление сопровождалось резким подъемом n-грамм, соответствующих тезаурусу сетевой коммуникации. Данные метаморфозы можно было бы объяснить расширением баз данных GBNV посредством добавления к массивам книжных сканов, вошедших в обновленный корпус 2019 г., некоторого количества сетевого пользовательского контента (UGC-контента). Поскольку на официальных ресурсах компании Google подтверждения этой догадке нам обнаружить не удалось, мы решили проверить ее с помощью статистического анализа и сопоставления данных, находящихся в открытом доступе как на GBNV, так и на платформе онлайн-репозитория научных публикаций Google Scholar (GSc).

Так как наше исследование носит прикладной характер, мы опирались на несколько ключевых источников, освещающих историко-теоретический и практический аспекты работы сервиса GBNV. В качестве первого, безусловно, необходимо сослаться на книгу «Неизведанная территория» (Эйден, Мишель, 2016), в научно-популярной форме излагающую хронику создания поисковой машины от лица ее создателей. Академический вариант представлен в статье «Количественный анализ культуры на основе использования миллионов оцифрованных книг» (Michel, Shen, Aiden, Veres et al., 2011). Практический аспект применения ресурсов GBNV для задач цифровой гуманитаристики рассматривается в публикации сотрудников СПбГУ В.П. Захарова и А.Ц. Масевича «Диахронические исследования на основе корпуса русских текстов Google Books Ngram Viewer» (2014). Рекомендации по улучшению результатов поиска, а также мультидисцип­линарная подборка научных публикаций с применением GBNV приведены в работе Н. Йонес и У.-Д. Рейпса (Yones, Reips,2019).

 

Цифровая гуманитаристика: междисциплинарный анализ

Для того чтобы верифицировать нашу гипотезу, мы отобрали пять биграмм на русском и английском, представляющих собой синонимичные пары лексем и входящих как в словари литератургого, так и сетевого языков. Таким образом, были сформулированы пять пар (биграмм) поисковых запросов на русском и английском языках: «фотоочерк – лонгрид / photoessay longread»; «автопортрет – селфи / self-portrait – selfie»; «радиопрограмма – подкаст / radioshow podcast»; «пиктограмма – эмодзи / pictogram emoji» и, наконец, «метка – хештег / tag hashtag».

В рамках исследования были поставлены и решены следующие задачи:

  • рассмотреть динамику изменений в диапазоне от 2000 г. до 2019 г. (расширенный период был нужен для определения величин присутствия терминов из оцифрованных печатных книг в корпусах текстов, предшествующих обновлению баз данных в 2020 г.);
  • получить (путем сведения в единый график начертания всех кривых n-грамм) картину динамики изменения в тезаурусе сетевой коммуникации за период 2010–2020 гг., релевантный времени активного внедрения новых лексических единиц в практику общения интернет-аудитории;
  • на основе статистики тематических публикаций другого проекта компании Google – репозитория Scholar вручную создать график частоты добавления научных статей, аналогичный графику, который был ранее автоматически сгенерирован GBNV.

Таким образом, сопоставив характер изменения кривых на обоих полученных образцах, мы получим возможность сделать выводы по интересующему нас вопросу исследования. Если начертания графиков ресурса GBNV будут контрастно отличаться от рисунков кривых, построенных на основе статистики тематически аналогичных публикаций за тот же период времени на ресурсе GSc, это, скорее всего, будет означать верность нашего предположения о расширении баз данных Google Books путем добавления к ним источников пользовательского контента из Интернета.

Сопоставление пяти двуязычных биграмм (см. рис. 1–5) позволило выявить общий характер изменений, происходящих в базах данных ресурса GBNV, связанных с частотой употребления лексем из словаря литературного языка и Интернета.

В качестве первой биграммы возьмем пару «фотоочерк – лонгрид» и ее английский перевод «photoessay – longread» (см. рис. 1).

Сопоставление графиков n-грамм ресурса GBNV с построенным нами графиком количественной статистики тематических публикаций репозитория GSc обнаруживает заметные расхождения (см. рис. 6 и 7)12.

Как показало исследование, в результате расширения баз данных проекта GBNV в 2019 г. произошел значительный рост количества лексем, употребляемых в качестве терминов в Интернете, по сравнению с лексикой оцифрованных книг, причем аналогичная картина была зафиксирована в корпусе текстов и на русском, и на английском языках (до близкого соответствия).

Тем не менее сравнительный анализ графиков присутствия выбранных нами для исследования синонимичных пар лексем UGC-контента в базах данных GBNV и GSc позволил выявить контрастные расхождения. Если в 2016–2019 гг. в GBNV происходит экспоненциальный рост словоупотреблений (например, «селфи» – в 5,5 раз) то в базах данных GSc за тот же период их количество увеличивается всего в 1,5 раза. Так, количество употреблений слова «хештег» незначительно снижается (в 2019 г. до уровня 2018 г.), «лонгрид» и «эмодзи» повышается на 10% и 20% соответственно. А лексема «подкаст» стала встречаться в публикациях за 2016–2019 гг. значительно чаще (показатель вырос в 2,5 раза). Таким образом, контрастное различие между ростом час­тоты употребления n-грамм на ресурсе GBNV и динамикой пополнения тематических публикаций библиотеки GSc позволяет нам сделать вывод, что наблюдаемые изменения в лингвистической структуре корпусов текс­тов GBNV-2019 обусловлены добавлением к традиционным книжным источникам баз данных, содержащих UGC-контент, создаваемый в процессе массовой виртуальной коммуникации пользователями Интернета.

 

Выводы

Несмотря на то, что сочетание литературных источников и UGC-контента может восприниматься как противоречащее самому названию проекта – Google Books Ngram Viewer, на наш взгляд, оно вполне соответствует философии корпорации (слоганы ресурса – «Не будь злым» и «Организуй информацию о мире и сделай ее обще­дос­тупной и полезной»). Кроме того, оно приближает к тому моменту, когда базы данных GBNV по полноте и скорости обновления будут соответствовать скорости развития языка сетевой интерактивной коммуникации. Поскольку официальная информация о добавлении в корпус книжных текстов GBNV пользовательского контента отсутствует, можно предположить, что выявленные изменения литературного и сетевого лексикона отражают объективный процесс.

В своей книге, посвященной истории появления онлайн-сервиса GBNV, его создатели Э. Эйден и Ж.-Б. Мишель указывают: «Через всевозможные “скопы” мы смот­рим на самих себя. Каждая новая линза представляет собой и новое зеркало» (2016: 230). Методы компьютерной лингвистики позволяют нам заглянуть в «зеркало языка», а благодаря инструменту GBNV и новым способам пополнения его тезауруса мы получаем еще больше доказательств тому, что современное, информационное, общество находится на новом этапе развития.

 

mediaalmanah.2.2023.8894-1.jpg

Рисунок 1. Дельта частотности употребления n-грамм «фотоочерк – лонгрид / photoessay – longread» за 2000–2019 гг.6

 

mediaalmanah.2.2023.8894-2.jpg

Рисунок 2. Дельта частотности употребления n-грамм «автопортрет – селфи / self-portrait – selfie» за 2000–2019 гг.7

 

mediaalmanah.2.2023.8894-3.jpg

Рисунок 3. Дельта частотности употребления n-грамм «радиопрограмма – подкаст / radioshow – podcast» за 2000–2019 гг.8

 

mediaalmanah.2.2023.8894-4.jpg

Рисунок 4. Дельта частотности употребления n-грамм «пиктограмма – эмодзи / pictogram – emoji» за 2000–2019 гг.9

 

mediaalmanah.2.2023.8894-5.jpg

Рисунок 5. Дельта частотности употребления n-грамм «метка – хештег / tag – hashtag» за 2000–2019 гг.10

 

mediaalmanah.2.2023.8894-6.jpg

Рисунок 6. Сводные дельты частотности употребления n-грамм «лонгрид», «селфи», «подкаст», «эмодзи» и «хештег» на ресурсе GBNV за 2010–2019 гг.11

 

mediaalmanah.2.2023.8894-7.jpg

Рисунок 7. Сводные дельты количества тематических публикаций на ресурсе GSc за 2010–2019 гг.

 

Примечания

    1 Подробнее о N-граммах см.: Cayley J. (2014) N-gram. In: Ryan M-L., Emerson L., Robertson B.J. (eds.) The Johns Hopkins Guide to Digital Media. Baltimore, MD: Johns Hopkins University Press, pp. 358–360.

    2 В августе 2010 г. Тайчер насчитал 129 864 880 книг. См.: Books of the World, Stand Up and Be Counted! All 129 864 880 of You. Режим доступа: http://goo.gl/5yNV (дата обращения: 21.03.2023).

    3 Эпитет позаимствован авторами книги «Неизведанная территория» – разработчиками поискового сервиса GBNV Э. Эйденем и Ж.-Б. Мишелем у редактора журнала Wired С. Арбесмана. См.: Stop Hyping Big Data and Start Paying Attention to “Long Data”. Режим доступа: https://www.wired.com/2013/01/forget-big-data-think-long-data/ (дата обращения: 21.03.2023).

    4 Lin Y., Michel J.-B., Aiden E.L., Orwant J. et al. (2012) Syntactic Annotations for the Google Books Ngram Corpus. In: Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics (July 8–14). Jeju Island, Korea: Association for Computational Linguistics, pp. 169–174. Режим доступа: http://aclweb.org/anthology/P/P12/P12-3029.pdf (дата обращения: 21.03.2023).

    5 15 Years of Google Books. Режим доступа: https://www.blog.google/products/search/15-years-google-books/ (дата обращения 21.03.2023).

    6 Режим доступа: https://goo.su/24zE (дата обращения: 21.03.2023).

    7 Режим доступа: https://goo.su/jYzCnn (дата обращения: 21.03.2023).

    8 Режим доступа: https://goo.su/bRWuS (дата обращения: 21.03.2023).

    9 Режим доступа: https://goo.su/23Ph (дата обращения: 21.03.2023).

    10 Режим доступа: https://goo.su/JLrPzV (дата обращения: 21.03.2023).

    11 Режим доступа: https://goo.su/amNPy (дата обращения: 21.03.2023).

    12 Академический репозиторий Google Scholar (GSc). Режим доступа: https://goo.su/JpCM (дата обращения: 21.03.2023).

 

Библиография

Захаров В.П., Масевич А.Ц. Диахронические исследования на основе корпуса русских текстов Google Books Ngram Viewer // Структурная и прикладная лингвистика. 2014. Вып. 10. С. 303–327.

Эйден Э., Мишель Ж.-Б. Неизведанная территория: как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры. М.: АСТ, 2016.

 

Luhmann N. (1993) Veränderungen im System gesellschaftlichen Kommunikation und die Massenmedien. In: Luhmann N. (Hrsg.) Soziologische Aufklärung 3: Soziales System, Gesellschaft, Organisation. Opladen: Westdeutscher Verlag, pp. 309–320.

Michel J.-B., Shen Y.K., Aiden A.P., Veres A. et al. (2011) Quantitative Analysis of Culture Using Millions of Digitized Books Science. Science 331: 176–182. DOI: 1126/Science.1199644

Younes N., Reips U.-D. (2019) Guideline for Improving the Reliability of Google Ngram Studies: Evidence from Religious Terms. PLoS ONE 14 (3): e0213554. DOI: 10.1371/journal.pone.0213554

Дата поступления в редакцию: 29.03.2023
Дата публикации: 20.04.2023