Архив



Об экспертных оценках степени читаемости искаженных текстов



Сергей Вартанов, Сергей Мельников, Роман Мещеряков, Владимир Пересыпкин, Надежда Прикладовская

Ссылка для цитирования: Вартанов С.А., Мельников С.Ю., Мещеряков Р.В., Пересыпкин В.А., Прикладовская Н.В., Об экспертных оценках степени читаемости искаженных текстов // Меди@льманах. 2025. № 2 (127). С. 26−37. DOI: 10.30547/mediaalmanah.2.2025.2637



УДК 81’42:303.443.2
DOI: 10.30547/mediaalmanah.2.2025.2637
EDN: DKBFEB

© Вартанов Сергей Александрович
доктор социологических наук, профессор факультета биологии и биотехнологии департамента медиа Санкт-Петербургской школы гуманитарных наук и искусств НИУ ВШЭ (г. Москва, Россия), svartanov@hse.ru

© Мельников Сергей Юрьевич
доктор физико-математических наук, главный научный сотрудник кафедры информационной безопасности киберфизических систем Московского института электроники и математики имени А.Н. Тихонова НИУ ВШЭ (г. Москва, Россия), symelnikov@hse.ru

© Мещеряков Роман Валерьевич
доктор технических наук, профессор, главный научный сотрудник ИПУ РАН, главный научный сотрудник Московского института электроники и математики имени А.Н. Тихонова НИУ ВШЭ (г. Москва, Россия), mrv@ieee.org

© Пересыпкин Владимир Анатольевич
доктор технических наук, действительный член Академии криптографии РФ, научный сотрудник Академии криптографии РФ (г. Москва, Россия), info@cryptoacademy.gov.ru

© Прикладовская Надежда Вадимовна
лингвист компании «Лингвистические и информационные технологии» (г. Москва, Россия), info@linfotech.ru



Ключевые слова: читаемость, зашумленные медиатексты, экспертная оценка и агрегирование оценок, восстановление текста, слабоструктурированная информация.

Статья посвящена методике оценки читаемости искаженных текстов. Предложены два типа оценок — абсолютная (балльная) и относительная (сравнительная), описаны подходы к их выставлению, подобраны иллюстративные примеры. Разработана гибридная стратегия оценивания; приведены условия, связывающие желаемую точность оценки, размер корпуса искаженных текстов и отношение трудозатрат для оценок разных типов, при которых ее использование обосновано с точки зрения эффективности затрат.

 

Теоретическая база и методология исследования

Задача оценки читаемости искаженных текстов возникает как одна из структурных составляющих общей цели – обработки слабоструктурированной информации на естественных языках в условиях повышенной зашумленности. Источниками зашумления информации могут выступать объекты, субъекты и процессы различной природы: от человеческой (причем как случайной, так и намеренной) до природной (например, естественные помехи на канале связи) и связанной с некорректной деятельностью искусственного интеллекта, генерирующего текстовый контент. Такие тексты, переданные по медикоммуникационным сетям, распространяясь, становятся проблемой для медиакоммуникационной индустрии, в лучшем случае затрудняя восприятие информации и снижая качество медиаконтента, а в худшем – вводя рецепиента (представителя аудитории) в заблуждение. Кроме того, наличие искажений в текстах значительно снижает эффективность их полнос­тью и частично автоматизированной обработки, например при анализе комментариев в социальных медиа.

Анализ и коррекция искаженных текстов представляются актуальными задачами, возникающими во множестве областей медиакоммуникаций, как теоретических, так и практических, например при коррекции текстов, набранных с ошибками и опечатками, обработке и анализе сообщений в социальных сетях, распознавании речи и рукописного текста, машинном переводе, классификации и аннотировании медиатекстов и извлечении из них информации в машиночитаемом виде, а также в системах искусственного интеллекта, использующих перевод речи и изображений документов с иностранных языков.

Современные телекоммуникационные каналы связи, как правило, проектируются с использованием помехоустойчивого кодирования, позволяющего за счет корректно подобранного алгоритма кодирования восстанавливать при декодировании часть искаженной в процессе передачи информации. В то же время в таких алгоритмах речь идет именно о «механическом» исправлении ошибок, не учитывающем смыс­ловое наполнение передаваемого медиаконтента. Контент на естественном языке (в текстовом, визуальном и акустическом сигнальном виде), как правило, позволяет рецепиенту извлекать содержательную информацию даже из искаженных сообщений, на когнитивном уровне понимать их содержание и тем самым, аналогично помехоустойчивым алгоритмам, «исправлять ошибки».

Известно, что словесная разборчивость речи имеет большее значение по сравнению со слоговой при восприятии речи человеком. Человек в этом случае выступает системой обнаружения и коррекции ошибок, однако увеличивающийся поток информации в различных каналах не позволяет всегда использовать человека – следовательно, возникает необходимость разработки методологического аппарата для создания выполняющих такую роль автоматических систем, в том числе основанных на нейросетевых моделях и методах машинного обучения.

Функционально такая система должна решать несколько задач, первой среди которых является (полу-)автоматизированная оценка читаемости текста. Когда речь заходит о разработке и построении систем автоматизированной оценки читаемости, необходимо рассматривать в первую очередь методы обучения с учителем. Таким образом, первым шагом к решению этой задачи является генерация размеченного обучающего множества, представляющего собой корпус подвергнутых различным искажениям текстов на естественных языках, которым сопоставлены экспертно полученные оценки читаемости. Именно вопросам экспертной оценки читаемости корпуса зашумленных текстов посвящена настоящая статья, предлагающая одну из составных частей решения «большой» задачи.

Слово «читаемость» имеет основное значение как характеристика удобства и легкости чтения текста («обеспечить читаемость текста программы») (Ефремова, 2000: 969–998) и подразумевает два варианта смыслов. Один вариант предполагает, что текст соответствует норме языка, и характеризует удобство чтения и ясность выражения текстом заложенного смысла (Dubay, 2004; Klare, 1974). Второй вариант учитывает, что текст содержит некоторое количество ошибок (и потому не соответствует норме языка) и характеризует усилия читающего по пониманию заложенного смысла. В английском языке эти варианты соответствуют выражениям readable text и clear text (Англо-русский словарь по информационным технологиям, 2003).

Нас интересует второй вариант. Мы будем рассматривать тексты со случайными искажениями, то есть содержащие те или иные ошибки. Если уровень этих ошибок мал, то весь текст читается без затруднений, если ошибок много, то текст читается не весь, а только фрагментарно, если же ошибок слишком много, то ни одного фрагмента в тексте прочитать нельзя. Наша задача – постараться ввести шкалу для оценивания степени читаемости текста с искажениями, с точки зрения полноты восприятия и понимания текста читающим. Отметим, что согласно словарю по информационным технологиям, синонимичными считаются соответствующие английскому clear text выражения «читаемый текст», «нешифрованный текст», «открытый текст». Антонимами здесь могут служить выражения «нечитаемый текст», «шифрованный текст» (Англо-русский словарь по информационным технологиям, 2003).

 

Зашумление текста

В задачах автоматической обработки текста серьезной проблемой является наличие искажений (шумов). Даже незначительный процент искаженных слов заметно снижает точность нейросетевых систем автоматического перевода (Belinkov, Bisk, 2018), классификации сообщений (Agarwal, Godbole, Punjani, Roy, 2007), определения тональности и др. (Kumar, Makhija, Gupta, 2020). Для традиционных систем автоматической обработки необходим этап предобработки, в частности коррекции ошибок (Вахлаков, Германович, Мельников, Пересыпкин и др., 2021). С появлением и развитием предварительно «обученных» языковых моделей, казалось бы, появилась возможность пренебрегать этим этапом. Однако Сиино и соавторы (Siino, Tinnirello, La Cascia, 2024) показали, что предобработка с коррекцией ошибок на зашумленных данных может заметно повысить точность предварительно обученных трансформерных моделей, таких как RoBERTa, ELECTRA и др.

В ряде публикаций изучалось влияние искажений в тексте на работу систем обработки естественного языка (Nature Language Processing, NLP), рассматривались как искажения естественного происхождения (авторские ошибки, опечатки при наборе, ошибки систем распознавания и др.) (Subramaniam, Roy, Faruquie, Negi, 2009), так и синтезированные искажения. Для алфавитных языков предложено большое количество способов искусственных искажений текста. В статьях А.Ю. Кулая, С.Ю. Мельникова (2009) и А.В. Ермилова (2012) для решения задачи идентификации языка текст на исходном языке сначала транслитерировался в латиницу на одном регистре, а потом подвергался случайным заменам, вставкам и удалениям символов с задаваемой вероятностью. В зарубежных исследованиях тексты искажались с помощью перестановок букв внутри слова и замен символов (Belinkov, Bisk, 2018; Heigold, Neumann, van Genabith, 2018); рассматривались искажения текстов следующих типов: вставка, удаление и замена символа и перестановка двух соседних символов в пределах слова (Karpukhin, Levy, Eisenstein, Ghazvininejad, 2019). Учеными был предложен еще один способ искусственного зашумления текста, включающий шесть основных типов искажений (изменение регистра букв, замена букв по фонетической близости, удаление символа, замена символа на близко расположенный на клавиатуре, пропуск слова, слияние соседних слов) (Gadde, Goutam, Shah, Bayyarapu, Subramaniam, 2011). В одной из работ исследовалось зашумление текста путем замены слов и словосочетаний на те, которые образованы в результате прямого и обратного переводов на второй язык (Vaibhav, Singh, Stewart, Neubig, 2019). Помимо вставок, выбросов и замен знаков рассматривалась также транспозиция рядом стоящих слов и замена слова на его синоним (Wang, Ma, Yu, Cui et al., 2023). В статье Д.А. Бирина, С.Ю. Мельникова, В.А. Пере­сыпкина, И.А. Писарева, Н.Н. Цопкало (2018) предложена трехпараметрическая схема искажений с параметрами P 1 , P 2 , L , согласно которой символьные случайные искажения (вставка, замена и удаление) образуют простейший пуассоновский поток с параметром P 1 , а случайные искажения слов (замена на другое словарное слово, удаленное на L по расстоянию Левенштейна), образуют пуассоновский поток с парамет­ром P 2 .

 

Экспертные оценки читаемости

В статье А.В. Германовича и соавторов (Германович, Мельников, Пересыпкин, Сидоров и др., 2019) предложена балльная система оценки читаемости искаженных текстов, с двумя вариантами градаций, из четырех вариантов, и ее разбиение, из восьми вариантов. Мы предлагаем развитие этого подхода.

Будем использовать два типа оценок:

— балльная (абсолютная) оценка, при которой анализируемому тексту присваивается целое число (балл)

e ( T ) { 1 , 2 , 3 , 4 , 5 }

— сравнительная (относительная) оценка, при которой паре анализируемых текстов T 1 , T 2 присваивается значение

c ( T 1 , T 2 ) { < , > , }

Идея введения сравнительных оценок связана с достаточно высокой трудоемкос­тью выставления балльной оценки; эксперту бывает трудно определить конкретный балл для анализируемого текста. В то же время сравнить читаемость двух текстов гораздо проще.

Балльная оценка текста проводится в со­ответствии с таблицей.

 

Таблица. Характеристики читаемости искаженных текстов

Оценка

Признак читаемости

1

Невозможно определить, это искаженный текст или бессмысленный набор символов.

2

Удается прочитать лишь отдельные слова. Тематика однозначно не определяется.

3

Удается прочитать отдельные фрагменты текста, которые позволяют определить тематику.

4

Для восстановления текста приходится использовать контекст, допускаются незначительные нечитаемые участки.

5

Весь объем текста читается без затруднений.

Источник: составлено авторами.

 

Примеры применения предложенных оценок для трех языков

Пример 1. Неискаженный и искаженный варианты текста на русском языке.

мы продолжаем развивать наше взаимодействие в области промышленной кооперации, работаем вместе в области сельского хозяйства. теперь, в последние год-полтора, занимаемся активно микроэлектроникой, и сейчас открываются возможности, мы тоже с вами об этом говорили неоднократно, в сфере авиационного строительства, в авиапромышленности.

м юпродожем развивалт кае ыимей­ствии выобяасти пиодмышлъеннзой кьоожпрцши,ошабозтзат впместе в облсти ечусльского хоозяйства. ртетерь, в пцсбледних лд-птовтора, заимаемся ативной микроиэлектрыоникос, в фпбсейчесдоткрыватся возможность, м боже ос вамл рзб эом гоорил неоднократцом, всерклхвитацэоняого ъстрвительства, иуавзиапромыошллнность.

Читаемость искаженного фрагмента можно оценить в 3 балла. Тематику текста – развитие сотрудничества – опередить можно, восстанавливаются отдельные фразы и выражения. Искажения слов связаны в первую очередь с пропуском или заменой отдельных букв. Таким образом, большая часть текста может быть успешно восстановлена, несмотря на некоторые возможные затруднения. В то же время есть сочетания слов, которые восстановлению не поддаются, например, лд-птовтора, м боже ос вамл рзб эом, всерклхвитацэоняого.

Таким образом, e ( T 1 ) = 5 , e ( T 2 ) = 3 .

 

Пример 2. Два варианта искажений одного текста на русском языке.

лидеры выразили удовлетворение конструктивным характером российско-турецких отфошений и готовностью к дильнейшему темному взаимодействию. осуждены некоторве актуальные двусторонфие и международных темы, выклчая опасное развитием обстаовки на ближнем восток.

лере выразил удвлетворение конструктивнэымм харктером российсдко-турецкие отношпний и готокнось ко дальнойяшему теснтоз вфзаиодействию. омбнсъдены аекоторые актуальные двусторонние и жмяждфароюнщые теумы,вклюпаю опасное развытие огбсановки на ближнем востока.

Приведены два варианта искажений одного и того же текста на русском языке. Первый вариант читается достаточно легко, многие слова не подверглись искажению, а остальные легко восстанавливаются даже без контекста. Второй вариант содержит гораздо меньшее количество неизмененных единиц, а искажения более существенно затрагивают структуру слов. Несмотря на это, большинство этих искажений могут быть исправлены и текст восстановлен. На основании вышесказанного можно сделать вывод, что первый вариант имеет более высокую оценку читаемости, чем второй.

Таким образом, c ( T 1 , T 2 ) = ">"

 

Пример 3. Неискаженный и искаженный варианты текста на арабском языке.

أصبحت الأخبار والتقارير التي تتناولها وسائل الإعلام التقليدية “الصحف والإذاعة والتلفزيون” مادة تغري بالحديث عنها عبر وسائل التواصل الاجتماعي. خاصة إذا كان هذا الخبر مثيرا أو يتعلق بشأن يشكل مصدر اهتمام مشترك للمجتمع.

وفي بعض الأحيان يختلط الخبر بالشائعة ويتلون. هنا تغدو مهمة التأكد من مصداقية الخبر مسألة ضرورية، ويتشارك في المسؤولية: ناقل الخبر “الإعلامي”، والوسيلة الإعلامية، والجهة التي يتعلق بها الخبر “المتحدث الرسمي”.

هناك إشاعات كثيرة وجدت صدى في المجتمع بسبب تراخي واحد من الأطراف الثلاثة. وفي غالب الأحيان يكون المتحدث الرسمي هو الذي يتحمل عبء هذه الإشكالية.

أصبحت الأخبارةبالتقارير الا تتبناولها وائل الإعلشم التقليدية “اصحف واملإذاعة واـلتلفزيون” مادة تغري اآحدث عينها عبه وسائل الةتواصل الاجتماعي. ـخاصة إذا كـن ذا الخخبر مثيرا أو يتعلقج بشأن يككل مصار اهتمم مشترك للمجتمع.

وظي بعض الأحيان يختلط والخبر بالـشائعةلولون. هنان تغدة مهمة التأكد من فمصداقية الخبر مسألةت ضرورية، وياتشارك فيظالمسؤوية: ننقل الخبر “اإعلامي”، والوسيلة اإعلاميح، واهلةهة التي تعلق بها الـخبر “المتحدث الرسمي”.

هناك إشاعات قكثيرة جدت صدى فيالمجتمع سب تراخيواحدةـذن لأطرافالثلاثة.ئوافي غالب الأحيان يكوتالمحدث الرسيهرو الذي يتحمل عبإء هذه الإشكالية.

В данном примере представлены фрагменты искаженного и неискаженного текста. Читаемость второго фрагмента можно оценить в 4 балла, так как в целом текст можно восстановить, но при этом ряд слов и конструкций могут вызвать затруднение и быть неправильно восстановлены без обращения к контексту (например, ال, واهلةهة, يككل). Таким образом, хотя искаженный текст достаточно легко читается в целом, некоторые его фрагменты требуют более пристального внимания и не могут быть восстановлены сами по себе, вне понимания тематики и контекста.

Таким образом, e ( T 1 ) = 5 , e ( T 2 ) = 4 .

 

Пример 4. Два варианта искаженного текста на английском языке.

largely lost in the politcal rancor is the way springfield and khe surrounding area responded to the influx of haitian immigrantsa. local health institutions tried to address the needs okf tais zew population, which had sacked baic public health care such ts immunization and otten didn’t understand the u.s. health system.

lsrely lost n the ptoliticel rabcor isbtzl wayjsprinnfield ad she surrounbding aria responded tov the infolux ofh haitian immiorants. local healph instituirs triedsto address thebneeds of thias new polulatzon,which had lacked wbayic public health care quch rsimmunization antd ften didn’t understand the u.s. health systnm.

Приведены два примера искаженного текста на английском языке. В первом из них искажения незначительны и легко могут быть выявлены и исправлены. Во втором фрагменте возможно появление невосстановленных участков текста, так как искажения присутствуют в большей части слов. Отдельные сочетания слов едва ли могут быть восстановлены без обращения к контексту (например, isbtzl, wbayic).

Таким образом, c ( T 1 , T 2 ) = ">" .

 

Пример 5. Вариант сильно искаженного текста на русском языке.

жмхычвеочен аеы швисъвшежхь.ф ра мыьмипшзможносуь есрчткдмллеаем пуоигоувчрчиь пелазпвицию рониа потьвоветсъэомпрсосетрнщтв,ю чоэункэо масштлс,вв амкаи снг. аа стрпня подгожоодршм о таниа дулучтюоргоуним ттнцшещниюях.

Данный фрагмент сильно искаженного русского текста может быть оценен в 1 балл по степени читаемости. Тематику текста определить не представляется возможным, слова не только подверглись искажению сами, но и оказались соединены с соседними искаженными словами, что делает практически невозможным восстановление хотя бы отдельных участков текста.

Таким образом, e ( T 1 ) = 1 .

 

Обработка и агрегирование полученных экспертных оценок

С точки зрения трудоемкости наиболее сложным для эксперта является выставление оценки e ( T 1 ) по абсолютной шкале. Когда речь идет о подготовке размеченного корпуса из нескольких десятков тысяч текстов разной степени искаженности, затраты времени и усилий даже достаточно небольшой группы экспертов оказываются весьма значительными. При этом, чтобы снизить уровень случайности и получить более адекватную (в идеале – статистически значимую) оценку для каждого из текстов в обучающем множестве, необходимо агрегировать для него индивидуальные оценки e i ( T ) нескольких экспертов, что кратно увеличивает нагрузку на экспертов.

Сравнение двух текстов с вынесением суждения c ( T 1 , T 2 ) о том, какой из них имеет более высокую оценку читаемости, требует меньших затрат труда и времени, однако он вызывает ряд сложностей, связанных с агрегированием полученных от разных экспертов оценок.

Во-первых, речь идет об нетранзитивности и несимметричности индивидуальных оценок экспертов, что может помешать преобразованию их в линейные порядки, пригодные для применения классических методов агрегирования и процедур голосования. Иными словами, эксперт может допускать возникновение в его оценках циклов, то есть ситуаций, когда c ( T 1 , T 2 ) = ">" , c ( T 2 , T 3 ) = ">" , c ( T 3 , T 1 ) = ">" .

Проблемой может стать и отсутствие симметричности, то есть ситуация, когда, согласно мнению одного эксперта, выполнено c ( T 1 , T 2 ) = ">" , c ( T 2 , T 1 ) = ">" .

Впрочем, подобные трудности индивидуального уровня (проблемы самосогласованности) легко устраняются: в зависимости от ресурсных ограничений и возможности эксперта к повторной экспертизе проблемных текстов необходимо либо повторно провести экспертизу, либо в случае невозможности повторной экспертизы приписать в итоговом ранжировании данного всем текстам T1 , T2 , , Tn цикла одинаковый уровень читаемости: c ( T1 , T2 ) = c ( T2 , T3 ) = c ( Tn , T1 ) = (где n 2 — число текстов в цикле).

Во-вторых, даже симметричные и транзитивные оценки отдельных экспертов, приводимые к виду линейных порядков на множестве обработанных текстов, не являются гарантией того, что процедуры агрегирования получат итоговое непротиворечивое ранжирование текстов по уровню их читаемости. Известен ряд парадоксов коллективного выбора, возникающих в аналогичных ситуациях (Вартанов, 2013), а также теорема Эрроу, постулирующая отсутствие адекватной (то есть удовлетворяющей некоторым справедливым условиям и всегда дающей логически непротиворечивый результат) процедуры агрегирования индивидуальных предпочтений для более чем двух альтернатив – в том случае, когда речь идет об ординалистском подходе (то есть сравнении и упорядочивании, а не о выставлении численной оценки) (Алескеров, Хабина, Шварц, 2012).

В-третьих, использование только ординалистского подхода к оценке (расчет сравнительных оценок вида c ( T 1 , T 2 ) ) даже в случае успешного построения результирующего рейтинга текстов (в форме линейного порядка) с точки зрения их читаемости не позволит дать ей количественную оценку. Безусловно, давно существует ряд методов построения количественных мер, согласованных с линейными порядками, и ряд теорем, связывающих свойства отношений предпочтения с существованием и свойствами таких мер (Debreu, 1954; Rader, 1963; Fishburn, 1964, 1965, 1970; Сигал, Ремесник, 2021), однако возможность и эффективность их применения к данной задаче не очевидны и требуют отдельного изучения.

В качестве компромиссного варианта, позволяющего соединить простоту сравнительной и содержательность точной оценок предлагается использовать гибридную стратегию массовой оценки читаемости текстов, заключающейся в следующем. Пусть в наличии имеется корпус текстов различной степени читаемости, размером n (порядка нескольких десятков тысяч) и k экспертов (порядка 10 человек). Обозначим средние затраты (временные, денежные, усилия) на выставление одной оценки типа e ( T ) как l , тогда затраты на сравнение текстов и получение оценки вида c ( T1 , T2 ) можно положить равными λ l , λ ( 0 ; 1 ) .

На первом шаге предполагается случайным образом выбрать из всего подлежащего оцениванию корпуса текстов некоторую небольшую его часть в размере m, для которой необходимо провести процедуру выставления оценки экспертами количественной оценки e ( T ) . Пусть все тексты имеют равную вероятность попасть в эту выборку. Для того, чтобы выборка текстов была репрезентативна и отражала всю генеральную совокупность, её минимальный размер mmin должен определяться формулами Кокрена (Cochran, 1977):

 

m min = m 0 1 + m 0 1 n

m 0 = Z 2 p ( 1 p ) e 2

 

где p = 12 , Z -value (для доверительной вероятности в 95% равно 1,96), e — требуемый уровень точности. Полученное значение — нижняя оценка объема выборки, по которой можно с указанными характеристиками точности судить о распределении оценки читаемости во всем корпусе текстов (при условии, что нам ничего о нем не известно a priori). Следовательно, при рандомизированной генерации выборки такого размера она окажется репрезентативной: распределение оценки читаемости в ней соответствует аналогичному распределению во всем корпусе текстов, и поэтому ее имеет смысл подвергнуть оцениванию оценкой типа e ( T ) .

Для повышения достоверности полученных e ( T ) желательно, чтобы каждый текст был оценен более чем одним экспертом — пусть хотя бы долей α от общего числа (предполагается, что это число — α k — целое). Пусть для каждого текста вероятность попасть к любому из экспертов одинакова (следовательно, она равна 1k ), тогда каждому эксперту достанется на проверку α m текстов, затраты на оценку которых составят l α m , а совокупные затраты — k l α m .

Однако полученные экспертные оценки читаемости текстов, как правило, нуждаются в дополнительной обработке с учетом согласованности мнений экспертов друг с другом, то есть меры близости их индивидуальных мнений. Полученное значение степени согласованности позволит выработать суждения об уровне компетентности экспертов и определить группировки экспертных мнений. Низкий уровень согласованности экспертных оценок читаемости текста может затруднить использование агрегированной оценки, делая ее ненадежной. Для определения степени согласованности предлагается использовать коэффициент множественной ранговой корреляции (конкордации) (Kendall, Gibbons, 1990). Тексты со статистической значимос­тью, облада­ющие низкими коэффициентами конкордации (менее 0,5), предлагается исключать из обучающего множества либо подвергать дополнительной экспертизе.

Для выбранных текстов результаты экспертных оценок e1 ( T ) , , ek ( T ) агрегируются. Наиболее простым способом такого агрегирования является вычисление для каждого текста среднего арифметического значения оценок, полученных от всех экспертов, проверявших его. Тем не менее это могут быть и другие операции агрегирования, такие как, например, взвешенное среднее порядка, ассоциативное, квазилинейные средние или среднее геометрическое и среднее гармоническое (Леденева, Подвальный, 2016).

На втором этапе оцененные на первом этапе тексты выступают в качестве эталонных. Сравнивая с ними все остальные тексты корпуса эксперты формируют оценки c ( T1 , T2 ) , где T1 — эталонный текст, T2 — оцениваемый текст. Каждый эксперт проведет m ( n - m ) таких сравнений, затратив на это ресурсы в объеме λ l m ( n - m ) , после чего оцененные им тексты можно ранжировать и получить бинарное отношение «более читаем, чем» в форме линейного порядка, которое соответствует оценке данного эксперта. Имея такие отношения, построенные каждым экспертом, можно применить к ним любую из процедур агрегирования (например, классические процедуры голосования типа мажоритарного правила либо ранговые правила). Результатом этой процедуры и второго шага процесса оценивания всего корпуса текстов является результирующий список текстов, отсортированный по уровню читаемости на основе относительных оценок c ( T1 , T2 ) всех экспертов, при этом для статистически репрезентативной части текстов уже известны абсолютные оценки e ( T ) .

 

Пример результата

Рисунок. Пример результата применения процедуры приписывания оценок текстам, не имеющим экспертно полученного значения e ( T ) .

 

Третьим и финальным шагом является приписывание аппроксимированных абсолютных оценок e ˜ ( T ) не имеющим экспертно полученной оценки e ( T ) текстам (см. рис.).

Процедура приписывания основана на подходе Фишберна и представляет собой модификацию его системы коэффициентов. Этот подход является оптимальным с точки зрения максимизации информационной энтропии в условиях ограниченных знаний об объекте исследования (Fishburn, 1964, 1965, 1970; Сигал, Ремесник, 2021). Формулы Фишберна применяются в том случае, когда имеется упорядоченное по некоторому правилу множество альтернатив и необходимо приписать этим альтернативам числа таким образом, чтобы сортировка по убыванию этих чисел давала такой же порядок альтернатив, как и исходное упорядочивание. Обозначим эти альтернативы x1 , , xp , и пусть x 1 x 2 x p . Первая формула Фишберна предполагает, что весовые коэффициенты образуют убывающую арифметическую прогрессию, в таком случае коэффициент, приписываемый альтернативе номер i , равен:

wi = 2 ( p - i + 1 ) p ( p + 1 ) , i = 1 p

где p — количество показателей. В случае смешанной системы предпочтений – то есть такой, которая наряду со строгими отношениями включает в себя отношения безразличия (эквивалентности) – используется рекурсивная схема вычисления коэффициентов (Абдулаева, Недосекин, 2013; Ремесник, 2018), в которой они представляют собой рациональные дроби, числители которых вычисляются по рекурсивной схеме, а общий знаменатель — сумма всех полученных числителей:

r i 1 = { r i если   x i x i 1 r i + 1 если   x i 1 > x i

r p = 1

i = p , p 1 , , 2

 

Для решаемой задачи сами коэффициенты w i в явном виде неприменимы, так как принадлежат интервалу [ 0 , 1 ] , однако на их основе можно сконструировать требуемые нам аппроксимации оценок e ˜ . Рассмотрим два соседних текста, имеющих экспертно полученные абсолютные оценки, то есть между ними в итоговом рейтинге читаемости заключены только тексты с относительными оценками, пусть они имеют номера i и j (см. рис.). Заметим, что тексты с одинаковым уровнем читаемости мы считаем связанными отношением безразличия (эквивалентности), им в рейтинге присвоены одинаковые номера, равные среднему арифметическому их рангов. Для того, чтобы приписать промежуточным текстам аппроксимированные значения вида e ˜ s , для частично упорядоченного множества Ti , Ti+1 , , Tj-1 , Tj строится последовательность коэффициентов Фишберна wi , wi+1 , , wj-1 , wj , а затем интервал значений [ wj , wi ] линейно отображается в интервал значений [ e ( Tj ) , e ( Ti ) ] :

e ˜ s = e ( Tj ) + ( e ( Ti ) - e ( Tj ) ) ws - wj wi - wj

s = i , i + 1 , , j - 1 , j

e ˜ i = e ( Ti ) , e ˜ j = e ( Tj ) ;

Таким образом, процедура формирования совокупности экспертных оценок степени читаемости для корпуса текстов разной степени искаженности завершена. Затраты на формирование такой совокупности составляют l α m + λ l m ( n - m ) на одного эксперта. Аналогичные затраты на выставление абсолютных оценок всем текстам из корпуса составляют l α n , следовательно, при выполнении условия α > λ m гибридная стратегия оказывается более эффективной.

 

Выводы

В статье предложено расширение существующей методики оценки читаемости искаженных текстов. С одной стороны, это позволяет оценивать читаемость в условиях больших искажений, с другой – заметно сокращать трудозатраты экспертов-лингвис­тов. В качестве возможных экспертных оценок в статье предложено два типа оценок: балльная (абсолютная) оценка, при которой анализируемому тексту T присваивается целое число (балл) от 1 до 5, и сравнительная (относительная) оценка, при которой паре анализируемых текстов ( T 1 , T 2 ) присваивается значение «лучше», «хуже» или «одинаково». Идея введения сравнительных оценок связана с достаточно высокой трудоемкостью выставления балльной оценки, эксперту бывает трудно определить конк­ретный балл для анализируемого текста. В то же время сравнить читаемость двух текстов гораздо проще.

В работе описаны ограничения и особенности применения обоих типов оценивания для задачи подготовки корпуса текстов различной степени читаемости, возника­ющей при разработке автоматизированных систем оценки читаемости, основанных на методе обучения с учителем и требующих большого экспертно размеченного обучающего множества, в роли которого и выступает подобный корпус текстов, дополненный абсолютными оценками их читаемости. Предложена гибридная стратегия оценивания, сочетающая выставление для небольшой части текстов более трудоемкой абсолютной оценки и более простой относительной для остальных текстов. Для этой стратегии приведены условия, связывающие желаемую точность оценки, размер корпуса и отношение трудозатрат для оценок разных типов, при которых ее использование обосновано с точки зрения эффективности затрат. Предложенная методика является универсальной и подходит для большинства алфавитных языков.

 

Библиография

Абдулаева З.И., Недосекин А.О. Стратегический анализ инновационных рисков: моногр. СПб.: СПбГПУ, 2013.

Алескеров Ф.Т., Хабина Э.Л., Шварц Д.А. Бинарные отношения, графы и коллективные решения. М.: Физматлит, 2012.

Англо-русский словарь по информационным технологиям: ок. 35 000 терминов / сост. Л.Г. Суменко. М.: ГП ЦНИИС, 2003.

Бирин Д.А., Мельников С.Ю., Пересыпкин В.А., Писарев И.А. и др. Об эффективности средств коррекции искаженных текстов в зависимости от характера искажений // Изв. ЮФУ. Тех. науки. 2018. № 8 (202). С. 104–114. DOI: 10.23683/2311-3103-2018-8-104-114

Вартанов С.А. Модель электорального поведения // Математическая теория игр и ее приложения. 2013. Т. 5. № 1. С. 3–26.

Вахлаков Д.В., Германович А.В., Мельников С.Ю., Пересыпкин В.А. и др. О точности и трудоемкости многоэтапного метода коррекции искаженных текстов в зависимости от степени искажения // Изв. ЮФУ. Тех. науки. 2021. № 7 (224). С. 130–142. DOI: 10.18522/2311-3103-2021-7-130-142

Германович А.В., Мельников С.Ю., Пересыпкин В.А., Сидоров Е.С. и др. Информационные измерения языка. Программная система оценки читаемости искаженных текстов // Изв. ЮФУ. Тех. науки. 2019. № 7 (209). С. 6–17. DOI: 10.23683/2311-3103-2019-7-6-17

Ермилов А.В. Об идентификации языка искаженных текстов методом опорных векторов // Вестн. РУДН. Сер.: Математика. Информатика. Физика. 2012. № 2. C. 127–131.

Ефремова Т.Ф. Новый словарь русского языка: толково-словообразовательный: св. 136 000 словар. ст., ок. 250 000 семант. ед.: в 2 т. Т. 2. М.: Рус. яз., 2000.

Кулай А.Ю., Мельников С.Ю. О точности идентификации языка искаженного текста в зависимости от степени искажения // Концептуальный спектр изысканий в современном речеведении: сб. ст. Вып. 575. М.: Рема, 2009. С. 200–209.

Леденева Т.М., Подвальный С.Л. Агрегирование информации в оценочных системах // Вестн. ВГУ. Сер.: Системный анализ и информационные технологии. 2016. № 4. С. 155–164.

Ремесник Е.С. Прогрессии Фишберна в теории принятия решений и управлении инвестиционными рисками // Финансы России в условиях глобализации: мат. III междунар. науч.-практ. конф. (Воронеж, 25 сентября 2018 г.). Воронеж: ВЭПИ, 2018. С. 258–263.

Сигал А.В., Ремесник Е.С. Последовательности Фишберна для принятия решений в экономике: моногр. М.: ИНФРА-М, 2021.

 

Agarwal S., Godbole S., Punjani D., Roy S. (2007) How Much Noise is Too Much: A Study in Automatic Text Classification. In: Seventh IEEE International Conference on Data Mining (ICDM 2007). Omaha: IEEE, pp. 3–12. DOI: 10.1109/ICDM.2007.21

Belinkov Y., Bisk Y. (2018) Synthetic and Natural Noise Both Break Neural Machine Translation. Conference Paper at ICLR 2018. Режим доступа: https://scispace.com/pdf/synthetic-and-natural-noise-both-break-neural-machine-41z8rg2kva.pdf (дата обращения: 15.01.2025).

Cochran W.G. (1977) Sampling Techniques. New York: John Wiley & Sons.

Debreu G. (1954) Representation of a Preference Ordering by a Numerical Function. In: Thrall M., Davis R.C., Coombs C.H. (eds) Decision Processes. New York: John Wiley & Sons, pp. 159–165.

Dubay W.H. (2004) The Principles of Readability. Cosa Mesa: Impact Information.

Fishburn P.C. (1964) Decision and Value Theory. New York: John Wiley & Sons.

Fishburn P.C. (1965) Independence in Utility Theory with Whole Product Sets. Operations Research 13 (1): 28–45. DOI: 10.1287/opre.13.1.28

Fishburn P.C. (1970) Utility Theory for Decision Making. New York: John Wiley & Sons.

Gadde P., Goutam R., Shah R., Bayyarapu H.S. et al. (2011) Experiments with Artificially Generated Noise for Cleansing Noisy Text. In: Proceedings of the 2011 Joint Workshop on Multilingual OCR and Analytics for Noisy Unstructured Text Data. New York: ACM, pp. 1–8. DOI: 10.1145/2034617.2034622

Heigold G., Neumann G., van Genabith J. (2018) How Robust are Character-Based Word Embeddings in Tagging and MT Against Wrod Scramlbing or Randdm Nouse? In: Proceedings of AMTA 2018. Vol. 1: MT Research Track. Boston: AMTA, pp. 68–80. DOI: 10.48550/arXiv.1704.04441

Karpukhin V., Levy O., Eisenstein J., Ghazvininejad M. (2019) Training on Synthetic Noise Improves Robustness to Natural Noise in Machine Translation. In: Proceedings of the 5th Workshop on Noisy User-Generated Text (W-NUT 2019). Hong Kong: ACL, pp. 42–47.

Kendall M.G., Gibbons J.D. (1990) Rank Correlation Methods. New York: Oxford Univ. Press.

Klare G.R. (1974) Assessing Readability. Reading Research Quarterly 10 (1): 62–102. DOI: 10.2307/747086

Kumar A., Makhija P., Gupta A. (2020) Noisy Text Data: Achilles’ Heel of BERT. In: Proceedings of the 2020 EMNLP Workshop W-NUT: The Sixth Workshop on Noisy User-Generated Text. Stroudsburg: ACL, pp. 16–21.

Rader J.T. (1963) The Existence of a Utility Function to Represent Preferences. Review of Economic Studies 30: 229–232.

Siino M., Tinnirello I., La Cascia M. (2024) Is Text Preprocessing Still Worth the Time? A Comparative Survey on the Influence of Popular Preprocessing Methods on Transformers and Traditional Classifiers. Information Systems 121: 102–342.

Subramaniam L.V., Roy S., Faruquie T.A., Negi S. (2009) A Survey of Types of Text Noise and Techniques to Handle Noisy Text. In: Proceedings of The Third Workshop on Analytics for Noisy Unstructured Text Data. Barcelona: ACM, pp. 115–122. DOI: 10.1145/1568296.1568315

Vaibhav V., Singh S., Stewart C., Neubig G. (2019) Improving Robustness of Machine Translation with Synthetic Noise. In: Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Minneapolis, Minnesota: ACL, pp. 1916–1920.

Wang H., Ma G., Yu C., Cui N. et al. (2023) Are Large Language Models Really Robust to Word-Level Perturbations? Режим доступа: https://arxiv.org/pdf/2309.11166v1 (дата обращения: 15.01.2025).

Дата поступления в редакцию: 19.03.2025
Дата публикации: 20.04.2025