Publications of Zenkov Andrei Viacheslavovich

Зенков А.В., Зенков М.А., Зенков Н.А. — Пелевин vs Сорокин: опыт стилометрического сопоставления // Филология: научные исследования. – 2024. – № 7. – 和。 130 - 141. DOI: 10.7256/2454-0749.2024.7.71169 URL: https://e-notabene.ru/fmag/article_71169.html

阅读文章

注释,注释: Настоящее исследование относится к квантитативной лингвистике. Рассмотрено применение нового количественного метода изучения авторского стиля литературных текстов. Метод основан на компьютерном анализе статистики числительных, встречающихся в текстах. Среди знаменательных частей речи именно числительные по своей природе наиболее легко поддаются количественному учёту. Применительно к художественному тексту, порожденному свободной фантазией, естественно предположить, что употребление числительных связано с психологическими особенностями автора, влияющими на результат творчества. Следовательно, манера использования числительных – это авторская особенность, позволяющая решать проблему авторства текста, изучать жанровые и стилистические особенности. Результаты анализа статистики числительных инвариантны относительно перевода текста на другой язык. Это позволяет при недоступности оригинального текста на данном языке воспользоваться его доступным переводом, а также количественно сопоставлять тексты авторов, творивших на нескольких языках. В нашем анализе учитываются количественные и порядковые числительные, выраженные как цифрами, так и словесно в разных словоформах. Компьютерная программа автоматически убирала из текста фразеологизмы и устойчивые сочетания, случайно содержащие числительные. Предварительно текст вручную очищается от числительных, не связанных с авторским художественным замыслом (пагинация, номера глав и т.п.). Впервые выполнен формальный количественный стилометрический анализ художественных произведений В.О. Пелевина и В.Г. Сорокина, в литературном стиле которых в рамках традиционного описательного филологического подхода находят немало общего. Для проверки методологии дополнительно включены в рассмотрение тексты четырёх подставных авторов. Обнаружено, что тексты Пелевина и Сорокина существенно различаются по использованию числительных. Полученные данные о встречаемости числительных в текстах подвергнуты иерархической кластеризации, правильно разделившей тексты в соответствии с авторством. Поскольку результаты применения кластерного анализа могут существенно зависеть от выбора метрики и метода кластеризации, а строго обосновать их выбор невозможно, испробованы различные разумные комбинации метрики и метода кластеризации. Оказалось, что при этом дендрограмма меняется лишь незначительно. Таким образом, результаты кластеризации оказались достаточно устойчивыми. Предложенный новый метод квантитативной лингвистики, основанный на анализе встречаемости числительных в (авторских) литературных текстах, способен успешно решать задачи стилометрии, связанные, в частности, с атрибуцией текстов.

Abstract: Our study is related to quantitative linguistics and focuses on the application of a new method for analyzing the author's style in literary texts. The method uses computer analysis of numerical data found in texts, including both cardinal and ordinal numerals, expressed both in numbers and verbally. Author used the program which automatically removed phraseological units and fixed combinations accidentally containing numerals. Before analysis, the text must be manually cleaned of numbers that do not contribute to the author's artistic vision, such as page numbers or chapter numbers. The analysis revealed that the use of numerals by an author in his/her texts is unique and individual, forming a characteristic feature that distinguishes texts by different authors. For the first time, a formal quantitative stylometric analysis is performed of the literary works by Victor Pelevin and Vladimir Sorokin – authors whose literary styles share many similarities when viewed through the lens of a traditional descriptive philological approach. To validate this methodology, we have also included the texts of four "impostor" authors in our analysis. It has been found that Pelevin's and Sorokin's texts differ significantly in their use of numerals. The data on occurrences of numerals in the texts were subjected to hierarchical clustering, which accurately divided the texts into groups based on their authorship. Since the clusterization results can be influenced by the choice of both metrics and clustering method, we tried various reasonable combinations of them to ensure the reliability of our results. Each time, the dendrogram would change only slightly. Thus, the clustering outcomes were found to be reliable. The proposed new method of quantitative linguistics, which is based on the analysis of numerals in literary texts, has the potential to successfully solve the stylometric problems, particularly related to the attribution of texts.