Плешакова Е.С., Гатауллин С.Т., Осипов А.В., Романова Е.В., Марунько А.С. —
Применение методов тематического моделирования в задачах распознавания темы текста для обнаружения телефонного мошенничества
// Программные системы и вычислительные методы. – 2022. – № 3.
– 和。 14 - 27.
DOI: 10.7256/2454-0714.2022.3.38770
URL: https://e-notabene.ru/itmag/article_38770.html
阅读文章
注释,注释: Интернет возник как мощная инфраструктура для всемирной коммуникации и взаимодействия людей. Некоторое неэтичное использование этой технологии спам, фишинг, тролли, киберзапугивание, вирусы вызвало проблемы при разработке механизмов, гарантирующих доступные и безопасные возможности ее использования. В настоящее время проводится множество исследований обнаружения спама, фишинга. Выявление телефонного мошенничества стало критически важным, поскольку влечет огромные потери. Алгоритмы машинного обучения и обработки естественного языка используются для анализа огромного количества текстовых данных.
Выявление мошенников производится с применением интеллектуального анализа текста и может быть реализовано путем анализа терминов слова или фразы. Одной из сложных задач является разделение этих огромных неструктурированных данных на кластеры. Для этих целей существует несколько моделей тематического моделирования. В данной статье представлено применение этих моделей, в частности LDA, LSI и NMF. Сформирован набор данных. Проведен предварительный анализ данных и построены признаки для моделей в задаче по распознаванию темы текста. Рассмотрены подходы извлечения ключевых фраз в задачах распознавания темы текста. Приведены ключевые понятия этих подходов. Показаны недостатки этих моделей, предложены направления по улучшению алгоритмов обработки текстов. Проведена оценки качества моделей. Усовершенствованы модели благодаря подбору гиперпараметра и изменению функции предобработки данных.
Abstract: The Internet has emerged as a powerful infrastructure for worldwide communication and human interaction. Some unethical use of this technology spam, phishing, trolls, cyberbullying, viruses caused problems in the development of mechanisms that guarantee affordable and safe opportunities for its use. Currently, many studies are being conducted to detect spam and phishing. The detection of telephone fraud has become critically important, as it entails huge losses. Machine learning and natural language processing algorithms are used to analyze a huge amount of text data.
Fraudsters are identified using text mining and can be implemented by analyzing the terms of a word or phrase. One of the difficult tasks is to divide this huge unstructured data into clusters. There are several thematic modeling models for these purposes. This article presents the application of these models, in particular LDA, LSI and NMF. A data set has been formed. A preliminary analysis of the data was carried out and signs were constructed for models in the task of recognizing the subject of the text. The approaches of keyword extraction in the tasks of text topic recognition are considered. The key concepts of these approaches are given. The disadvantages of these models are shown, and directions for improving text processing algorithms are proposed. The evaluation of the quality of the models was carried out. Improved models thanks to the selection of hyperparameters and changing the data preprocessing function.