Рус Eng Cn 翻译此页面:
请选择您的语言来翻译文章


您可以关闭窗口不翻译
图书馆
你的个人资料

返回内容

软件系统和计算方法
正确的文章链接:

主题建模方法在检测电话欺诈的文本主题识别任务中的应用

Pleshakova Ekaterina Sergeevna

ORCID: 0000-0002-8806-1478

博士学位 技术科学

联邦国家教育预算高等教育机构"俄罗斯联邦政府下的金融大学"信息安全系副教授

125167, Russia, Moscow, 4th Veshnyakovsky Ave., 12k2, building 2

espleshakova@fa.ru
Gataullin Sergei Timurovich

博士学位 经济学

联邦国家教育预算高等教育机构"俄罗斯联邦政府下的金融大学"信息技术学院副院长

8A Aviamotornaya str., Moscow, 111024, Russia

stgataullin@fa.ru
Osipov Aleksei Viktorovich

博士学位 物理和数学

联邦国家教育预算高等教育机构"俄罗斯联邦政府下的金融大学"信息安全系副教授

125167, Russia, Moscow, 4th veshnyakovsky str., 4, building 2

avosipov@fa.ru
Romanova Ekaterina Vladimirovna

博士学位 物理和数学

俄罗斯联邦政府下属金融大学数据分析与机器学习系副教授

125167, Russia, Moscow, 49/2 Leningradsky Ave.

EkVRomanova@fa.ru
Marun'ko Anna Sergeevna

俄罗斯联邦政府金融大学数据分析与机器学习系学生

49/2 Leningradskiy Prospect str., Moscow, 125167, Russia​

marunko94@gmail.com

DOI:

10.7256/2454-0714.2022.3.38770

EDN:

RPLSLQ

评审日期

09-09-2022


出版日期

16-09-2022


注解: 互联网已经成为全球通信和人类互动的强大基础设施。 这种技术的一些不道德的使用-垃圾邮件,网络钓鱼,巨魔,网络欺凌,病毒-在保证其使用的负担得起和安全机会的机制的开发中造成了问题。 目前,正在进行许多研究来检测垃圾邮件和网络钓鱼。 电话欺诈的检测变得至关重要,因为它会带来巨大的损失。 机器学习和自然语言处理算法用于分析大量文本数据。
欺诈者使用文本挖掘来检测,可以通过分析单词或短语的术语来实现。    其中一项艰巨的任务是将这些庞大的非结构化数据划分为集群。 有几个主题建模模型用于这些目的。 本文介绍了这些模型的应用,特别是LDA,LSI和NMF。 已形成数据集。 对数据进行了初步分析,并建立了识别文本主题的模型标志。 考虑了在识别文本主题的任务中提取关键短语的方法。 给出了这些方法的关键概念。 显示了这些模型的缺点,并提出了改进文本处理算法的方向。 进行了模型质量的评价。 通过选择超参数和更改数据预处理功能,改进了模型。


出版日期:

自然语言处理, 资讯保安, 机器学习, 文本分析, LDA, LSI, NMF, 主题建模, 电话诈骗, 网络钓鱼