Рус Eng Cn 翻译此页面:
请选择您的语言来翻译文章


您可以关闭窗口不翻译
图书馆
你的个人资料

返回内容

利特拉
正确的文章链接:

语音中情绪的自动分类:方法和数据

Lemaev Vladislav Igorevich



119991, Russia, Moscow, Leninskie Gory, 1c51

vladzhkv98@mail.ru
Lukashevich Natal'ya Valentinovna

博士 技术科学



119991, Russia, Moscow, Leninskie Gory, 1s51, room 953

louk_nat@mai.ru

DOI:

10.25136/2409-8698.2024.4.70472

EDN:

WOBSMN

评审日期

14-04-2024


出版日期

21-04-2024


注解: 本研究的主题是在口语语音中自动识别情绪的任务中使用的数据和方法。 这项任务最近得到了很大的普及,主要是由于大量标记数据集的出现和机器学习模型的发展。 言语话语的分类通常基于6种原型情绪:愤怒,恐惧,惊讶,喜悦,厌恶和悲伤。 大多数现代分类方法都基于机器学习和使用自学习方法的transformer模型,特别是Wav2vec2.0,HuBERT和WavLM等模型,本文考虑了这些模型。 标注的英语和俄语情感语音数据集,特别是杜沙和RESD数据集作为数据进行分析。 作为一种方法,以比较Wav2vec2.0,HuBERT和WavLM模型在最近收集的情绪语音Dusha和RESD的俄罗斯数据集上的操作的形式进行了实验。 这项工作的主要目的是分析可用数据的可用性和适用性,以及识别俄语语言言语情感的方法,到目前为止,研究相对较少。 作为实验的一部分,俄罗斯数据集Dusha和RESD的情感分类质量获得了良好的结果。 根据精度指标,Dusha-0.8782数据集上的WavLM模型证明了最佳结果。 WavLM模型在RESD数据集上也获得了最佳结果,而使用精度指标在Dusha-0.81数据集上对其进行了初步训练。 高分类结果,主要是由于收集的杜沙数据集的质量和数量,表明俄语这一领域进一步发展的前景。


出版日期:

自然语言处理, 情绪识别, 语音识别, 机器学习, 变压器, Wav2vec, 休伯特, 波姆,波姆, 杜沙, 资源中心