Рус Eng Cn 翻译此页面:
请选择您的语言来翻译文章


您可以关闭窗口不翻译
图书馆
你的个人资料

返回内容

软件系统和计算方法
正确的文章链接:

神经机器翻译中的习语分析:一个数据集

Skacheva Nina Vasil'evna

ORCID: 0000-0003-2628-6767

西伯利亚国立科学技术大学高级讲师,以M.F.Reshetnev院士命名

660037, Russia, Krasnoyasky krai, Krasnoyarsk, Krasnoyarsk worker, 31

Sollo_sk@mail.ru

DOI:

10.7256/2454-0714.2024.3.71518

EDN:

JLJDSL

评审日期

19-08-2024


出版日期

05-10-2024


注解: 几十年来,公众各界一直在争论一台"机器是否可以取代一个人。"这也适用于翻译领域。 到目前为止,有些人正在争论,其他人正在"让梦想成真。"因此,现在越来越多的研究旨在改进机器翻译系统(以下简称MP)。 要了解MP系统的优点和缺点,首先有必要了解它们的算法。 目前,神经机器翻译(nmp)的主要开放问题是惯用语的翻译。 此类表达的含义不包括其组成词的含义,NMT模型倾向于从字面上(即逐字)翻译它们,这导致混淆和无意义的翻译。 由于缺乏自动方法,nmp中成语的研究受到限制和困难。 因此,尽管现代NMP系统产生越来越高质量的翻译,但成语的翻译仍然是这方面未解决的任务之一。 这是因为成语作为冗长表达的一类,当一个表达的一般意义不能由其部分的意义组成时,就代表了一种有趣的语言现象。 第一个重要问题是缺乏用于学习和评估成语翻译的特殊数据集。 在本文中,我们通过创建第一个翻译成语的大规模数据集来解决这个问题。 该数据集是从使用的德语翻译语料库中自动提取的,并包括其中所有句子都包含成语的目标集,以及其中包含成语的句子被标记的常规训练语料库。 我们已经发布了这个数据集,并正在使用它对NMP进行初步实验,作为改进成语翻译的第一步。


出版日期:

罗嗦的表达, 成语, 双语建筑, 机器翻译, 神经机器翻译, 德语, 俄语, 语言对, 系统, 数据集