文章的正确链接:
Лю М., Шао Ц., Се Г..
Автоматизированный перевод политического дискурса: от больших языковых моделей к мультиагентной системе MAGIC-PTF
// 利特拉.
2024. № 11.
和。 28-46.
DOI: 10.7256/2409-8698.2024.11.72197 EDN: GFRZMO URL: https://cn.nbpublish.com/library_read_article.php?id=72197
注释,注释:
本研究致力于利用BAM优化技术和多代理方法将中国政治话语自动翻译成俄语的问题。 重点是MAGIC-PTF系统的开发,该系统通过四个专门代理的交互实现了多阶段文本处理的原理。 该系统的一个关键组件是一个造型师代理,它确保了风格的一致性和术语的准确性的翻译基础上,一个专门训练的BYAM。 翻译代理执行主要的翻译工作,并负责文本的最终设计。 代理编辑对翻译进行多层次的验证和更正,同时考虑到语言、语义和文化方面。 代理读者从目标受众的角度分析文本,评估母语为俄语的人对文本的看法。 研究的主题也是代理人之间的相互作用机制和在多阶段文本处理系统中优化翻译质量的过程。 该方法基于BAM优化技术和多代理方法的整合,使用基于集合"关于公共行政"第四卷的材料及其正式翻译成俄语的实验测试。 该研究包括使用COMET metrics对系统有效性的全面分析,以及与现有机器翻译平台的对比测试。 该研究的科学新颖性在于为使用BAM解决专业化翻译问题创造了一种综合方法,并开发了一种有效的机制,用于协调翻译过程中的智能代理。 实验研究证明了MAGIC-PTF在关键参数方面优于传统机器翻译系统:术语转移的准确性,文体一致性,政治话语文化特定元素的保存。 使用COMET度量进行自动测量的结果证实了所提出方法的有效性。 开发的系统为政治话语的自动翻译开辟了新的机会,可以适应翻译其他类型的专业文本,这证实了其对现代翻译技术发展的重要性。 特别有价值的是能够扩展系统并使其适应不同的语言对和话语类型,这为专业文本的自动翻译的进一步发展创造了前景。 研究结果也为专业翻译领域使用BYAM的理论和实践的发展做出了重要贡献。
关键词:
大型语言模型, 多代理方法, 政治话语, 中文-俄文翻译, LLM优化技术, 智能代理, 自动翻译, 专业翻译, 跨文化交流, 机器翻译
文章的正确链接:
Жикулина К.П., Костромина В.В..
Вычислительная креативность генеративной сети Midjourney в полимодальном пространстве
// 利特拉.
2024. № 6.
和。 1-16.
DOI: 10.7256/2409-8698.2024.6.70890 EDN: COCFNP URL: https://cn.nbpublish.com/library_read_article.php?id=70890
注释,注释:
本文探讨了神经网络计算创造力领域的多态空间。 我们研究的对象是一个多态环境,它结合了一系列异构代码来表达一个共同的想法,主题是在生成式Midjourney网络中使用文本和语音软件创建多态数字艺术 该研究的目的是证明机器中的计算创造力可以根据创建图像过程中迭代的结果来检测和描述,这反过来将使我们能够将复杂的多态系统作为单独的 在本研究框架内解决的任务:1)在神经网络数字艺术中计算创造力的背景下使用多态术语的理由;2)用生成的Midjourney网络进行一系列测试,以便能够描述口头和视觉内容;3)在数据总结和转换创造力方面分析和推导图像创建算法。 我们使用连续抽样方法来收集语言单位,因为它们发生;上下文分析系统地描述存在的言语和非言语成分。 有必要对Midjourney生成网络进行实验,以在创建图形空间时识别模式,然后将迭代的结果与原始图像进行比较和对比。 科学上的新颖性在于缺乏对神经网络背景下的多态空间及其生成能力的研究。 在实验过程中,我们获得了以下结果:在生成式Midjourney网络及其"数字艺术"的背景下,术语"多态性"是由于存在三个通道:口头,视觉和声音(声音);测试表明,神经网络通过promt创图像创建用户以前没有假设的新图像(想法)出现。
关键词:
人工智能, 计算创造力, 变革性创造力, 神经网络, 米德乔尼, 多态空间, 多态文本, 迭代, 普罗特, 总结,总结
文章的正确链接:
Голиков А.А., Акимов Д.А., Данилова Ю.Ю..
Оптимизация традиционных методов определения сходства наименований проектов и закупок с использованием больших языковых моделей
// 利特拉.
2024. № 4.
和。 109-121.
DOI: 10.7256/2409-8698.2024.4.70455 EDN: FRZANS URL: https://cn.nbpublish.com/library_read_article.php?id=70455
注释,注释:
研究的主题是分析和改进使用大型语言模型确定项目名称与采购信息内容相关性的方法。 该研究的对象是一个数据库,其中包含从公开来源收集的电力行业领域的项目和采购名称。 作者详细考察了主题中使用TF-IDF和余弦相似性度量进行初级数据过滤等方面,并详细描述了GigaChat、GPT-3.5和GPT-4等大型语言模型在文本数据匹配任务中的 特别注意基于引入到大型语言模型的prompta中的反射来澄清名称相似性的方法,这使得可以增加数据比较的准确性。 该研究使用TF-IDF和余弦相似性方法进行初级数据分析,以及大型GigaChat,GPT-3.5和GPT-4语言模型,用于详细验证项目名称和购买的相关性,包括模型prompta中的反 该研究的新颖之处在于开发了一种确定项目名称和购买相关性的组合方法,将处理文本信息的传统方法(TF-IDF,余弦相似性)与大型语言模型的能力相 作者对该主题研究的一个特殊贡献是通过使用具有优化prompta的gpt-3.5和GPT-4模型澄清初级选择的结果来提高数据比较准确性的拟议方法,包括反射。 该研究的主要结论是确认在采购过程和项目实施的信息支持任务中使用已开发方法的前景,以及将所获得的结果用于发展经济各部门的文本数据挖掘系统的可能性。 该研究表明,使用语言模型可以将F2度量值提高到0.65,这表明与基本方法相比,数据比较质量有显着提高。
关键词:
TF-IDF, 余弦相似性, 大型语言模型, 吉加卡特, GPT-4, 文本数据分析, 普罗普塔的反思, 确定相关性, 项目和采购, 优化业务流程
文章的正确链接:
Лемаев В.И., Лукашевич Н.В..
Автоматическая классификация эмоций в речи: методы и данные
// 利特拉.
2024. № 4.
和。 159-173.
DOI: 10.7256/2409-8698.2024.4.70472 EDN: WOBSMN URL: https://cn.nbpublish.com/library_read_article.php?id=70472
注释,注释:
本研究的主题是在口语语音中自动识别情绪的任务中使用的数据和方法。 这项任务最近得到了很大的普及,主要是由于大量标记数据集的出现和机器学习模型的发展。 言语话语的分类通常基于6种原型情绪:愤怒,恐惧,惊讶,喜悦,厌恶和悲伤。 大多数现代分类方法都基于机器学习和使用自学习方法的transformer模型,特别是Wav2vec2.0,HuBERT和WavLM等模型,本文考虑了这些模型。 标注的英语和俄语情感语音数据集,特别是杜沙和RESD数据集作为数据进行分析。 作为一种方法,以比较Wav2vec2.0,HuBERT和WavLM模型在最近收集的情绪语音Dusha和RESD的俄罗斯数据集上的操作的形式进行了实验。 这项工作的主要目的是分析可用数据的可用性和适用性,以及识别俄语语言言语情感的方法,到目前为止,研究相对较少。 作为实验的一部分,俄罗斯数据集Dusha和RESD的情感分类质量获得了良好的结果。 根据精度指标,Dusha-0.8782数据集上的WavLM模型证明了最佳结果。 WavLM模型在RESD数据集上也获得了最佳结果,而使用精度指标在Dusha-0.81数据集上对其进行了初步训练。 高分类结果,主要是由于收集的杜沙数据集的质量和数量,表明俄语这一领域进一步发展的前景。
关键词:
自然语言处理, 情绪识别, 语音识别, 机器学习, 变压器, Wav2vec, 休伯特, 波姆,波姆, 杜沙, 资源中心
文章的正确链接:
Жикулина К.П..
Алисины сказки: трансформация структуры, сказочных формул и контекстов у голосового помощника в навыке «Давай придумаем»
// 利特拉.
2024. № 2.
和。 45-64.
DOI: 10.7256/2409-8698.2024.2.69760 EDN: AQYOMS URL: https://cn.nbpublish.com/library_read_article.php?id=69760
注释,注释:
研究的主题是爱丽丝的语音助手在与用户一起创作童话时自发产生的文本,对象是利用人工智能技术在语言元素和意义的选择方面的结构、童话公式和背景的转变。 特别关注的是"让我们弥补"技能,该技能在2023的春天开始提供给用户。 时空连续体,这是由系统从童话的创作一开始就创建的,也被单独考虑在"团队"部分,用户被要求选择来自不同时代,文化和宇宙(文学,媒体)的人物。 民间传说大炮与21世纪现实的碰撞和互动引起了对与语音助手一起扮演讲故事者角色的互动机会的模棱两可的反应。 主要的研究方法是连续样本,用于在创建童话情节时分发步骤,阶段和动作。 此外,还使用了比较方法和上下文分析。 为了获得数据和随后的组件分析,对来自Yandex的Alice语音扬声器进行了语言实验并描述。 神经网络语言模型的快速发展使我们能够谈论所研究材料的科学新颖性,因为这一领域尚未开发并且正在被修改得太快。 重要的是要强调,迄今为止,尚未研究自发产生的童话故事的文本,其结构划分以及其中的童话故事公式与民间传说的对应关系。 该研究的主要结论是,用户在用爱丽丝的语音助手创建童话故事中的份额被大大夸大了。 没有找到童话公式的转换,如开始和结束。 这是不可能创建一个说法,如果你遵循嵌入在语音助手的汇编算法。 叙事逻辑、语境扭曲和本地化在自发生成的文本中占重排的最大份额。
关键词:
人工智能, 爱丽丝的语音助手, 神经网络, 吉普提, 童话的结构, 神话般的公式, 上下文环境, [医]计时镜, 自发文本生成, 通讯
文章的正确链接:
Жикулина К.П..
Siri и навык кодирования личностных смыслов в контексте английского речевого этикета
// 利特拉.
2023. № 12.
和。 338-351.
DOI: 10.25136/2409-8698.2023.12.69345 EDN: KZVBFU URL: https://cn.nbpublish.com/library_read_article.php?id=69345
注释,注释:
研究的主题是在英语交流公式的背景下,在问题或问候问题中个人意义的内容。 研究的对象是Siri语音助手模拟与人的自发对话以及人工智能对自然语音的适应的能力。 该研究的目的是确定Siri语言技能在用英语与用户沟通的过程中的特征和水平。 在两种类型的通信中存在的理解问题等方面被详细考虑:1)人与人之间;2)机器与人之间;人工智能在回答"你好吗?";确定语音助理的反应水平和演讲潜力。 在工作中使用了以下方法:描述性,比较性,上下文性,连续抽样和语言实验。 科学上的新颖之处在于,与理解Siri语音助手的个人含义相关的问题从未在语言学和语言学中进行过详细研究。 由于语音系统在社会和公共生活的各个领域的广泛使用,因此需要在语音助理和用户之间的对话中分析语音中的错误并描述通信故障。 获得的材料将使我们能够确定人工智能在21世纪的作用和地位,并对其进一步的语言发展做出预测。 该研究的主要结论是:1)机器无法根据过去印象的经验生成答案;2)Siri回应中与英语言语礼仪规范的偏差是微不足道的,但往往导致沟通失败;3)在回应中发现了个人意义的片面编码:从机器到人,但不是相反。
关键词:
语音助理, Siri的, 人工智能, 个人意义, 通讯, 对话, 英语演讲礼仪, 编码, 口语, 可持续的沟通模式
文章的正确链接:
Голиков А.А., Акимов Д.А., Романовский М.С., Тращенков С.В..
Аспекты создания корпоративной вопросно-ответной системы с использованием генеративных предобученных языковых моделей
// 利特拉.
2023. № 12.
和。 190-205.
DOI: 10.25136/2409-8698.2023.12.69353 EDN: FSTHRW URL: https://cn.nbpublish.com/library_read_article.php?id=69353
注释,注释:
本文介绍了使用生成式预训练语言模型构建企业问答系统的各种方法。 当前生成式预训练语言模型的一个显着限制是对输入令牌数量的限制,这不允许它们"开箱即用"处理大量文档或处理大文档。 为了克服这一限制,本文考虑了基于目前最流行的两个开源解决方案–Haystack和LlamaIndex框架的文档索引以及随后的搜索查询和响应生成。 已经表明,与开源LlamaIndex框架相比,使用具有最佳设置的开源Haystack框架可以让您在构建企业问答系统时获得更准确的答案,但是,需要平均使用多个令牌。 本文使用比较分析来评估在使用Haystack和Llamaindex框架的企业问答系统中使用生成式预训练语言模型的有效性。 所获得的结果的评估使用EM(精确匹配)度量进行。 使用生成式预训练语言模型创建问答系统的研究的主要结论是: 1。 就使用的令牌数量而言,使用分层索引目前非常昂贵(对于分层索引,大约160,000个令牌,而对于顺序索引,平均30,000个令牌),因为响应是通过顺序处理父节点和 2. 使用具有最佳设置的Haystack框架处理信息可以让您获得比使用LlamaIndex框架(具有最佳设置的0.7与0.67)更高的答案准确性。 3. 使用Haystack框架在响应的准确性方面更具不变性,就块中的令牌数量而言。 4. 平均而言,使用Haystack框架在令牌数量方面(约为4倍)比LlamaIndex框架更昂贵。 5. LlamaIndex框架的"create and refine"和"tree summarize"响应生成模式在收到的响应的准确性方面大致相同,但是,"tree summarize"模式需要更多令牌。
关键词:
生成语言模型, 信息搜索引擎, 问答系统, 索引, 干草堆, [医]LlamaIndex, 块,块, 准确度, 令牌, 猎犬,猎犬
文章的正确链接:
Майкова Т.А..
К вопросу о применимости концепции единица перевода к машинному переводу
// 利特拉.
2023. № 12.
和。 352-360.
DOI: 10.25136/2409-8698.2023.12.69470 EDN: LAWSMV URL: https://cn.nbpublish.com/library_read_article.php?id=69470
注释,注释:
本文结合现代对机器翻译的看法和孤立单元的大小对翻译质量的影响,探讨了翻译单元理论概念对机器翻译的适用性。 尽管现代机器翻译系统提供了可接受的质量水平,但一些主要与文本结构组织有关的问题仍未解决。 因此,本文的目的是根据翻译单元概念的适用性和定义其边界来研究现有的机器翻译系统。 文章对翻译单位的理论和翻译概念的现代解释以及分离翻译单位的方法进行了综述。 特别关注翻译单元概念的内容是否根据研究对象是最终文本还是翻译过程而变化的问题。 提出了语言对比较分析和TAP协议等面向文本和面向过程的研究方法的问题。 基于对现有机器翻译模型的概述,对每个机器翻译模型进行分析,以回答是否可以为给定系统定义翻译单元及其尺寸的问题。 结论是,在翻译研究的面向文本和面向过程的方法框架内,翻译单元可以被视为分析单元或处理单元。 翻译单位具有动态特性,影响翻译文本的质量。 在机器翻译框架内,作为分析单元的翻译单元不适用于基于概率非语言方法的系统。 对于基于规则的机器翻译系统,翻译单元概念的两种解释都适用。 在此类系统中,分析单元的概念是指可由系统识别的源文本片段的类型,而处理单元是指翻译算法如何影响分析的源文本以创建翻译文本,而被隔离的 因此,至少有一种类型的翻译问题–文本内连接的解决-在机器翻译发展的现阶段没有找到解决方案。
关键词:
转移单位, 机器翻译, 分析单位, 处理小组, TAP协议, 比较分析, 按规则翻译, 统计机器翻译, 神经机器翻译, 混合系统
文章的正确链接:
Зарипова Д.А., Лукашевич Н.В..
Автоматизированное создание семантически размеченного корпуса словосочетаний
// 利特拉.
2023. № 11.
和。 113-125.
DOI: 10.25136/2409-8698.2023.11.44007 EDN: QRBQOI URL: https://cn.nbpublish.com/library_read_article.php?id=44007
注释,注释:
自动解决歧义的任务是语义文本分析的第一个也是关键阶段。 它包括在上下文中选择一个多义词的含义,甚至对人类注释者也会造成困难。 为了训练和测试基于机器学习的模型,以展示最高质量的指标,需要大量具有语义标记的数据。 通过数值手动标记结果证明是耗时的、昂贵的并且需要大量时间。 因此,开发和测试自动和半自动语义标记的方法非常重要。 此类标记的可能信息来源包括语义相关的单词以及包含该单词的搭配。 本研究的主题是语义标记的搭配语料库。 这项工作的目的是开发和测试一种基于同义词库中相关单词的信息自动生成这种语料库的方法。 本研究的主要方法是语料库方法,并使用Python编程语言进行了一些实验作为研究的一部分。 本文描述了基于俄语材料的语义标记的搭配语料库的自动创建过程。 为了解决词在搭配中的歧义,使用了基于RuWordNet同义词库的相关词。 相同的同义词库充当库存值的来源。 词库中的相关词对该词的一个或另一个含义进行投票,然后使用不同的方法对其投票进行权衡。 所描述的方法使得能够实现80%的F1度量并且向语料库中添加约23%的具有未识别的歧义的搭配。 在自动模式下创建的语义标记搭配语料库将简化标记数据的准备,用于训练和评估自动解决歧义的模型,并且还可以用作基于知识的模型中的知识源。 因此,在自动模式下创建标记搭配语料库,包括俄语,似乎是一个有前途的研究领域。
关键词:
自动语言处理, 自动语义分析, 自动歧义解决, 语义标记, 案例的自动生成, 短语语料库, 价值清单, 语义相关的词, N.句法,句法, 同义词库