Рус Eng Cn 翻译此页面:
请选择您的语言来翻译文章


您可以关闭窗口不翻译
图书馆
你的个人资料

返回内容

历史期刊:科学研究
正确的文章链接:

基于过渡频率统计的父系文本作者身份自动独立于语言的分析

Fominykh Stanislav Vladimirovich

第一类工程师,JSC NPK NIIDAR

8 Marta ulitsa, 10, Moscow 117623 Russia

phominykh-vv@mail.ru

DOI:

10.7256/2454-0609.2017.5.23699

评审日期

26-07-2017


出版日期

02-11-2017


注解: 本文介绍了一种独立于语言的自动作者身份分析算法的应用,该算法基于对从二世纪到十二世纪用古希腊文写作的父权制作者的两个字母组合的过渡频率的统计。 分析文本的作者身份是基于与各种作者的参考文本的给定距离的接近度来确定的。 距离是根据一些双字母组合到其他组合的过渡频率计算的。 讨论了算法精度对分析文本和每个被指控作者的参考文本大小的依赖性。 通过重复滑动控制k块的方法进行测试,并分别对3位作者的35篇选定文本进行测试。 提出了对算法的修改,在某些情况下给出了更好的测试数据结果。 结论是关于所描述的算法的足够高的精度以及其应用于解决实际问题的可能性。 作为使用示例,描述了svt之间的文本De creatione hominis sermo1,2(CPG3215,3216)的作者身份的定义。 由罗勒伟大和svt。 尼萨的格雷戈里。


出版日期:

罗勒大帝, 尼萨的格雷戈里, 作者身份的定义, 文本传输, 自然语言处理, 计算统计数字, 统计分析, 拜占庭研究, 父权制, 历史计算机科学