Рус Eng Cn 翻译此页面:
请选择您的语言来翻译文章


您可以关闭窗口不翻译
图书馆
你的个人资料

返回内容

历史信息学
正确的文章链接:

使用模糊集校正历史源的OCR文本识别结果(以二十世纪初的报纸为例)

Galushko Il'ya Nikolaevich

罗蒙诺索夫莫斯科国立大学历史系历史信息学系硕士

119234, Russia, g. Moscow, ul. Lomonosovskii Prospekt, 27, korp.4

i.galushko15@gmail.com

DOI:

10.7256/2585-7797.2023.1.40387

EDN:

OCFBSP

评审日期

06-04-2023


出版日期

25-04-2023


注解: 我们的文章致力于尝试应用现代NLP方法来优化历史源的文本识别过程。 任何决定使用扫描文本识别工具的研究人员都将面临管道准确性(识别操作序列)的一些限制。 即使是训练有素的模型也会由于已经到达我们的来源的不令人满意的条件而产生显着的错误:切割,弯曲,斑点,擦除字母-所有这些都干扰了定性识别。 我们的假设是,使用一组预定义的单词来标记我们感兴趣的主题的存在,使用NLP库SpaCy中的模糊集模块,我们将能够从模板中恢复那些在识别过程的结果之后被错误识别的单词。 为了检查50期报纸"Birzhevye Vedomosti"样本的文本恢复过程的质量,我们计算了由于错误识别而不会包含在语义分析中的单词数量的估计。 所有指标都是使用模糊集模式计算的。 事实证明,平均而言,"交易所声明"的数量有938.9个字,标志着我们研究的主题–与证券交易和金融交易。 其中,平均87.2%的单词最初被正确识别。 大约119.6个单词(平均50个数字)包含与错误识别相关的拼写错误。 由于使用了模糊集算法,我们能够恢复这些单词并将其包含在语义分析中。 我们认为,填写与所研究主题潜在相关的12.8%的单词是一个很好的结果,显着提高了计算机建模方法对文本进行进一步语义分析的质量。


出版日期:

认识历史渊源, OCR修复, 模糊集, 自然语言处理, 文本预处理, 证券交易所报表, 列文斯坦距离, 内容分析, 主题建模, 历史报纸