Рус Eng Cn 翻译此页面:
请选择您的语言来翻译文章


您可以关闭窗口不翻译
图书馆
你的个人资料

返回内容

控制论与编程
正确的文章链接:

乌兹别克语词干提取算法的开发

Bakaev Ilkhom Izatovich



100124, Uzbekistan, respublika 100124, g. Tashkent, ul. M-V buz-2, 17A

bakayev2101@gmail.com

DOI:

10.25136/2644-5522.2021.1.35847

评审日期

01-06-2021


出版日期

09-06-2021


注解: 自然语言非结构化文本的自动处理是计算机分析和文本合成的迫切问题之一。 在其中,文本规范化的任务可以单独挑出,通常涉及标记化,词干化和词形化等过程的实现。 现有的词干提取算法主要集中在合成语言上,其中以词素为基础的整形占主导地位。 乌兹别克语是凝集语言的一个例子,其特征是多义词词缀和服务语素。 虽然乌兹别克语有许多不同之处,例如与英语,但它非常成功地适合通过词干算法进行处理。 迄今为止,几乎没有找到有效实现乌兹别克语言词干提取算法的例子,因此这个问题是科学感兴趣的主题,并确定了这项工作的目的。 在工作过程中,解决了将乌兹别克语指定文本恢复正常形式的任务,在标记化的初步阶段,标记为单词类型并清除停用词。 为了解决这个问题,开发了一种基于词干算法的乌兹别克语文本规范化方法。 在开发算法时,采用了混合方法,其基础是联合应用算法方法,语言规则词典和乌兹别克语正常形式单词数据库。 所提出的算法的精度取决于标记化算法的精度。 与此同时,这里没有考虑找到用空格分隔的成对单词的根的问题,因为这个问题直接在标记化阶段解决。 该算法可以集成到机器翻译、信息提取、信息检索等各种自动化系统中。


出版日期:

, , , , , , , , , , , , , , , , , , ,