Рус Eng Cn 翻译此页面:
请选择您的语言来翻译文章


您可以关闭窗口不翻译
图书馆
你的个人资料

返回内容

软件系统和计算方法
正确的文章链接:

构建内容聚合系统的方法研究

Kiryanov Denis Aleksandrovich

ORCID: 0000-0001-8502-8333

以D.F.Ustinov命名的军事学院波罗的海国立技术大学硕士学位

190005, Russia, Saint Petersburg, 1st Krasnoarmeyskaya str., 1

dennis.kiryanov@gmail.com

DOI:

10.7256/2454-0714.2022.1.37341

评审日期

18-01-2022


出版日期

08-02-2022


注解: 该研究的主题是构建信息聚合器体系结构的方法,提高此类系统的可伸缩性和性能的方法,减少源发布新内容与其在信息聚合器中出现副本之间延迟的方法。

在这项研究中,内容聚合器将意味着一个分布式,高负载的信息系统,以自动模式从各种来源收集信息,处理并以处理形式显示在特殊网站或移动应

特别关注内容聚合器的操作原理,例如:聚合的主要阶段和数据采样标准,聚合过程的自动化,数据处理技术及其复制的体积。

作者详细考察了内容聚合的主要科技问题,如网页抓取、模糊重复项的检测、汇总、更新聚合数据的策略制定等。

这项研究的主要成果是开发了内容聚合系统的高级架构。 该研究还提供了关于选择架构风格和特殊软件的基本建议,这些软件允许您构建这样的系统,例如分布式数据库管理系统和消息代理。

作者对该主题研究的额外贡献是对所研究的内容聚合系统的一些组件的体系结构的详细描述,例如网络爬虫和用于确定模糊重复的系统。

该研究的主要结论是,有必要从构建分布式系统的原则的角度来接近内容聚合系统的构建。 在这样的系统中,可以区分责任划分的三个逻辑部分:负责内容聚合的部分,执行数据处理的部分,即,解析、分组、分类、汇总等。,以及负责汇总信息呈现的部分。


出版日期:

内容聚合, 分布式系统架构, 内容聚合, 网络爬行, 分布式系统架构, 网络爬行, 模糊重复的定义, 模糊重复的定义, 内容聚合的阶段, 内容聚合的阶段, 数据抽样标准, 数据采样标准, 总结,总结, 总结,总结, 高负荷系统, 高负荷系统, 泊松过程, 泊松过程, 微服务架构, 微服务架构