Рус Eng Cn 翻译此页面:
请选择您的语言来翻译文章


您可以关闭窗口不翻译
图书馆
你的个人资料

返回内容

软件系统和计算方法
正确的文章链接:

基于CSV和JSON之间的元数据和依赖关系图的分析系统的数据存储格式

Alpatov Aleksey Nikolaevich

ORCID: 0000-0001-8624-1662



78 Prospekt Vernadskogo str., Moscow, 119454, Russia

aleksej01-91@mail.ru
Bogatireva Anna Alekseevna



111033, Russia, Moscow, 4A Tankovy ave., 24 sq.

pecherni@gmail.com

DOI:

10.7256/2454-0714.2024.2.70229

EDN:

TVEPRE

评审日期

25-03-2024


出版日期

01-04-2024


注解: 在现代信息社会中,数据量不断增长,其有效处理正成为企业的关键。 这些数据的传输和存储也起着至关重要的作用。 分析系统中使用的大数据通常以两种流行格式之一传输:结构化数据的CSV和非结构化数据的JSON。 但是,现有的文件格式对于某些数据分析任务可能不够有效或灵活。 例如,它们可能不支持复杂的数据结构或对元数据提供足够的控制。 或者,分析任务可能需要有关数据的附加信息,例如元数据、数据模式等。 基于上述内容,本研究的主题是基于CSV和JSON组合使用的数据格式,用于处理和分析大量信息。 提出了共享指定数据类型以实现新数据格式的选项。 为此,已经为数据结构引入了名称,其中包括CSV文件,JSON文件,元数据和依赖关系图。 描述了各种类型的函数,例如聚合、变换、过滤等。 给出了将这些函数应用于数据的示例。 所提出的方法是一种可以显着促进信息分析和处理过程的技术。 它基于一个正式的方法,允许您建立明确的规则和程序来处理数据,这有助于更有效地处理数据。 所提出的方法的另一个方面是确定选择最合适的数据存储格式的标准。 该标准基于信息论和熵的数学原理。 基于熵选择数据格式的标准的引入使得能够评估数据的信息内容和紧凑性。 这种方法基于对所选格式和反映每个数据值重要性的权重的熵计算。 通过比较entropies,可以确定所需的数据传输格式。 这种方法不仅考虑到数据的紧凑性,而且考虑到它们使用的上下文,以及在文件本身中包含额外元信息和支持准备进行分析的数据的可能性。


出版日期:

数据存储格式, JSON,JSON, CSV档案源, 分析就绪数据, 元数据, 资料处理, 数据分析, 数据格式的集成, 阿帕奇镶木地板, 大数据