元数据

article/2025/8/26 11:22:21

一、简介

(一)概念

元数据是描述数据的数据,主要用于描述数据属性(property)的信息,包括数据存储位置、历史数据、资源查找、文件记录等功能。
在这里插入图片描述

(二)来源

随着信息技术发展,用户需求也在不断发生变化,如何构造一个随着需求改变而平滑变化的软件,是软件工程领域一个重要问答题,传统考文档的方式是云云不够的。平滑变化的核心是数据能够平滑,即当前所谓的元数据。元数据可以整合整个业务的工作流、数据流和信息流,使得系统不依赖特定的开发人员,从而实现系统可扩展性。

(三)历史

传统针对数据的管理,包括几类:
1.数据建模:power designer、Rational rose
2.数据转换:kettle、datastage
3.数据展示:cognos、finebi
4.元数据存储:微软 Repository,Ardent MetaStage
5.元数据管理工具:IBM MetaStage,Pentaho Metadata,MetaCube
所有针对这种需求改变平滑变化的系统,都是单一性质的工具性居多,整体性的方案偏少,当前市面上的元数据管理兼容自身,第三方就有点吃力。

(四)作用

数据仓库把所需的数据仓库工具集成在一起,完成数据的抽取、转换和加载,OLAP分析和数据挖掘等。如下图所示,它的典型结构由操作环境层、数据仓库层和业务层等组成。
在这里插入图片描述

第一层(操作环境层)是指整个企业内有关业务的OLTP系统和一些外部数据源;第二层是通过把第一层的相关数据抽取到一个中心区而组成的数据仓库层;第三层是为了完成对业务数据的分析而由各种工具组成的业务层。
图中左边的部分是元数据管理,它起到了承上启下的作用。具体作用如下:
1.元数据是数据集成的重要基石
在这里插入图片描述

在实际数据集成建设过程过,现行建设数据集市,再建设数据仓库。但由于数据集市过多,导致出现蜘蛛网的问题,元数据管理是解决蜘蛛网问题的关键。
2.元数据拉近数据与用户的关系
传统数据管理对于潜在用户极为不友好,元数据可以准确翻译“业务模型”与数据模型及其关系,帮助用户快速理解和使用数据。
3.元数据是提升数据质量的利器
元数据管理系统可以协助用户掌握数据的来龙去脉,细化至数据抽取、转换等多方位的信息,利用这部分信息,用户可以快速定位问题以及解决问题。
4.元数据可以平滑变化
数据往往是整个信息化系统的核心,配合成熟的工作流等技术,可以使得系统不依赖与某个开发人员,提升整体信息化建设的可扩展性。

二、元数据类型

元数据类型可按照不同的维度划分。
1、 技术元数据。开发和管理数据仓库的IT人员使用,描述与数据仓库开发、管理和维护相关的数据,包括数据源信息、数据转换描述、数据仓库模型、数据清洗与更新规则、数据映射和访问权限等。
2、 业务元数据。管理层和业务分析人员使用,从业务角度描述数据,包括商务术语、数据仓库中有什么数据、数据的位置和数据的可用性等,帮助业务人员更好地理解数据仓库中哪些数据是可用的以及如何使用。
3、 管理过程元数据指描述管理领域相关的概念、关系和规则的数据,主要包括管理流程、人员组织、角色职责等信息。

三、元数据结构

元数据结构可由多层次的结构划分:
1.内容结构。包括描述性元素、技术性元素、管理性元素、复用性元素。
2.句法结构。包括元素的分区分层分段组织结构、元素结构描述方法、DTD描述语言、元数据复用方式、与被描述对象的捆绑方式。
3.语义结构。包括元素内容编码规则定义、元素定义、元素语义概念关系、元数据版本管理。

四、元数据管理

1.CWM
OMG是一个拥有500多会员的国际标准化组织,该组织于2001年3月,OMG颁布了CWM(Common Warehouse MetaModel)1.0标准。
CWM为数据仓库和商业智能(BI)工具之间共享元数据,制定了一整套关于语法和语义的规范。它主要包含以下四个方面的规范:
CWM元模型(Metamodel):描述数据仓库系统的模型;
CWM XML:CWM元模型的XML表示;
CWM DTD:DW/BI共享元数据的交换格式;
CWM IDL:DW/BI共享元数据的应用程序访问接口(API)。
2.元数据基础管理
元模型添加、删除、修改、发布等维护功能;元数据之间关系的建立、删除和跟踪等关系维护功能;元数据统计、元数据使用情况分析、元数据变更、元数据版本和生命周期管理等功能;元数据自身质量核查。

五、元数据应用

1.数据地图

数据地图展现是以拓扑图的形式对数据系统的各类数据实体、数据处理过程元数据进行分层次的图形化展现,并通过不同层次的图形展现粒度控制,满足开发、运维或者业务上不同应用场景的图形查询和辅助分析需要。

2、元数据分析

①血缘分析
血缘分析(也称血统分析)是指从某一实体出发,往回追溯其处理过程,直到数据系统的数据源接口。对于不同类型的实体,其涉及的转换过程可能有不同类型,如:对于底层仓库实体,涉及的是ETL处理过程;而对于仓库汇总表,可能既涉及ETL处理过程,又涉及仓库汇总处理过程;而对于指标,则除了上面的处理过程,还涉及指标生成的处理过程。数据源接口实体由源系统提供,作为数据系统的数据输入,其它的数据实体都经过了一个或多个不同类型的处理过程。血缘分析正是提供了这样一种功能,可以让使用者根据需要了解不同的处理过程,每个处理过程具体做什么,需要什么样的输入,又产生什么样的输出。
②影响分析
影响分析是指从某一实体出发,寻找依赖该实体的处理过程实体或其他实体。如果需要可以采用递归方式寻找所有的依赖过程实体或其他实体。该功能支持当某些实体发生变化或者需要修改时,评估实体影响范围。
③实体关联分析
实体关联分析是从某一实体关联的其它实体和其参与的处理过程两个角度来查看具体数据的使用情况,形成一张实体和所参与处理过程的网络,从而进一步了解该实体的重要程度。本功能可以用来支撑需求变更影响评估的应用。
④实体差异分析
实体差异分析是对元数据的不同实体进行检查,用图形和表格的形式展现它们之间的差异,包括名字、属性及数据血缘和对系统其他部分影响的差异等,在数据系统中存在许多类似的实体。这些实体(如数据表)可能只有名字上或者是在属性中存在微小的差异,甚至有部分属性名字都相同,但处于不同的应用中。由于各种原因,这些微小的差异直接影响了数据统计结果,数据系统需要清楚了解这些差异。本功能有助于进一步统一统计口径,评估近似实体的差异
⑤指标一致性分析
指标一致性分析是指用图形化的方式来分析比较两个指标的数据流图是否一致,从而了解指标计算过程是否一致。该功能是指标血缘分析的一种具体应用。指标一致性分析可以帮助用户清楚地了解到将要比较的两个指标在经营分析数据流图中各阶段所涉及的数据对象和转换关系是否一致,帮助用户更好地了解指标的来龙去脉,清楚理解分布在不同部门且名称相同的指标之间的差异,从而提高用户对指标值的信任。

3. 辅助应用优化

元数据对数据系统的数据、数据加工过程以及数据间的关系提供了准确的描述,利用血缘分析、影响分析和实体关联分析等元数据分析功能,可以识别与系统应用相关的技术资源,结合应用生命周期管理过程,辅助进行数据系统的应用优化.

4.辅助安全管理

企业数据平台所存储的数据和提供的各类分析应用,涉及到公司经营方面的各类敏感信息。因此在数据系统建设过程中,须采用全面的安全管理机制和措施来保障系统的数据安全。数据系统安全管理模块负责数据系统的数据敏感度、客户隐私信息和各环节审计日志记录管理,对数据系统的数据访问和功能使用进行有效监控。为实现数据系统对敏感数据和客户隐私信息的访问控制,进一步实现权限细化,安全管理模块应以元数据为依据,由元数据管理模块提供敏感数据定义和客户隐私信息定义,辅助安全管理模块完成相关安全管控操作。

5. 基于元数据的开发管理

数据系统项目开发的主要环节包括:需求分析、设计、开发、测试和上线。开发管理应用可以提供相应的功能,对以上各环节的工作流程、相关资源、规则约束、输入输出信息等提供管理和支持。

引用:
1.胤子,知乎,【收藏】关于元数据(Metadata)和元数据管理,这是我的见过最全的解读!,https://zhuanlan.zhihu.com/p/338658341
2.百度,百度,元数据,https://baike.baidu.com/item/%E5%85%83%E6%95%B0%E6%8D%AE/1946090?fr=aladdin
3.百度,百度,数据集市,https://baike.baidu.com/item/%E6%95%B0%E6%8D%AE%E9%9B%86%E5%B8%82/607135?fr=aladdin
4.马达Fumer,知乎,2.3 数据集市与数据仓库的区别,https://zhuanlan.zhihu.com/p/60038747
5.小黎子数据分析,知乎,数据仓库系列之元数据管理系统,https://zhuanlan.zhihu.com/p/111780742来源:知乎


http://chatgpt.dhexx.cn/article/afHCd7UE.shtml

相关文章

大数据之元数据

文章目录 一、元数据是什么?二、元数据是从哪里来?三、元数据分类四、元数据应用五、元数据管理六、元数据价值写在最后 一、元数据是什么? 歌曲《小芳》中有一段台词:“村里有个姑娘叫小芳,长得好看又善良”&#xff…

一文搞懂元数据

之前讲解数据相关的基本概念的文章,做数据产品,这五个概念一定要搞清楚提到了元数据。这篇文章将会展开细讲,主要分享我学习的过程,我的理解,以及对全过程的总结。 01 初识元数据,我被概念绕晕了 接触新概…

什么是元数据,如何管理和利用元数据?

随着企业信息化建设的不断深入,以及公司数字化型智能转型发展的需要,很多地方都需要做元数据建设与管理 。基于元数据可以开展各种各样的应用设计,比如企业级统一标准规范建设实施、统一的数据管理,统一的授权管理,统一…

数据元与元数据

元数据:描述其它数据的数据(data about other data) 元数据是关于数据的数据,在某些时候不特指某个单独的数据,可以理解为是一组用来描述数据的信息组/数据组,该信息组/数据组中的一切数据、信息&#xff…

什么是元数据(Metadata)

元数据(Metadat)   元数据(Metadata),可能又是一个困惑的中文译文。 【元】,会意字。从一,从兀。甲骨文字形。象人形。上面一横指明头的部位。 上一短横是后加上去的,依汉字造字规律,顶端是一横的,其上可加一短横。…

元数据是什么?如何管理元数据?

元数据是什么?如何管理元数据? 01 什么是元数据?02 元数据的类型1. 业务元数据2. 技术元数据3. 操作元数据 03 元数据管理的目标1. 建立指标解释体系2. 提高数据溯源能力3. 数据质量稽核体系 04 元数据管理的技术1. 元数据采集2. 元数据管理3…

加强防护,近期勒索病毒有点疯狂!

愈演愈烈的勒索病毒攻击 2021年5月7日,美国最大的成品油管道运营商在本月受到重大网络攻击。公司被迫一度关闭整个能源供应网络,极大影响美国东海岸燃油等能源供应。公司在当日缴纳了500万美元赎金。 紧接着,5月14日爱尔兰卫生服务执行局&am…

勒索病毒.[tsai.shen@mailfence.com].faust、.[support2022@cock.li].faust引起的数据被加密恢复

勒索病毒的危害 勒索病毒是最具破坏性和恐怖性的一种病毒。最近[tsai.shen@mailfence.com].faust勒索病毒、.[support2022@cock.li].faust勒索病毒引起了广泛的关注和担忧。 如果您的数据已被勒索软件加密,恢复数据的最可靠方法是使用备份。如果您有备份,可以将备份文件恢复…

勒索预警,近期一大波新型勒索病毒来袭

点击蓝字关注我们 目前勒索病毒仍然是全球最大的威胁,最近一年针对企业的勒索病毒攻击越来越多,大部分勒索病毒是无法解密的,一定要保持高度的重视,近期又有一大波新型勒索病毒来袭...... HildaCrypt勒索病毒 加密后的文件后缀名H…

勒索病毒危害,企业该如何预防勒索病毒

勒索病毒是一种恶意软件,它会对企业内的计算机系统或数据进行加密或锁定,并要求企业支付赎金以解锁或解密。 勒索病毒危害: 数据丢失:勒索病毒可以加密您的文件、照片、视频和其他重要数据,使其无法访问或恢复。如果…

查杀linux服务器木马,定时查杀病毒并隔离

接收到了阿里云服务器的安全告警,主要文件是 /usr/bin/.sshd, /root/aa,使用以下三种方法解决 一. 使用clamav (一)下载 下载方式: (1)下载压缩文件:wget http://www.clamav.net/downloads/…

保障出行安全|科力锐助力长沙黄花国际机场灾备建设

一、民航灾备建设背景 随着我国经济建设的发展,我国机场业已初具规模,机场数量不断提升,航班业务愈加繁忙,机场服务保证能力也在不断增强。为了衔接“空管全球一体化”的发展趋势,实现中国现代化民航系统的建设战略&a…

Mac OS X: 再续〉安全警告,病毒就在你身边

Mac OS X: 再续〉安全警告,病毒就在你身边 1. 沉重 这次心情很沉重!因为这个间谍软件居然和咱们中国又有着联系!联想到前些日子的Goolge对中国说不做恶,指责中国如何如何的,这些就不重复了,结果是那些外国…

暴力破解介绍

暴力破解介绍 1、原理说明 暴力破解即账号枚举,攻击者使用自己的用户名和密码字典,对目的服务器进行一个一个尝试登陆,主要字典足够强大,肯定就会猜解成功。尝试爆破成功后,为攻击者下一步渗透做准备。 2、危害说明 目…

Petya勒索病毒

Petya勒索病毒 1、原理说明 2017年6月27日晚,印度、俄罗斯、西班牙以及欧洲多国遭受大规模Petya勒索病毒袭击,该病毒远程锁定设备,并索要赎金。其中乌克兰地区受灾害最为严重,政府、银行、电力系统、通讯系统、企业等都受到不同…

服务器该怎么预防勒索病毒

场景描述 随着互联网飞速发展,各企业不论大小基本都搭建了属于自己公司的服务器。例如文件服务器、代码服务器、业务系统服务器、数据库服务器等。虽然服务器种类各有不同,但共同点都在于:是公司重要的数据中心。一旦被勒索病毒侵占&#xf…

MSF(Metaspolit)复现MS12-020蓝屏漏洞

什么是漏洞? 漏洞(Vulnerability)又叫脆弱性,这一概念早在1947年冯诺依曼建立计算机系统结构理论时就有涉及。 微软的RPC漏洞和蠕虫病毒 RPC接口中的缓冲区溢出冲击波蠕虫病毒——》席卷全球80%计算机 MS08-067漏洞Conficker&…

新型勒索病毒已经出现

今日一个使用Go语言编写的勒索病毒正在攻击国内企业。该勒索病毒会加密计算机中的重要文件,将文件后缀修改为“.locked”,索要赎金0.2BTC。我们根据其加密后缀将其称为“locked”勒索病毒。 0x1传播分析 黑客通过“永恒之蓝”漏洞入侵企业中的一台计算…

勒索病毒“顽疾”,没有“特效药”吗?

基础设施瘫痪、企业和高校重要文件被加密、毕业论文瞬间秒没……这就是六年前的今天,WannaCry勒索攻击爆发时的真实场景。攻击导致150多个国家数百万台计算机受影响,也让勒索病毒首次被全世界广泛关注。 六年后,勒索攻击仍是全球最严重的网络…

勒索病毒SARA,请勿用于非法用途。

大家好,我是ViciousSpider🕷,今天我和大家分享一个我在初中的时候玩的一个名为SARA的安卓勒索病毒,注意请勿用作违法行为。 1.我们在kali上面使用克隆命令来克隆这个项目git clone https://github.com/termuxhackers-id/SARA 然后…