【数据治理】数据元、元数据、主数据、参考数据概述

article/2025/8/25 10:03:04

【数据治理】数据元、元数据、主数据、参考数据概述

数据元

什么是数据元:

《GB/T 19488.1 电子政务数据元第1部分:设计和管理规范》 里是这样定义的:

数据元(Data element):又称数据类型,通过定义、标识、表示以及允许值等一系列属性描述的数据单元。在特定的语义环境中被认为是不可再分的最小数据单元。

举例说明:

语义环境:描述员工年龄的大小 age为数据元,“18“为数据元的值。

数据元一般来说由三部分组成:

  • 对象类:思想、概念或真实世界中的事物的集合,它们具有清晰的边界和含义,其特征和行为遵循同样的规则。
  • 特性:对象类中的所有成员共同具有的一个有别于其它的、显著的特征。
  • 表示:它描述了数据被表达的方式。

还是以前面的例子:

语义环境:描述员工年龄的大小 age为数据元,“18“为数据元的值。

对象是员工 ,特性是 年龄 age ,表示是 数值

语义环境:描述员工所属部门的编码 deptcode为数据元,“1001“为数据元的值。

对象是员工所属部门,特性是 编码 deptcode ,表示是 文本

元数据

什么是元数据

百度百科是这样定义的:

元数据(Metadata),又称中介数据、中继数据,为描述数据的数据,主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。

《DAMA数据管理知识体系指南》是这样定义的:

元数据最常见的定义是“关于数据的数据”。这个定义非常简单,但也容易引起误解。可以归类为元数据的信息范围很广,不仅包括技术和业务流程、数据规则和约束,还包括逻辑数据结构与物理数据结构等。它描述了数据本身(如数据库、数据元素、数据模型),数据表示的概念(如业务流程、应用系统、软件代码、技术基础设施),数据与概念之间的联系(关系)。元数据可以帮助组织理解其自身的数据、系统和流程,同时帮助用户评估数据质量,对数据库与其他应用程序的管理来说是不可或缺的。它有助于处理、维护、集成、保护和治理其他数据。

怎么理解呢?《DAMA数据管理知识体系指南》举了一个比较好理解的例子:

为了理解元数据在数据管理中的重要作用,试想一个大型图书馆中有成千上万的书籍和杂志,但是没有目录卡片。没有目录卡片,读者将不知道如何寻找一本特定的书籍甚至一个特定的主题。目录卡片不仅提供了必要的信息(图书馆拥有哪些书籍和资料以及它们被存放在哪里),还帮助读者可以使用不同的方式(主题领域、作者或者书名)来查找资料。如果没有目录,寻找一本特定的书将是一件十分困难的事情。一个组织没有元数据,就如同一个图书馆没有目录卡片。

面对数据总是会有以下的一些疑问:

  • **这个数据怎么来的?**谁创建的,谁更新的,从哪个系统来的…

  • **这个数据是什么?**数据的语义环境是什么,数据怎么存储的,数据的定位是什么…

  • **这个数据怎么用?**数据的应用场景是什么,有没有和其他系统共享,如果丢失会造成什么影响…

  • **这个数据怎么管理?**谁负责这个数据,这个数据怎么评定质量,谁有权访问这个数据…

为了更好的解决这些问题,从而使用元数据来记录数据相关的信息。

元数据的分类

元数据管理的范围将涵括数据产生、数据存储、数据加工和展现等各个环节的数据描述信息,帮助用户理解数据来龙去脉、关系及相关属性。按其描述对象的不同可以划分为三类元数据:业务元数据、技术元数据、和操作元数据

业务元数据

业务元数据(Business Metadata)主要关注数据的内容和条件,另包括与数据治理相关的详细信息。业务元数据包括主题域、概念、实体、属性的非技术名称和定义、属性的数据类型和其他特征,如范围描述、计算公式、算法和业务规则、有效的域值及其定义。业务元数据的示例包括:

1)数据集、表和字段的定义和描述。
2)业务规则、转换规则、计算公式和推导公式。
3)数据模型。
4)数据质量规则和检核结果。
5)数据的更新计划。
6)数据标准。
7)有效值约束。
8)数据的安全/隐私级别。

技术元数据

技术元数据(Technical Metadata)又可以分成结构性技术元数据和关联性技术元数据。结构性技术元数据提供了在信息技术的基础架构中对数据的说明,如数据的存放位置、数据的存储类型、数据的血缘关系等。关联性技术元数据描述了数据之间的关联和数据在信息技术环境之中的流转情况。技术元数据的示例包括:

1)物理数据库表名和字段名。
2)字段属性(数据类型)。
4)访问权限。
5)数据CRUD(增、删、改、查)规则。
6)物理数据模型,包括数据表名、键和索引。
7)记录数据模型与实物资产之间的关系。
8)ETL作业详细信息。
9)文件格式模式定义。
10)源到目标的映射文档。
11)数据血缘文档,包括上游和下游变更影响的信息。
12)程序和应用的名称和描述。
13)周期作业(内容更新)的调度计划和依赖。
14)恢复和备份规则。
15)数据访问的权限、组、角色。

操作元数据

操作元数据(Operational Metadata)主要是指与元数据管理相关的组织、岗位、职责、流程,以及系统日常运行产生的操作数据。操作元数据管理的内容主要包括:与元数据管理相关的组织、岗位、职责、流程、项目、版本,以及系统生产运行产生的操作记录,如运行记录、应用程序、运行作业。

1)批处理程序的作业执行日志。
2)抽取历史和结果。
3)调度异常处理。
4)错误日志。
5)报表和查询的访问模式、频率和执行时间。
6)补丁和版本的维护计划和执行情况,以及当前的补丁级别。
7)备份、保留、创建日期、灾备恢复预案。
8)数据归档、保留规则和相关归档文件。
9)清洗标准。
10)数据共享规则和协议。
11)技术人员的角色、职责和联系信息。

元数据应用

经过前面的介绍,大概对元数据有个初步的印象,可能接下来就要问了:元数据有什么用?

先引入一个场景:

假设有一天,我们需要对某一些业务信息指标做一个报表统计,用于前端的数据展示,这些业务信息可能来自于不同的表,通过不同的ETL过程到目标数据仓库,最后展示在一个报表中,如下图所示:

在这里插入图片描述

血缘分析

举例:

假设你在管理报表,有一天你发现有报表数据中 指标3 的数据异常,你需要找出错误的数据并提交流程修正,那么这个错误数据从何而来?一个个核对数据显然不够高效,那你就得知道这个报表的的指标来源,元数据的血缘分析能帮助你分析这个错误数据的上游路径。

查看元数据可以发现:

​ 指标3 是由数据集市的 B主题数据 经过ETL过程生成的 ,

​ B主题数据 又是 由 数据仓库中的table1 和 table 4经过ETL过程生成的

血缘分析是一种技术手段,用于对数据处理过程的全面追踪,从而找到某个数据对象为起点的所有相关元数据对象以及这些元数据对象之间的关系。元数据对象之间的关系特指表示这些元数据对象的数据流输入输出关系 。

由元数据构建的血缘分析,可以快速定位数据链路,明确ETL细节,缩小数据问题的范围。

影响分析

举例:

还接上面的例子,有一天你发现数据仓库的table2 数据错了,等你将table2数据更正后,此时你需要及时提醒大家这个数据的更正信息,只需要通知这个数据影响到的实体就可以了,然而整个报表流程的数据传递这么复杂,怎么判断哪些实体会受到这个数据的影响呢。

如果没有元数据,那我们可能需要遍历所有的脚本、数据。才能得到想要的答案;而如果有成熟的元数据管理,那我们就可以直接得到答案,节省大量时间。

数据地图

数据地图是一种图形化的数据资产管理工具,它提供了多层次的图形化展示,并具备各种力度控制能力,满足业务使用、数据管理、开发运维不同应用场景的图形查询和辅助分析需求。

为什么有数据地图:

如果公司的数据库里只有百十来张表,那基本上不需要啥数据地图,因为靠脑子就能全记住了。

但是,如果有好几个系统、几百张表,而且在数仓里还分了好多层,之间的关系错综复杂,谁能全部记得住啊?

这个数据地图主要解决这些问题:

​ 平台由多少数据资源?

​ 每个数据源由多少表、字段?

​ 这些表、字段里面都是什么内容?

​ 怎么获取这些数据?

为啥叫“数据地图”,其实就是借用了地图“找信息”的功能,意思是在“数据地图”功能中,能找到所有的数据。

数据地图不是跟百度地图、高德地图一样,而是跟ETL流程DAG一样的,或者直接是表格展示。 更简单的表格基本上就是库名、表名、元数据代码、字段名、数仓位置、上游 、下游、管辖单位、负责人等。

主数据

什么是主数据

《 主数据管理实践白皮书(1.0 版)》是这样定义的:

主数据(MDM:Master Data):指满足跨部门业务协同需要的、反映核心业务实体状态属性的组织机构的基础信息。主数据相对交易数据而言,属性相对稳定,准确度要求更高,唯一识别。

《数据管理知识体系 DMBOK1.0》 对主数据的定义:

主数据是关于业 务实体的数据,这些实体为业务交易提供关联环境。业务规则通常规定了主数据格式和允许的取值范围。主数据是关于关键业务实体的权威的、最准确的数据,可用于建立交易数据的关联环境。

从字面意思上可以理解成主要的数据,什么是主要的数据呢?在整个企业业务流程中起到关键作用,而且是比较常用的数据,在核心业务流程上产生的数据都是主数据,这么一解释可以发现主数据是可以检测企业发展是否健康的一种方式,但这么理解是有些偏差的。稍微严谨一点的定义就是主数据是整个企业中使用的核心、非交易性数据。请注意:这里指的是非交易性数据。举个例子,比如你在ERP系统中能够看到一些交易数据,比如订单产生的日期和编号、地点、金额、商品、用户、供货商、店铺之类的信息。那么这些信息中的产品、供货商、用户、地点这些都是主数据,也就是说参与到核心流程中的主体数据都是主数据,这些实体为业务交易和分析提供了上下文信息

那订单交易记录又算什么呢?这里其实又扩展出来了另外一种数据类型:交易数据,也就是这些实体数据结合在一起产生了事件活动记录,那么这个记录就属于交易数据。例如通话记录、销售记录等等事件。这样看起来好像主数据是嵌入到了交易数据中了,但是主数据相对交易数据来说的话,属性是相对稳定的,而且可信度要求高,需要做到唯一识别 。

主数据的特点

根据主数据的定义,可以总结出以下的特点:

**(1)共享性:**主数据满足跨部门、跨系统、业务协调需要的共享数据

**(2)高价值:**因为主数据是跨部门、跨系统、多业务需要的,所以比一般的数据,价值更高

**(3)变化慢:**由于主数据是跨部门、跨系统的共享数据,反映核心业务实体的基本信息,其属性是相对稳定的

**(4)高质量:**主数据的重要性要求其必须保障数据质量、准确性和一致性

**(5)可集成:**主数据将各个系统共享的核心实体数据进行集中管理,制定统一标准规范

主数据的价值

主数据主要有以下三点价值:

  1. 消除数据冗余:不同部门按照自身需求获取数据,容易造成数据重复 存储,形成数据冗余。而主数据打通各业务链条,统一数据语言,统一数 据标准,实现数据共享,最大化消除了数据冗余。
  2. 提升数据处理效率:各部门对于数据定义不一样,不同版本的数据不 一致,一个核心也为主体有多个版本的信息,需要大量人力成本、时间成 本去整理和统一。通过主数据管理可以实现数据动态自动整理、复制,减 少人工整理数据的时间和工作量。
  3. 提高公司战略协同力:通过主数据的一次录入、多次引用,避免一个 主数据在多个部门和线条重复录入。数据作为公司内部经营分析、决策支撑的“通行语音”,实现多个部门统一后,有助于打通部门、系统壁垒,实现 信息集成与共享,提高公司整体的战略协同力。

参考数据

什么是参考数据

《DAMA数据管理知识体系指南(第2版)》是这样描述的:

参考数据是指可用于描述或分类其他数据,或者将数据与组织外部的信息联系起来的任何数据(Chisholm,2001)。最基本的参考数据由代码和描述组成,但是有些参考数据可能更复杂,还包含映射和层次结构。

怎么理解呢?参考的中文解释就是 查阅、利用有关资料帮助学习、研究或了解情况 。参照数据类比考卷对应的参考答案,是对数据内容的解释说明,也包括对数据的范围限定。

参考数据可用于描述其他数据,列举了一个服务单状态代码示例。

代码描述定义
1新建表示一个新的服务单已经创建,但还未分配人员
2已分配表示一个新的服务单已经分配了服务人员
3施工中表示分配的服务人员已经开始处理
4已解决表示服务人员已经处理完成
5已取消表示该服务单根据交互情况已经取消
6待定表示服务暂时无法处理
7已完成表示请求已经处理完成

通过上面的参考数据,可以明确知道 代码值1-7表示什么状态,这些状态又代表什么业务含义。

参考数据可用于分类其他数据,列举一个通用标准产品与服务分类示例。

代码值描述上一级分类
10161600花卉植物10160000
10161601玫瑰10161600
10161602猩猩木10161600
10161603兰花10161600
10161700切花10160000
10161705月季切花10161700

通过上面的参考数据,可以知道 通用标准产品与服务分类,当查找玫瑰的时候,能找到它是属于花卉植物的。

参考数据可以将数据与组织外部的信息联系起来,列举中国省市区编码对照表;

国家名称省份名称城市名称区域名称区域编码
中国北京110000
中国北京北京市110100
中国北京北京市东城区110101
中国北京北京市西城区110102
中国北京北京市崇文取110103
中国北京北京市宣武区110104
中国北京北京市朝阳区110105
中国北京北京市丰台区110106
中国北京北京市石景山区110107
中国北京北京市海淀区110108

根据这个对照表可以和外部的地理信息或者定位信息联系起来。

参考数据是增加数据可读性、可维护性以及后续应用的重要数据。例如,你看到“性别”的这个字段,很可能是1代表男性、2代表女性。在许多企业中有这样的约定俗成,而更多的参考数据可能记录在开发人员和运营人员的大脑当中。但问题是一旦这些人离开,您系统里面的数据就成了一堆没有注释的天书。

可能会觉得这所谓参考数据不就是数据字典吗?对,在很多系统里面都会有这样和那样的数据字典。但是正是由于这些数据字典局仅限于个别系统而没有统一标准,从一个侧面间接造就了大量的数据孤岛。企业为了进行更有效率的数据整合、数据共享和数据分析应用,开始尝试对参考数据进行企业或者部门层面的整合和管理,利用参考数据集记录系统尝试为范围内的IT系统中的数据库提供统一的参考数据。

参考资料

【数据治理知识】详解元数据、主数据、参考数据和数据字典

解析数据仓库里的"元数据管理"

元数据和数据元

换个角度认识大数据(下)——元数据管理应用

主数据的3大特征、4个超越和3个二八原则

一文理解主数据和参考数据

解析数据仓库里的"元数据管理"

元数据和数据元

换个角度认识大数据(下)——元数据管理应用

主数据的3大特征、4个超越和3个二八原则

一文理解主数据和参考数据

【数据治理知识】详解元数据、主数据、参考数据和数据字典


http://chatgpt.dhexx.cn/article/eHfZtvEu.shtml

相关文章

MDM主数据管理平台开发精要

随着企业业务迅速发展,需要支撑业务运转的信息系统越来越多,各系统之间数据分散、重复,未完全形成业务闭环,数据孤立不能互通,数据统计不一致,企业主数据(组织、人员、项目、客户、供应商、产品…

一文理解主数据和参考数据

如果你准备要开展推动数据治理或者是数据质量的项目,那么你就有可能会听说到几个词:主数据和参考数据。一开始听到主数据这一词听起来就很高大上,而且非专业人士肯定不理解(即便是从事数据行业的朋友也很难参透)。这一…

主数据治理平台培训规程

主数据管理平台打通各业务链条,消除不同部门重复录入数据造成的数据冗余。统一数据语言,统一数据标准,实现数据同源、数据共享,最大程度提高数据的权威性。同时也可以作为公司内部业务运转、经营分析、决策制定的“通用语言”&…

主数据同步与分发实现

随着企业的发展,各项数据的权威性显得尤为重要,针对解决企业的基础数据治理以及传输问题,数通畅联开发出了MDM主数据管理平台。主数据治理方案可以将企业的组织、人员、客户、供应商等高度共享的数据进行统一管理,对需要的业务系统…

数据治理——主数据项目实施

文章目录 一.主数据定义1.数据的层次模型(根据数据的特征、作用以及管理需求的不同)2.主数据涵盖了元数据、引用数据、企业结构数据、业务结构数据 二.传统的软件项目实施三.主数据项目四.主数据项目详细规划第一阶段(体系规划阶段)第二阶段:…

关于数据元、元数据、主数据、交易数据、主题数据、数据资源、大数据、数据湖等数据相关概念理解和总结

注:本文于2019年1月31日发表于微信公众号 谈数据(learning-bigdata),本公众号将于4月21日发布一篇关于《数据治理之元数据管理》的文章,有兴趣可以扫描下方二维码关注。 在和一些客户、同事聊数据的时候,发…

数据元、元数据、主数据、交易数据、主题数据、数据资源、大数据、数据湖等数据相关概念理解和总结

1、数据元 1.1 标准定义 [GB/T 18391.1-2002,定义3.14] ,用一组属性描述定义、标识、表示和允许值的数据单元,数据元由三部分组成:对象、特性、表示。 1.2 我的理解 数据元是组成实体数据的最小单元,或称原…

SAP:物料主数据增强

一、MM01,MM02点击保存后,对输入值校验增强点:BADI_MATERIAL_CHECK 1.SE19创建实施:典型业务加载项,输入增强BADI:BADI_MATERIAL_CHECK 2.点击创建,输入实施名称: 3.查看接口方法:…

MDM主数据平台使用总结

随着科技飞速发展的时代,企业信息化建设会越来越完善,越来越体系化,所用到的应用系统也会越来越多,业务发展中沉淀了大量数据,但是这些数据没有为企业带来直观价值,没有形成企业的数据资产,所以…

主数据管理平台功能模型介绍

科技飞速发展的时代,企业信息化建设会越来越完善,越来越体系化,所上的应用系统也就越来越多,业务发展中沉淀了大量的数据,但是这些数据没有为企业带来直观的价值,没有形成企业的数据资产,所以越…

主数据及编码

之前做数据梳理的时候对主数据进行了一个总结,虽然项目没有很好的开展,不过对我来说也是有很多收获的,这里把之前用到的一些文档总结如下。 术语和定义 主数据 早期以 ERP 为代表的制造业集成应用系统的发展过程中,产生了信息孤岛…

什么是主数据?浅谈主数据的管理与应用

主数据是指满足跨部门业务,跨流程,跨主题,跨系统,跨技术,协同需要的、反映核心业务实体状态属性的组织机构基础信息,主数据具有权威性,全局性,共享性,扩展性等特点。 主数…

什么是主数据

原文地址:https://zhuanlan.zhihu.com/p/168672437 一:什么是主数据 概念: 维基百科 主数据 (Master Data): 在企业中用来定义业务对象的、具有持续性、非交易类的数据。相对于交易类数据,…

终于有人把数据治理的元数据、主数据等概念讲明白了

DAMA国际数据管理协会对数据治理定义:数据治理是对数据资产的管理活动行使权力和控制的活动集合(规划、监控和执行)。 数据治理涵盖了从前端业务系统、后端业务数据库再到业务终端的数据分析,从源头到终端再回到源头,…

matlab拉普拉斯算子边缘提取_(二十四)用二阶微分(拉普拉斯算子)实现图像锐化...

时间为友,记录点滴。 我们已经了解过了梯度(一阶微分)的作用,那么为什么要引入二阶微分呢? 二阶微分的作用是什么? 还是看图说话: 很明显,一阶微分已经可以把轮廓辨识出来,但是,对于变化较缓的地方,一阶微分会给出一个比较长的序列,对应到图像上就是轮廓比较“粗”…

GCN频域视角相关——傅里叶变换、拉普拉斯变换、拉普拉斯算子、拉普拉斯矩阵、卷积

试图通俗地捋清标题名词之间的关系 0. 前置知识0.1 函数的正交0.2 什么是卷积?0.3 散度0.4 欧拉公式 1. 卷积与傅里叶变换1.1 傅里叶变换1.2 时域的卷积等于频域的乘积 2. 拉普拉斯变换3. 拉普拉斯算子4. 拉普拉斯矩阵与其特征向量5. 太长不看总结版extra 注&#x…

拉普拉斯算子的原理和matlab实现代码

一、基本原理 拉普拉斯算子是一种二阶导数算子,是各向同性的微分运算,具有旋转不变性,可以满足不同走向的图像边界的锐化要求。   对一个二维图像函数f(x,y),它的拉普拉斯算子定义为:   x方向上的二阶微分定义为:   y方向上的二阶微分定义为:   所以,对于数…

Robert算子、Sobel算子、拉普拉斯算子

文章目录 1.Robert算子2.Sobel算子3.拉普拉斯算子4.结果 1.Robert算子 // 1. Robert算子cv::Mat gray;cv::Mat dstRoX;cv::Mat dstRoY;cv::Mat dstRoM;cv::Mat kernelRoX (cv::Mat_<float>(2, 2) << 1, 0, 0, -1);cv::Mat kernelRoY (cv::Mat_<float>(2, 2…

了解拉普拉斯算子

了解拉普拉斯算子 1. Laplace算子的定义2. 转换成离散形式 1. Laplace算子的定义 直奔主题&#xff1a;Laplace算子被定义为函数梯度的散度&#xff0c;即&#xff1a; 在图像处理&#xff0c;我们知道经常把Laplace算子作为边缘检测之一&#xff0c;也是工程数…

高斯拉普拉斯算子

高斯拉普拉斯算子&#xff08;Laplacian of Gaussian&#xff0c;LoG&#xff09; 高斯拉普拉斯算子&#xff08;Laplacian of Gaussian&#xff0c;LoG&#xff09;提取图像 f ( x , y ) f(x, y) f(x,y)边缘&#xff1a; 图像平滑去噪&#xff0c;高斯低通滤波器&#xff08…