什么是元数据,如何管理和利用元数据?

article/2025/8/26 11:22:18

随着企业信息化建设的不断深入,以及公司数字化型智能转型发展的需要,很多地方都需要做元数据建设与管理 。基于元数据可以开展各种各样的应用设计,比如企业级统一标准规范建设实施、统一的数据管理,统一的授权管理,统一的数据质量把控,统一的数据传输与同步迁移,统一的数据服务设计等,高效应对各类风险,推动公司数据治理工作的高质量开展,促进数据挖掘和数据的高价值输出利用。

一、什么是元数据

元数据就是数据的数据,或者是描述数据的数据,元数据的范围一般比较广,包括数据本身(如数据库,元素,模型等)、数据表示的概念(如业务流程,应用系统,软件代码,基础设施等)、数据与概念之间的关系。

二、元数据的价值

元数据用于帮助企业或组织理解管理自身的数据、流程和系统,并评估数据质量;

对数据库和信息系统的理解、管理与使用来说,元数据必不可少;

对组织开展数据管理和利用活动来说,元数据必不可少;

元数据管理是企业获取和管理数据的主要方法;

元数据管理不仅是知识管理面临的一个挑战,也是风险管理的一个必要条件;

企业如果没有元数据,可能无法管理其数据;

元数据驱动的实现是数据驱动得以实现的前提;

元数据是企业数据管理的指南;

元数据是用来创建新数据、了解现有数据、实现系统之间的流转、访问数据和共享数据的基础。

三、元数据的类型有哪些?

一般分为业务、技术和操作元数据。业务元数据关注数据的内容、条件、数据治理相关的详细信息;技术元数据关注数据的技术细节、系统、系统内外的数据流转的过程信息;操作元数据关注处理和访问数据的细节。

四、非结构化数据的元数据有哪些?

什么是非结构化数据?任何不在数据库或数据文件中的数据(包括文档或其他介质)。非结构化数据的元数据更为重要,是理解数据的关键元数据,一般叫做著录项、头尾文件、描述信息等

非结构化数据的元数据包括描述、结构、管理、书目、记录和保存元数据。收集非结构化数据的元数据一般与数据采集流程有关,为了支撑后续的大数据分析、BI等工作。

五、元数据的架构类型有哪些?

元数据管理的解决方案或架构需要解决元数据的采存管集用等元数据的生命周期问题。具体包括采集、存储、集成、交付、使用、控制与管理。

架构类型主要有:集中、分布式、混合式和双向元数据架构,大部分企业采用混合式元数据架构模式。详见下图。

1.集中式元数据架构

集中式元数据架构由单一的元数据存储库组成,该存储库包含来自各种不同源的元数据副本

优点:

  • 因为它独立于源系统,具有高可用性。

  • 因为元数据集中在存储库中,具备快速能力。

  • 解決了数据库结构问题,使其不受第三方或商业系统特有属性的影响。

  • 抽取元数据时可进行转换、自定义或使用其他源系统中的元数据来补充,提高了元数据质量。

缺点:

  • 必须采用复杂流程确保元数据源头中的更改能够快速同步到存储库中。

  • 维护集中式存储库的成本可能很高。

  • 元数据的抽取可能需要自定义模块或中间件。

  • 验证和维护自定义代码会增加对内部IT人员和软件供应商的要求

2.分布式元数据架构

元数据检索引擎通过实时从源系统检索数据来响应用户请求;分布式元数据架构没有持久化的存储库

优点

  • 元数据总是尽可能保持最新且有效,因为它是从其数据源中直接检索的。

  • 查询是分布式的,会提高响应和处理的效率。

  • 来自专有系统的元数据请求仅限于查询处理而不需要详细了解专有数据结构,因此最大限度地减少了实施和维护所需的工作量

  • 自动化元数据查询处理的开发可能更简单,只需要很少的人工干预。

  • 减少了批处理,没有元数据复制或同步过程

缺点

  • 无法支持用户定义或手动插入的元数据项,因为没有存储库可以放置这些添加项.。

  • 需要通过统一的、标准化的展示方式呈现来自不同系统的元数据

  • 查询功能受源系统可用性的影响。

  • 元数据的质量完全取决于源系统

3.混合式元数据架构

混合架构结合了集中式和分布式架构的特性;该模式也是最常采用的元数据管理方案。

4.双向元数据架构

允许元数据在架构的任何部分(源、数据集成、用户界面)中进行更改,然后将变更从存储库(代理)同步到其原始源以实现反馈。

六、元数据架构演变史

1.第一代架构:Monolith 一切

详见下图,通常是一个经典的单体前端(可能是一个 Flask 应用程序),连接到主要存储进行查找(通常是 MySQL/Postgres),一个用于服务搜索查询的搜索索引(通常是 Elasticsearch),并且对于该架构的第 1.5 代,可能是一个图形索引,用于在达到“递归查询”的关系数据库的限制时处理谱系(通常是 Neo4j)的图查询。

2.第二代架构:具备服务 API 的三层应用

详见下图,单体应用程序已拆分为前后端分离的服务。该服务提供了一个 API,允许使用推送机制将元数据写入系统,需要以编程方式读取元数据的程序可以使用此 API 读取元数据。但是,通过此 API 可访问的所有元数据仍存储在单个元数据存储中,该存储可以是单个关系数据库或扩展的键值存储。

3.第三代架构:基于事件的元数据

完整实现详见下图,第二种架构的“中央服务”元数据解决方案难以跟上企业对元数据用例的需求。为了解决这个问题,必须满足两个需求。 首先是元数据本身需要是自由流动的、基于事件的、可实时订阅的。第二个是元数据模型必须支持随着新扩展和添加的出现而不断发展——而不会受限于中央团队。 这将使元数据始终可以被多种类型的消费者大规模使用和扩展,客户可以根据他们的需要以不同的方式与元数据数据库交互。他们获得基于流的元数据日志(用于摄取和更改消费)、元数据的低延迟查找、对元数据属性进行全文和排名搜索的能力、对元数据关系的图形查询以及全扫描和 分析能力。可以在此元数据流之上构建具有不同核心元数据模型扩展的不同用例和应用程序,而不会牺牲一致性或新鲜度。您还可以将此元数据与您的开发工具(例如 git)集成,方法是与代码一起创作和版本化此元数据。元数据的改进和丰富可以通过以低延迟处理元数据更改日志或通过批处理压缩的元数据日志作为数据湖上的表来执行。

七、管理元数据的工具

元数据的主要管理工具就是元数据存储库,包括了处理和使用元数据的各类管理工具,同时提供与其他系统交换元数据的各类功能及服务等。

八、分析元数据的意义有哪些?

一个重要的意义就是提供了数据如何在系统内部或之间进行信息转移,相当于数据血缘和影响分析,数据血缘有设计态和实现态血缘,发现过程中要综合考虑业务焦点和技术焦点,记录好血缘关系将有助于业务和技术人员使用分析数据。

另一个是应用于大数据采集分析处理的元数据,元数据作为知识,多数采集引擎采集数据后进行数据剖析,数据剖析包括识别数据域、关系和质量问题,并打上元数据标签。

九、元数据管理的度量指标

  1. 完整性

  2. 成熟度

  3. 可用性

  4. 元数据使用情况

  5. 文档质量

  6. 业务术语活动

  7. 主数据服务数据的遵从性

  8. 专职人员配备

十、元数据的应用场景

企业逐步建成完整准确企业级数据模型的元数据管理后,便可以为数据治理打下坚实的基础和正向指挥棒,并可衍生出丰富的应用,如数据地图,血缘分析,数据冷热分析,数据资产管理等。


http://chatgpt.dhexx.cn/article/a8rkP4Ui.shtml

相关文章

数据元与元数据

元数据:描述其它数据的数据(data about other data) 元数据是关于数据的数据,在某些时候不特指某个单独的数据,可以理解为是一组用来描述数据的信息组/数据组,该信息组/数据组中的一切数据、信息&#xff…

什么是元数据(Metadata)

元数据(Metadat)   元数据(Metadata),可能又是一个困惑的中文译文。 【元】,会意字。从一,从兀。甲骨文字形。象人形。上面一横指明头的部位。 上一短横是后加上去的,依汉字造字规律,顶端是一横的,其上可加一短横。…

元数据是什么?如何管理元数据?

元数据是什么?如何管理元数据? 01 什么是元数据?02 元数据的类型1. 业务元数据2. 技术元数据3. 操作元数据 03 元数据管理的目标1. 建立指标解释体系2. 提高数据溯源能力3. 数据质量稽核体系 04 元数据管理的技术1. 元数据采集2. 元数据管理3…

加强防护,近期勒索病毒有点疯狂!

愈演愈烈的勒索病毒攻击 2021年5月7日,美国最大的成品油管道运营商在本月受到重大网络攻击。公司被迫一度关闭整个能源供应网络,极大影响美国东海岸燃油等能源供应。公司在当日缴纳了500万美元赎金。 紧接着,5月14日爱尔兰卫生服务执行局&am…

勒索病毒.[tsai.shen@mailfence.com].faust、.[support2022@cock.li].faust引起的数据被加密恢复

勒索病毒的危害 勒索病毒是最具破坏性和恐怖性的一种病毒。最近[tsai.shen@mailfence.com].faust勒索病毒、.[support2022@cock.li].faust勒索病毒引起了广泛的关注和担忧。 如果您的数据已被勒索软件加密,恢复数据的最可靠方法是使用备份。如果您有备份,可以将备份文件恢复…

勒索预警,近期一大波新型勒索病毒来袭

点击蓝字关注我们 目前勒索病毒仍然是全球最大的威胁,最近一年针对企业的勒索病毒攻击越来越多,大部分勒索病毒是无法解密的,一定要保持高度的重视,近期又有一大波新型勒索病毒来袭...... HildaCrypt勒索病毒 加密后的文件后缀名H…

勒索病毒危害,企业该如何预防勒索病毒

勒索病毒是一种恶意软件,它会对企业内的计算机系统或数据进行加密或锁定,并要求企业支付赎金以解锁或解密。 勒索病毒危害: 数据丢失:勒索病毒可以加密您的文件、照片、视频和其他重要数据,使其无法访问或恢复。如果…

查杀linux服务器木马,定时查杀病毒并隔离

接收到了阿里云服务器的安全告警,主要文件是 /usr/bin/.sshd, /root/aa,使用以下三种方法解决 一. 使用clamav (一)下载 下载方式: (1)下载压缩文件:wget http://www.clamav.net/downloads/…

保障出行安全|科力锐助力长沙黄花国际机场灾备建设

一、民航灾备建设背景 随着我国经济建设的发展,我国机场业已初具规模,机场数量不断提升,航班业务愈加繁忙,机场服务保证能力也在不断增强。为了衔接“空管全球一体化”的发展趋势,实现中国现代化民航系统的建设战略&a…

Mac OS X: 再续〉安全警告,病毒就在你身边

Mac OS X: 再续〉安全警告,病毒就在你身边 1. 沉重 这次心情很沉重!因为这个间谍软件居然和咱们中国又有着联系!联想到前些日子的Goolge对中国说不做恶,指责中国如何如何的,这些就不重复了,结果是那些外国…

暴力破解介绍

暴力破解介绍 1、原理说明 暴力破解即账号枚举,攻击者使用自己的用户名和密码字典,对目的服务器进行一个一个尝试登陆,主要字典足够强大,肯定就会猜解成功。尝试爆破成功后,为攻击者下一步渗透做准备。 2、危害说明 目…

Petya勒索病毒

Petya勒索病毒 1、原理说明 2017年6月27日晚,印度、俄罗斯、西班牙以及欧洲多国遭受大规模Petya勒索病毒袭击,该病毒远程锁定设备,并索要赎金。其中乌克兰地区受灾害最为严重,政府、银行、电力系统、通讯系统、企业等都受到不同…

服务器该怎么预防勒索病毒

场景描述 随着互联网飞速发展,各企业不论大小基本都搭建了属于自己公司的服务器。例如文件服务器、代码服务器、业务系统服务器、数据库服务器等。虽然服务器种类各有不同,但共同点都在于:是公司重要的数据中心。一旦被勒索病毒侵占&#xf…

MSF(Metaspolit)复现MS12-020蓝屏漏洞

什么是漏洞? 漏洞(Vulnerability)又叫脆弱性,这一概念早在1947年冯诺依曼建立计算机系统结构理论时就有涉及。 微软的RPC漏洞和蠕虫病毒 RPC接口中的缓冲区溢出冲击波蠕虫病毒——》席卷全球80%计算机 MS08-067漏洞Conficker&…

新型勒索病毒已经出现

今日一个使用Go语言编写的勒索病毒正在攻击国内企业。该勒索病毒会加密计算机中的重要文件,将文件后缀修改为“.locked”,索要赎金0.2BTC。我们根据其加密后缀将其称为“locked”勒索病毒。 0x1传播分析 黑客通过“永恒之蓝”漏洞入侵企业中的一台计算…

勒索病毒“顽疾”,没有“特效药”吗?

基础设施瘫痪、企业和高校重要文件被加密、毕业论文瞬间秒没……这就是六年前的今天,WannaCry勒索攻击爆发时的真实场景。攻击导致150多个国家数百万台计算机受影响,也让勒索病毒首次被全世界广泛关注。 六年后,勒索攻击仍是全球最严重的网络…

勒索病毒SARA,请勿用于非法用途。

大家好,我是ViciousSpider🕷,今天我和大家分享一个我在初中的时候玩的一个名为SARA的安卓勒索病毒,注意请勿用作违法行为。 1.我们在kali上面使用克隆命令来克隆这个项目git clone https://github.com/termuxhackers-id/SARA 然后…

.locked勒索病毒来势汹汹该怎么办?

一、勒索病毒来势汹汹 从8月28日开始,多个社交媒体以及安全技术社区均有用户称遭遇“.locked”后缀勒索病毒攻击,计算机文件被病毒加密,用户“中招”后,需支付0.2比特币“赎金”(约2.7万人民币)。截止当前,已经确认来…

Crysis勒索病毒中毒经历及漏洞查堵[勒索邮箱openpgp@foxmail.com]

Crysis 勒索病毒中毒经历及漏洞查堵[勒索邮箱openpgpfoxmail.com] 发现中毒出现空白快捷方式图标文件后缀改变确认中毒 处理病毒断网排查病毒定位病毒 查堵漏洞确定时间发现漏洞处理漏洞 总结 写在前面:本文没有提供勒索病毒加密文件解密方式,仅介绍亲身…

机器学习背景及简介

一、机器学习应用 1、机器学习技术正在支撑着各类搜索引擎(尤其是贝叶斯学习技术)等 2、机器实际上是一个应用驱动的学科,其根本的驱动力是:“更多、更好地解决实际问题”。由于近20年的飞速发展,机器学习已经具备了一…