大数据之元数据

article/2025/8/26 11:33:39

文章目录

  • 一、元数据是什么?
  • 二、元数据是从哪里来?
  • 三、元数据分类
  • 四、元数据应用
  • 五、元数据管理
  • 六、元数据价值
  • 写在最后

一、元数据是什么?

歌曲《小芳》中有一段台词:“村里有个姑娘叫小芳,长得好看又善良”,我们一起来分析一下, **姓名:**小芳、**性别:**女、**长相:**好看、**性格:**善良、**地址:**村里。

  • 小芳是被描述的对象,也就是我们所谓的实体数据
  • 姓名、性别、长相、性格、住址就是描述“小芳”的元数据。

二、元数据是从哪里来?

元数据贯穿大数据平台数据流动的全过程,主要包括数据源的元数据,数据加工处理过程的元数据,数据仓库或数据主题库的元数据,数据应用层的元数据,数据接口服务的元数据。如图元数据的分布范围:
在这里插入图片描述

三、元数据分类

将元数据按用途分为三类:技术元数据、业务元数据、管理元数据

  • 技术元数据

技术元数据包括:库表结构、字段约束、数据模型、ETL程序、sql程序、数据质量监控等。

  • 存储元数据:表、字段、分区等信息
  • 运行元数据:大数据平台上所有运行等信息:类似于Hive Job 日志,包括作业类型、实例名称、输入输出、SQL、运行参数、执行时间、执行引擎、占用资源等
  • 数据同步、计算任务、任务调度等信息:数据同步的输入输出表和字段,以及同步任务本身的节点信息;任务调度主要有任务的依赖类型、依赖关系、调度周期。
  • 业务元数据

业务指标、业务代码、业务术语等。
包含:指标名称、指标编码、统计口径、指标类型、责任人、创建时间、状态、SQL等

  • 管理元数据

数据所有者、数据治理定责、数据安全等级等
描述了数据的管理属性,包括管理部门、管理责任人,通过明确管理属性,有利于数据管理责任到部门和个人,是数据安全管理的基础。

四、元数据应用

  • 应用一:数据血缘

主要解决“数据之间的关系”,数据血缘分析是获取数据的血缘关系,它有任务级别关系、表级别的关系、字段级别关系。以历史事实的方式记录数据的来源,处理过程等。

如图可以大致理解为一个表的生产过程,它依赖了哪些表,怎么生成的,同时加上它的依赖的表又是怎么生成的。
在这里插入图片描述

  • 应用二:数据影响分析

它是分析数据的下游流向。比如当系统表结构进行升级改造的时候,如果修改了数据表结构或者ETL的程序。可以快速定位元数据修改会影响到哪些下游系统,从而减少系统升级改造带来的风险。

比如说改表结构后发现对下游ADS相关3个指标都有影响,定位影响之后,数据部门及时通知下游相关系统的管理人员,修改了下游的相应程序和表结构,就避免问题的发生。

所以影响性分析快速定位元数据变更可能带来的影响,提前干预。

  • 应用三:数据冷热度分析

冷热度分析主要是对数据表的被使用情况进行统计,告诉你哪些数据是常用数据,哪些数据任务是僵尸数据。

  • 应用四:数据地图

1.根据关键词查表的问题
2.根据表名查字段,查表介绍的问题
3.查看表的大小,存储方式,存储周期
4.如果涉及到字段添加,字段修改找谁的问题

五、元数据管理

对于元数据管理,目前有三种方式可供选择

  • 手工维护

对于规模比较小,并且业务不大的公司,可能会使用这种方式,但是这种方式太古老,且容易出错,如wiki,excel之类的协作工具

  • 开源组件Atlas

Apache Atlas 是Hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目,它为Hadoop集群提供了包括数据分类、数据血缘、安全和生命周期管理在内的元数据治理核心功能。

Atlas的特性
1.通过atlas为数据系统开发好的hook来注入元数据
2.通过atlas自带的web-ui前端系统来注入、查看、修改元数据
3. 通过调用atlas对外暴露的api,来开发自己的管理系统

  • 自研系统

自研元数据管理系统或者在数据平台开发元数据管理模块,很多大公司会基于hive hook,spark listerner,Flink Hook。

六、元数据价值

  • 运营决策

数据的真正价值在于数据驱动决策,通过数据指导运营,为业务赋能。通过数据驱动的方法,我们能偶判断趋势,从而展开有效行动,推动创新或解决方案的产生。

  • 数据使用者

通过元数据让其快速找到所需要的数据,比如指标,及指标统计口径是否统一,质量评分等等。

  • ETL工程师

通过元数据指导其进行模型设计、任务优化和任务下线等各种日常ETL工作

  • 运维工程师

通过元数据指导其进行整个集群的存储、计算和系统优化等运维工作

写在最后

本篇文章,并非我原创,而是来自 【老王漫谈数仓】的视频教程,看完后深受启发,所以做了学习笔记。如果大家想系统学习大数据相关的理论知识,可以到B站学习。课程链接


http://chatgpt.dhexx.cn/article/gEr8GrDN.shtml

相关文章

一文搞懂元数据

之前讲解数据相关的基本概念的文章,做数据产品,这五个概念一定要搞清楚提到了元数据。这篇文章将会展开细讲,主要分享我学习的过程,我的理解,以及对全过程的总结。 01 初识元数据,我被概念绕晕了 接触新概…

什么是元数据,如何管理和利用元数据?

随着企业信息化建设的不断深入,以及公司数字化型智能转型发展的需要,很多地方都需要做元数据建设与管理 。基于元数据可以开展各种各样的应用设计,比如企业级统一标准规范建设实施、统一的数据管理,统一的授权管理,统一…

数据元与元数据

元数据:描述其它数据的数据(data about other data) 元数据是关于数据的数据,在某些时候不特指某个单独的数据,可以理解为是一组用来描述数据的信息组/数据组,该信息组/数据组中的一切数据、信息&#xff…

什么是元数据(Metadata)

元数据(Metadat)   元数据(Metadata),可能又是一个困惑的中文译文。 【元】,会意字。从一,从兀。甲骨文字形。象人形。上面一横指明头的部位。 上一短横是后加上去的,依汉字造字规律,顶端是一横的,其上可加一短横。…

元数据是什么?如何管理元数据?

元数据是什么?如何管理元数据? 01 什么是元数据?02 元数据的类型1. 业务元数据2. 技术元数据3. 操作元数据 03 元数据管理的目标1. 建立指标解释体系2. 提高数据溯源能力3. 数据质量稽核体系 04 元数据管理的技术1. 元数据采集2. 元数据管理3…

加强防护,近期勒索病毒有点疯狂!

愈演愈烈的勒索病毒攻击 2021年5月7日,美国最大的成品油管道运营商在本月受到重大网络攻击。公司被迫一度关闭整个能源供应网络,极大影响美国东海岸燃油等能源供应。公司在当日缴纳了500万美元赎金。 紧接着,5月14日爱尔兰卫生服务执行局&am…

勒索病毒.[tsai.shen@mailfence.com].faust、.[support2022@cock.li].faust引起的数据被加密恢复

勒索病毒的危害 勒索病毒是最具破坏性和恐怖性的一种病毒。最近[tsai.shen@mailfence.com].faust勒索病毒、.[support2022@cock.li].faust勒索病毒引起了广泛的关注和担忧。 如果您的数据已被勒索软件加密,恢复数据的最可靠方法是使用备份。如果您有备份,可以将备份文件恢复…

勒索预警,近期一大波新型勒索病毒来袭

点击蓝字关注我们 目前勒索病毒仍然是全球最大的威胁,最近一年针对企业的勒索病毒攻击越来越多,大部分勒索病毒是无法解密的,一定要保持高度的重视,近期又有一大波新型勒索病毒来袭...... HildaCrypt勒索病毒 加密后的文件后缀名H…

勒索病毒危害,企业该如何预防勒索病毒

勒索病毒是一种恶意软件,它会对企业内的计算机系统或数据进行加密或锁定,并要求企业支付赎金以解锁或解密。 勒索病毒危害: 数据丢失:勒索病毒可以加密您的文件、照片、视频和其他重要数据,使其无法访问或恢复。如果…

查杀linux服务器木马,定时查杀病毒并隔离

接收到了阿里云服务器的安全告警,主要文件是 /usr/bin/.sshd, /root/aa,使用以下三种方法解决 一. 使用clamav (一)下载 下载方式: (1)下载压缩文件:wget http://www.clamav.net/downloads/…

保障出行安全|科力锐助力长沙黄花国际机场灾备建设

一、民航灾备建设背景 随着我国经济建设的发展,我国机场业已初具规模,机场数量不断提升,航班业务愈加繁忙,机场服务保证能力也在不断增强。为了衔接“空管全球一体化”的发展趋势,实现中国现代化民航系统的建设战略&a…

Mac OS X: 再续〉安全警告,病毒就在你身边

Mac OS X: 再续〉安全警告,病毒就在你身边 1. 沉重 这次心情很沉重!因为这个间谍软件居然和咱们中国又有着联系!联想到前些日子的Goolge对中国说不做恶,指责中国如何如何的,这些就不重复了,结果是那些外国…

暴力破解介绍

暴力破解介绍 1、原理说明 暴力破解即账号枚举,攻击者使用自己的用户名和密码字典,对目的服务器进行一个一个尝试登陆,主要字典足够强大,肯定就会猜解成功。尝试爆破成功后,为攻击者下一步渗透做准备。 2、危害说明 目…

Petya勒索病毒

Petya勒索病毒 1、原理说明 2017年6月27日晚,印度、俄罗斯、西班牙以及欧洲多国遭受大规模Petya勒索病毒袭击,该病毒远程锁定设备,并索要赎金。其中乌克兰地区受灾害最为严重,政府、银行、电力系统、通讯系统、企业等都受到不同…

服务器该怎么预防勒索病毒

场景描述 随着互联网飞速发展,各企业不论大小基本都搭建了属于自己公司的服务器。例如文件服务器、代码服务器、业务系统服务器、数据库服务器等。虽然服务器种类各有不同,但共同点都在于:是公司重要的数据中心。一旦被勒索病毒侵占&#xf…

MSF(Metaspolit)复现MS12-020蓝屏漏洞

什么是漏洞? 漏洞(Vulnerability)又叫脆弱性,这一概念早在1947年冯诺依曼建立计算机系统结构理论时就有涉及。 微软的RPC漏洞和蠕虫病毒 RPC接口中的缓冲区溢出冲击波蠕虫病毒——》席卷全球80%计算机 MS08-067漏洞Conficker&…

新型勒索病毒已经出现

今日一个使用Go语言编写的勒索病毒正在攻击国内企业。该勒索病毒会加密计算机中的重要文件,将文件后缀修改为“.locked”,索要赎金0.2BTC。我们根据其加密后缀将其称为“locked”勒索病毒。 0x1传播分析 黑客通过“永恒之蓝”漏洞入侵企业中的一台计算…

勒索病毒“顽疾”,没有“特效药”吗?

基础设施瘫痪、企业和高校重要文件被加密、毕业论文瞬间秒没……这就是六年前的今天,WannaCry勒索攻击爆发时的真实场景。攻击导致150多个国家数百万台计算机受影响,也让勒索病毒首次被全世界广泛关注。 六年后,勒索攻击仍是全球最严重的网络…

勒索病毒SARA,请勿用于非法用途。

大家好,我是ViciousSpider🕷,今天我和大家分享一个我在初中的时候玩的一个名为SARA的安卓勒索病毒,注意请勿用作违法行为。 1.我们在kali上面使用克隆命令来克隆这个项目git clone https://github.com/termuxhackers-id/SARA 然后…

.locked勒索病毒来势汹汹该怎么办?

一、勒索病毒来势汹汹 从8月28日开始,多个社交媒体以及安全技术社区均有用户称遭遇“.locked”后缀勒索病毒攻击,计算机文件被病毒加密,用户“中招”后,需支付0.2比特币“赎金”(约2.7万人民币)。截止当前,已经确认来…