一文搞懂元数据

article/2025/8/26 11:33:40

之前讲解数据相关的基本概念的文章,做数据产品,这五个概念一定要搞清楚提到了元数据。这篇文章将会展开细讲,主要分享我学习的过程,我的理解,以及对全过程的总结。

01 初识元数据,我被概念绕晕了

接触新概念,当然先看定义。但是官方解释,看起来像个套娃:「元数据,是解释数据的数据」。

接下来,我又接触到了元元数据、元模型等概念:

「元元数据,是定义元数据结构和语义的信息」、「由元元数据组成的模型称之为元模型」。

当时我脑子演绎了自问自答的情景:

【问】元数据它也是一种数据,那解释元数据的数据,叫做什么?

【答】叫元元数据,

【问】那,是不是还有元元元数据?

【答】对!没错,讲道理是的!

【问】那,是不是…

【答】对!没错!别给我没完没了的!打住!

看完这一圈概念,很容易联想到"道生一, 一生二,二生三,三生万物",很有哲学的味道。总的来说,初接触元数据,非常抽象,有点懵。

02 元数据是什么?借助例子理解一下

概念晦涩难懂,借助例子理解是一个不错的方式。

网上很多文章也列举了不少元数据的例子,比如奶茶上饮料上的营养成分表。

在这里插入图片描述

只有结合左边和上边的说明,我们才能理解,每100g奶茶含能量166KJ。

按照定义,「能量」、「每100g」 都是对数据166KJ的解释说明,这二者就是166KJ的元数据。

看完这样的例子,一下子就能对元数据有了直观的认知。但是,我给小伙伴讲完以后,小伙伴们反馈例子是一看就懂,但是换一个场景,还是有点懵,还是分不清哪里是元数据,以及元数据要用来干嘛。

追根究底,是因为多数人没有用元数据解决问题的体验。

03 产品经理常见的两类元数据

接下来,我以产品经理举例,介绍元数据的两大运用场景。

不同行业,产品经理所需的行业知识和技能不同,但是通常情况下,都会接触两类人:业务人员、研发人员。

1)业务元数据如何理解

作为产品,你大概率听过这些业务指标:PV、UV、DAU、MAU。

回想一下,初次接触DAU这个英文缩写的时候,你肯定也不懂,经过百度查询,你知道了DAU是指「每日活跃用户数」。

但是,因为业务不同,实际场景里,不同公司对于DAU「每日活跃用户」的定义还有差异。

A公司的业务人员,将DAU定义为「每日用户登录次数」。

B公司的业务人员,将DAU定义为「每天在平台停留20分钟以上用户的数量」。

在这里插入图片描述

业务人员结合实际需要,对数据作了"定义",用以沟通交流时进行“解释”。

这些定义和解释,就是业务语义下的元数据,即「业务元数据」。

2)技术元数据如何理解

系统需要技术人员实现,所有的数据都是经过系统处理和存储的。

A公司的研发人员理解了DAU的业务语义后,便要负责定义DAU在系统中计算、存储的格式和约束。如下:
在这里插入图片描述

这段的含义是,DAU的数据类型是int。

研发人员为什么要定义这个呢?

其实这样是按照程序语言的规范,定义了一个计算机能懂的数据类型,这个信息将会经过层层编译,变成计算机能理解的形式。

下一次,当收到一个数据类型不为int的DAU数据时,计算机就能够识别,进而按照研发小哥设定的逻辑进行相应的处理,比如提示或报错。

技术人员因为编码需要,也对数据作了"定义"。技术语义下的元数据,即「技术元数据」。

3)再来看看,元数据类型如何定义

大家会发现,不同的标准、不同的组织对元数据有不同的分类,很多初学者经常被搞晕:说的都不完全相同,到底有多少种元数据,应该掌握哪些元数据?

元数据的类型取决于在什么场景、面向什么人作解释。

元数据的类型,不是被事先定义出来的,而是根据使用场景进行的归类,任何一个人都可以按需要定义新的元数据类型。

04 到底,为什么要管理元数据?

先看看一个极端的例子:

一个程序员在网上聊天,有一天,别人问他,你是程序员吗?

程序员本能反应,立刻就回了一个「true」。

但是对方不懂编程,也不懂英语,一阵交涉,最终明白:原来很多程序语言里,true就等同于「是」。

奇葩说里马东说:“被误解是表达者的宿命”。当然被误解绝对不是表达者的希望的结果,为了尽可能不被误解,我们要用好元数据进行解释。

人们要合作,要交流,要理解对方表达的意思,而元数据就是沟通和理解的桥梁。

05 元数据怎么管?

知道了what,why,接下来就要弄清楚how,怎么管理元数据。

以往,做人事、货物管理系统,这些系统管理的对象都是现实生活中存在的,但是要做一个元数据管理系统,元数据如此抽象,该怎么设计?

在建学生管理系统前,我们会定义学生实体的属性,即"学生模型",学生:姓名,性别,年龄…

Class Student{
String stuName; --学生姓名
int age; --年龄
int gender; --性别
}

同样的道理,元数据也是根据实际场景定义属性,元数据会有通用的属性,比如名称,类型。

不同类型的元数据还会有自己特定的属性,比如下图中的储蓄汇总表元数据,有汇总金额和网点号两个属性。
普元元数据管理系统截图
元数据既然也是数据,肯定是存储在数据库中的。

元数据存储库是指存储元数据的物理数据库表,通常采用开放标准的关系型数据库平台实现元数据存储库。

至于为什么选用关系型数据库,这里就不展开讲了。

写在最后

元数据早就存在了我们生活中,只是我们用「元数据」这个词代指了这一类解释其他事物的事物。

当你问别人,XXX是什么,是什么意思,后续别人给的回答和解释,其实就是「无形的元数据」,当这些解释落到纸面的时候,就成了「有形的元数据」。

学习元数据的初期,我看了很多文献,被各种概念按在地上反复摩擦。通过不断地理解和实践,终于冲破了混沌,有了一定的理解。

复盘这段过程,有失有得。

我花费了很多时间研究概念,而忘了自己为什么要研究概念。其实,一直看元数据概念反而会迷失在其中,将数据平台搭建起来,最终能把数据用起来,便能体会其中奥义。

为了钻研概念,我搜集了非常多的资料,提升了资料搜寻能力,元数据是数据产品的核心概念,这也为我后续理解数据产品的其他概念打好了基础。

实践是检验真理的唯一途径,也是探索、理解真理的唯一途径。

实在弄不懂一个概念,那就去实践理解吧,你总会有顿悟的那一刻。

参考资料:

【1】艾中良,麦中凡,朱美正;元数据和元模型[A];2001全国软件技术研讨会[C];2001年

【2】数据治理之元数据管理实践[OL]

http://p.primeton.com/articles/5c73b4d64be8e67cf4000883

【3】元数据新型存储架构的探索[OL]

http://p.primeton.com/articles/5d0216a34be8e67aaf0034fa

【4】数据产品经理实战进阶-8.3元数据管理

【5】被误解是表达者的宿命[OL] 2018-11-07 https://www.jianshu.com/p/631180397


http://chatgpt.dhexx.cn/article/6T2yvT2g.shtml

相关文章

什么是元数据,如何管理和利用元数据?

随着企业信息化建设的不断深入,以及公司数字化型智能转型发展的需要,很多地方都需要做元数据建设与管理 。基于元数据可以开展各种各样的应用设计,比如企业级统一标准规范建设实施、统一的数据管理,统一的授权管理,统一…

数据元与元数据

元数据:描述其它数据的数据(data about other data) 元数据是关于数据的数据,在某些时候不特指某个单独的数据,可以理解为是一组用来描述数据的信息组/数据组,该信息组/数据组中的一切数据、信息&#xff…

什么是元数据(Metadata)

元数据(Metadat)   元数据(Metadata),可能又是一个困惑的中文译文。 【元】,会意字。从一,从兀。甲骨文字形。象人形。上面一横指明头的部位。 上一短横是后加上去的,依汉字造字规律,顶端是一横的,其上可加一短横。…

元数据是什么?如何管理元数据?

元数据是什么?如何管理元数据? 01 什么是元数据?02 元数据的类型1. 业务元数据2. 技术元数据3. 操作元数据 03 元数据管理的目标1. 建立指标解释体系2. 提高数据溯源能力3. 数据质量稽核体系 04 元数据管理的技术1. 元数据采集2. 元数据管理3…

加强防护,近期勒索病毒有点疯狂!

愈演愈烈的勒索病毒攻击 2021年5月7日,美国最大的成品油管道运营商在本月受到重大网络攻击。公司被迫一度关闭整个能源供应网络,极大影响美国东海岸燃油等能源供应。公司在当日缴纳了500万美元赎金。 紧接着,5月14日爱尔兰卫生服务执行局&am…

勒索病毒.[tsai.shen@mailfence.com].faust、.[support2022@cock.li].faust引起的数据被加密恢复

勒索病毒的危害 勒索病毒是最具破坏性和恐怖性的一种病毒。最近[tsai.shen@mailfence.com].faust勒索病毒、.[support2022@cock.li].faust勒索病毒引起了广泛的关注和担忧。 如果您的数据已被勒索软件加密,恢复数据的最可靠方法是使用备份。如果您有备份,可以将备份文件恢复…

勒索预警,近期一大波新型勒索病毒来袭

点击蓝字关注我们 目前勒索病毒仍然是全球最大的威胁,最近一年针对企业的勒索病毒攻击越来越多,大部分勒索病毒是无法解密的,一定要保持高度的重视,近期又有一大波新型勒索病毒来袭...... HildaCrypt勒索病毒 加密后的文件后缀名H…

勒索病毒危害,企业该如何预防勒索病毒

勒索病毒是一种恶意软件,它会对企业内的计算机系统或数据进行加密或锁定,并要求企业支付赎金以解锁或解密。 勒索病毒危害: 数据丢失:勒索病毒可以加密您的文件、照片、视频和其他重要数据,使其无法访问或恢复。如果…

查杀linux服务器木马,定时查杀病毒并隔离

接收到了阿里云服务器的安全告警,主要文件是 /usr/bin/.sshd, /root/aa,使用以下三种方法解决 一. 使用clamav (一)下载 下载方式: (1)下载压缩文件:wget http://www.clamav.net/downloads/…

保障出行安全|科力锐助力长沙黄花国际机场灾备建设

一、民航灾备建设背景 随着我国经济建设的发展,我国机场业已初具规模,机场数量不断提升,航班业务愈加繁忙,机场服务保证能力也在不断增强。为了衔接“空管全球一体化”的发展趋势,实现中国现代化民航系统的建设战略&a…

Mac OS X: 再续〉安全警告,病毒就在你身边

Mac OS X: 再续〉安全警告,病毒就在你身边 1. 沉重 这次心情很沉重!因为这个间谍软件居然和咱们中国又有着联系!联想到前些日子的Goolge对中国说不做恶,指责中国如何如何的,这些就不重复了,结果是那些外国…

暴力破解介绍

暴力破解介绍 1、原理说明 暴力破解即账号枚举,攻击者使用自己的用户名和密码字典,对目的服务器进行一个一个尝试登陆,主要字典足够强大,肯定就会猜解成功。尝试爆破成功后,为攻击者下一步渗透做准备。 2、危害说明 目…

Petya勒索病毒

Petya勒索病毒 1、原理说明 2017年6月27日晚,印度、俄罗斯、西班牙以及欧洲多国遭受大规模Petya勒索病毒袭击,该病毒远程锁定设备,并索要赎金。其中乌克兰地区受灾害最为严重,政府、银行、电力系统、通讯系统、企业等都受到不同…

服务器该怎么预防勒索病毒

场景描述 随着互联网飞速发展,各企业不论大小基本都搭建了属于自己公司的服务器。例如文件服务器、代码服务器、业务系统服务器、数据库服务器等。虽然服务器种类各有不同,但共同点都在于:是公司重要的数据中心。一旦被勒索病毒侵占&#xf…

MSF(Metaspolit)复现MS12-020蓝屏漏洞

什么是漏洞? 漏洞(Vulnerability)又叫脆弱性,这一概念早在1947年冯诺依曼建立计算机系统结构理论时就有涉及。 微软的RPC漏洞和蠕虫病毒 RPC接口中的缓冲区溢出冲击波蠕虫病毒——》席卷全球80%计算机 MS08-067漏洞Conficker&…

新型勒索病毒已经出现

今日一个使用Go语言编写的勒索病毒正在攻击国内企业。该勒索病毒会加密计算机中的重要文件,将文件后缀修改为“.locked”,索要赎金0.2BTC。我们根据其加密后缀将其称为“locked”勒索病毒。 0x1传播分析 黑客通过“永恒之蓝”漏洞入侵企业中的一台计算…

勒索病毒“顽疾”,没有“特效药”吗?

基础设施瘫痪、企业和高校重要文件被加密、毕业论文瞬间秒没……这就是六年前的今天,WannaCry勒索攻击爆发时的真实场景。攻击导致150多个国家数百万台计算机受影响,也让勒索病毒首次被全世界广泛关注。 六年后,勒索攻击仍是全球最严重的网络…

勒索病毒SARA,请勿用于非法用途。

大家好,我是ViciousSpider🕷,今天我和大家分享一个我在初中的时候玩的一个名为SARA的安卓勒索病毒,注意请勿用作违法行为。 1.我们在kali上面使用克隆命令来克隆这个项目git clone https://github.com/termuxhackers-id/SARA 然后…

.locked勒索病毒来势汹汹该怎么办?

一、勒索病毒来势汹汹 从8月28日开始,多个社交媒体以及安全技术社区均有用户称遭遇“.locked”后缀勒索病毒攻击,计算机文件被病毒加密,用户“中招”后,需支付0.2比特币“赎金”(约2.7万人民币)。截止当前,已经确认来…

Crysis勒索病毒中毒经历及漏洞查堵[勒索邮箱openpgp@foxmail.com]

Crysis 勒索病毒中毒经历及漏洞查堵[勒索邮箱openpgpfoxmail.com] 发现中毒出现空白快捷方式图标文件后缀改变确认中毒 处理病毒断网排查病毒定位病毒 查堵漏洞确定时间发现漏洞处理漏洞 总结 写在前面:本文没有提供勒索病毒加密文件解密方式,仅介绍亲身…