什么是元数据?为何需要元数据?

article/2025/8/26 11:35:26

转 https://www.zhihu.com/question/20679872

作者:贺易之
链接:https://www.zhihu.com/question/20679872/answer/65565699
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

要理解这个问题,首先要知道“元”是什么。
元(meta),一般被我们翻译成“关于……的……”。
事实上,这个前缀来源于希腊文,表示“在……之后”,在某样事情结束之后,就含有了“归纳”、“总结”的意思呢?因此,元,就代表着“本原”、“体系”的意思。
以文学领域为例,后现代主义文学中有一种小说叫作“元小说”,也就是“关于小说的小说”。“传统小说往往关心的是人物、事件,是作品所叙述的内容;而元小说则更关心作者本人是怎样写这部小说的,小说中往往喜欢声明作者是在虚构作品,喜欢告诉读者作者是在用什么手法虚构作品,更喜欢交代作者创作小说的一切相关过程。(摘自百度百科)”。
比如英国作家伊恩·麦克尤恩的作品《赎罪》。这本书讲述的是妹妹布里奥妮幼时因为爱上了姐姐塞西莉娅的男友罗比却被他拒绝,因报复心理作祟而陷害他入狱,长大成人之后为了弥补心中的愧疚而应征入伍来赎罪的故事。在本书中,主人公布里奥妮即是“主人公”,也是本书的“作者”。它着重于描述布里奥妮是如何写这本的书的。这就是“关心作者是怎么写这本小说”的小说。



在了解了元(meta)的含义之后,我们来看 元数据
元数据(meta data)——“data about data” 关于数据的数据,一般是结构化数据(如存储在数据库里的数据,规定了字段的长度、类型等)。
元数据是指从信息资源中抽取出来的用于说明其特征、内容的结构化的数据(如题名,版本、出版数据、相关说明,包括检索点等),用于组织、描述、检索、保存、管理信息和知识资源。
比如,关于一本书(信息资源),我们在图书馆系统中检索可以得到如下信息


一个基本的元数据由元数据项目和元数据内容的构成。这里,“题名”就是它的元数据项目,“史蒂夫·乔布斯传 (美) 沃尔特·艾萨克森著 = Steve Jobs Walter Isaacson eng”就是元数据内容。再比如,“著者”、“出版者”都是元数据项目,而“艾萨克森 (Isaacson, Walter) 著”和“中信出版社”就是元数据内容。学过数据库的应该不难理解~


利用元数据来描述资源后,我们就可以用来做很多的事情。比如确定资源,为资源提供检索点,在不同系统之间进行数据交换。

可是,我们每个人都可以对资源进行描述,取的名字(元数据项目)和值的样子(元数据内容)会千奇百怪怎么办呢?
因此,就有了元数据标准。
元数据标准包括元数据结构标准(即元数据包含那些项目,都柏林核心集,MARC元素集)、元数据内容标准、元数据取值标准、元数据编码标准(用于机读记录的存储和交换,比如MARC(Machine Readable Cataloging), XML)

在这里我们详细看一下MARC格式(一种元数据标准)。
在传统的图书馆中,我们购买了很多的书。图书馆员们怎么能知道自己有什么书了呢?我们就需要把每本图书的信息,写在一张小卡片上(有些老图书馆还有),存放在自己的图书馆里。
但是随着计算机的发展,我们认为把书目的信息存到电脑里是更好的方法。又随着网络的发展,我们觉得应该来一个图书馆大联合,把所有的图书信息都一起存起来。但是每个图书馆都有自己的一套记录方法。因此,MARC格式就应运而生了。MARC就是在计算机出现后为系统间交换书目数据和相关信息而设计的。

当然啦,在传统图书馆的手工编目时期,使用的术语与现在的计算机编目不同。比如那时候我们把一本书的“元数据”写在一张张卡片上,称之为“款目(entry)”,而在计算机里,关于一本书的记录,就叫做“记录(record)”。在机读编目中,我们把要著录的项目(著录项目area)叫作“字段(field),还有等等的区别。

说了这么多,MARC格式是什么样的呢?
可以看一下中国使用的CN-MARC格式。(CNMARC是我国参照UNIMARC(国际图联制定UNIMARC规范各国的MARC格式)编写的中国MARC格式。)




它规定了关于文献资源应该如何记录。比如说在数据字段区,它对于101字段是这么规定的:
101 0 $a正文语种$b中间语种$c原作语种
那么我们就要编目成:
101 1 $achi $ceng (chi是中文,eng是英文)
再比如它规定210字段的编目形式如下:
210 $a出版、发行地$c出版、发行者名称$d出版、发行日期
根据这个要求我们就要写成
210 $a北京 $c机械工业出版社 $d2003

接下来,互联网发展的越来越快,元数据的格式越来越多,人们对它的互操作要求也越来越高,就出现了XML
在利用XML描述一个文档的时候,我们可以自己定义标签,如”<title>”。这些小标签都是元数据。
在网络时代,XML作为元数据的一种表现形式是非常有潜力的。

最后我们在来看一下XML的好朋友HTML。
HTML的head里有一个meta标签。那么它是什么呢?
根据上面的解释,我们应该知道它是“关于文档的信息”了
meta的属性有两种,name和http-equiv.

name属性用来描述网页的内容,以便搜索引擎查找。比如这个网页的keywords呀。
http-equiv属性指示服务器在发送实际的文档之前先在要传送给浏览器的 MIME 文档头部包含名称/值对。
比如
<meta http-equiv="Content-Language" contect="zh-CN">用以说明主页制作所使用的文字以及语言

如果有哪里不对请务必告之!
编辑于 2016-01-08


http://chatgpt.dhexx.cn/article/RkkKfsbH.shtml

相关文章

元数据

一、简介 &#xff08;一&#xff09;概念 元数据是描述数据的数据&#xff0c;主要用于描述数据属性&#xff08;property&#xff09;的信息&#xff0c;包括数据存储位置、历史数据、资源查找、文件记录等功能。 &#xff08;二&#xff09;来源 随着信息技术发展&…

大数据之元数据

文章目录 一、元数据是什么&#xff1f;二、元数据是从哪里来&#xff1f;三、元数据分类四、元数据应用五、元数据管理六、元数据价值写在最后 一、元数据是什么&#xff1f; 歌曲《小芳》中有一段台词&#xff1a;“村里有个姑娘叫小芳&#xff0c;长得好看又善良”&#xff…

一文搞懂元数据

之前讲解数据相关的基本概念的文章&#xff0c;做数据产品&#xff0c;这五个概念一定要搞清楚提到了元数据。这篇文章将会展开细讲&#xff0c;主要分享我学习的过程&#xff0c;我的理解&#xff0c;以及对全过程的总结。 01 初识元数据&#xff0c;我被概念绕晕了 接触新概…

什么是元数据,如何管理和利用元数据?

随着企业信息化建设的不断深入&#xff0c;以及公司数字化型智能转型发展的需要&#xff0c;很多地方都需要做元数据建设与管理 。基于元数据可以开展各种各样的应用设计&#xff0c;比如企业级统一标准规范建设实施、统一的数据管理&#xff0c;统一的授权管理&#xff0c;统一…

数据元与元数据

元数据&#xff1a;描述其它数据的数据&#xff08;data about other data&#xff09; 元数据是关于数据的数据&#xff0c;在某些时候不特指某个单独的数据&#xff0c;可以理解为是一组用来描述数据的信息组/数据组&#xff0c;该信息组/数据组中的一切数据、信息&#xff…

什么是元数据(Metadata)

元数据&#xff08;Metadat)   元数据&#xff08;Metadata&#xff09;&#xff0c;可能又是一个困惑的中文译文。 【元】&#xff0c;会意字。从一,从兀。甲骨文字形。象人形。上面一横指明头的部位。 上一短横是后加上去的,依汉字造字规律,顶端是一横的,其上可加一短横。…

元数据是什么?如何管理元数据?

元数据是什么&#xff1f;如何管理元数据&#xff1f; 01 什么是元数据&#xff1f;02 元数据的类型1. 业务元数据2. 技术元数据3. 操作元数据 03 元数据管理的目标1. 建立指标解释体系2. 提高数据溯源能力3. 数据质量稽核体系 04 元数据管理的技术1. 元数据采集2. 元数据管理3…

加强防护,近期勒索病毒有点疯狂!

愈演愈烈的勒索病毒攻击 2021年5月7日&#xff0c;美国最大的成品油管道运营商在本月受到重大网络攻击。公司被迫一度关闭整个能源供应网络&#xff0c;极大影响美国东海岸燃油等能源供应。公司在当日缴纳了500万美元赎金。 紧接着&#xff0c;5月14日爱尔兰卫生服务执行局&am…

勒索病毒.[tsai.shen@mailfence.com].faust、.[support2022@cock.li].faust引起的数据被加密恢复

勒索病毒的危害 勒索病毒是最具破坏性和恐怖性的一种病毒。最近[tsai.shen@mailfence.com].faust勒索病毒、.[support2022@cock.li].faust勒索病毒引起了广泛的关注和担忧。 如果您的数据已被勒索软件加密,恢复数据的最可靠方法是使用备份。如果您有备份,可以将备份文件恢复…

勒索预警,近期一大波新型勒索病毒来袭

点击蓝字关注我们 目前勒索病毒仍然是全球最大的威胁&#xff0c;最近一年针对企业的勒索病毒攻击越来越多&#xff0c;大部分勒索病毒是无法解密的&#xff0c;一定要保持高度的重视&#xff0c;近期又有一大波新型勒索病毒来袭...... HildaCrypt勒索病毒 加密后的文件后缀名H…

勒索病毒危害,企业该如何预防勒索病毒

勒索病毒是一种恶意软件&#xff0c;它会对企业内的计算机系统或数据进行加密或锁定&#xff0c;并要求企业支付赎金以解锁或解密。 勒索病毒危害&#xff1a; 数据丢失&#xff1a;勒索病毒可以加密您的文件、照片、视频和其他重要数据&#xff0c;使其无法访问或恢复。如果…

查杀linux服务器木马,定时查杀病毒并隔离

接收到了阿里云服务器的安全告警&#xff0c;主要文件是 /usr/bin/.sshd, /root/aa&#xff0c;使用以下三种方法解决 一. 使用clamav (一&#xff09;下载 下载方式&#xff1a; &#xff08;1&#xff09;下载压缩文件&#xff1a;wget http://www.clamav.net/downloads/…

保障出行安全|科力锐助力长沙黄花国际机场灾备建设

一、民航灾备建设背景 随着我国经济建设的发展&#xff0c;我国机场业已初具规模&#xff0c;机场数量不断提升&#xff0c;航班业务愈加繁忙&#xff0c;机场服务保证能力也在不断增强。为了衔接“空管全球一体化”的发展趋势&#xff0c;实现中国现代化民航系统的建设战略&a…

Mac OS X: 再续〉安全警告,病毒就在你身边

Mac OS X: 再续〉安全警告&#xff0c;病毒就在你身边 1. 沉重 这次心情很沉重&#xff01;因为这个间谍软件居然和咱们中国又有着联系&#xff01;联想到前些日子的Goolge对中国说不做恶&#xff0c;指责中国如何如何的&#xff0c;这些就不重复了&#xff0c;结果是那些外国…

暴力破解介绍

暴力破解介绍 1、原理说明 暴力破解即账号枚举&#xff0c;攻击者使用自己的用户名和密码字典&#xff0c;对目的服务器进行一个一个尝试登陆&#xff0c;主要字典足够强大&#xff0c;肯定就会猜解成功。尝试爆破成功后&#xff0c;为攻击者下一步渗透做准备。 2、危害说明 目…

Petya勒索病毒

Petya勒索病毒 1、原理说明 2017年6月27日晚&#xff0c;印度、俄罗斯、西班牙以及欧洲多国遭受大规模Petya勒索病毒袭击&#xff0c;该病毒远程锁定设备&#xff0c;并索要赎金。其中乌克兰地区受灾害最为严重&#xff0c;政府、银行、电力系统、通讯系统、企业等都受到不同…

服务器该怎么预防勒索病毒

场景描述 随着互联网飞速发展&#xff0c;各企业不论大小基本都搭建了属于自己公司的服务器。例如文件服务器、代码服务器、业务系统服务器、数据库服务器等。虽然服务器种类各有不同&#xff0c;但共同点都在于&#xff1a;是公司重要的数据中心。一旦被勒索病毒侵占&#xf…

MSF(Metaspolit)复现MS12-020蓝屏漏洞

什么是漏洞&#xff1f; 漏洞&#xff08;Vulnerability&#xff09;又叫脆弱性&#xff0c;这一概念早在1947年冯诺依曼建立计算机系统结构理论时就有涉及。 微软的RPC漏洞和蠕虫病毒 RPC接口中的缓冲区溢出冲击波蠕虫病毒——》席卷全球80%计算机 MS08-067漏洞Conficker&…

新型勒索病毒已经出现

今日一个使用Go语言编写的勒索病毒正在攻击国内企业。该勒索病毒会加密计算机中的重要文件&#xff0c;将文件后缀修改为“.locked”&#xff0c;索要赎金0.2BTC。我们根据其加密后缀将其称为“locked”勒索病毒。 0x1传播分析 黑客通过“永恒之蓝”漏洞入侵企业中的一台计算…

勒索病毒“顽疾”,没有“特效药”吗?

基础设施瘫痪、企业和高校重要文件被加密、毕业论文瞬间秒没……这就是六年前的今天&#xff0c;WannaCry勒索攻击爆发时的真实场景。攻击导致150多个国家数百万台计算机受影响&#xff0c;也让勒索病毒首次被全世界广泛关注。 六年后&#xff0c;勒索攻击仍是全球最严重的网络…