非结构化数据怎么存?

article/2025/10/24 18:49:09

IDC 预测,2018年到2025年间,全球产生的数据量将会从33 ZB增长到175 ZB,其中超过80%为非结构化数据,并且每年将以指数级趋势递增。

数字化汪洋之上,海雾弥漫,遮天蔽日,组织如何冲破重重阻碍,实现对非结构化数据的存储、挖掘和洞察呢?

结构化数据如日期、电话号、账户余额、产品名称等,严格遵循数据格式与长度规范、易于由二维表结构进行逻辑表达和实现,与之相反,非结构化数据结构不规则或不完整、缺乏预定义数据模型、格式多种多样,比如文档、图片、音频、视频、社交媒体记录等,往往呈现出杂乱无章的特点。

针对结构化数据,市面上有大量成熟的分析工具可用来实现数据洞察,但非结构化数据难以标准化和理解,处理难度较大,对其价值挖掘尚处于发展阶段。

关于非结构化数据存储,目前业内主要有擅长存储海量文件的NAS文件存储象存储两种选项。

文件存储

以文件和文件夹为操作对象,基于文件夹/文件的路径访问数据。这是一种比较接地气的形式,我们日常在电脑里先打开父文件夹,再层层点开父文件夹嵌套的子文件夹,最后找到子文件夹里的某个文件,这一套流程就是文件存储的体验。

作为数据存储老手,文件存储已经被广泛应用十几年,它能兼顾多个应用和多个用户访问,突出优势是方便文件共享。

对象存储

是近些年的存储网红,它以对象(object,不是搞对象的对象)为操作对象。不同于文件存储的树状嵌套分层结构,对象存储架构更为扁平化,它将数据及其元数据打包放到一个超大的资源池,用户可根据唯一的元数据快速定位文件。

有这么一个比喻,同样到商场存包,文件存储这个商场里,你要记住自己的物品放在哪间储存室的哪排柜子的第几号,而在对象存储商场,存包员会给你一张凭条,你只需将凭条交给存包员即可取包,无需记住数据以什么形式存在了哪里。

对象存储的灵活性和扁平架构决定了它可以通过扩展来存储海量数据,其容量通常可达到EB级以上,从理论上讲对象存储的容量和对象数量可以无限扩充。

文件存储还是对象存储?

既然文件存储和对象存储的都适用于海量非结构化数据存储,那么用户什么时候选择文件存储,什么时候选择对象存储呢?

有两个主要指标,一看数据规模,二看应用场景。

 

01 数据规模

文件存储通过将数据划分为类别、目录和文件夹来获取非结构化数据并将其结构化,由此用户可以快速轻松地查询搜索。

但是文件存储中,一旦文件数达到数千万级别,目录树越建越深,就会造成性能瓶颈,不仅查询效率严重下降,而且超多超大文件管理困难,严重影响业务效率。

对于几乎无形中可以添加更多空间、弹性扩容的对象存储来说,爆炸性膨胀的非结构化数据存储简直是小菜一碟。

因此,如果组织要处理的非结构化数据量有限,文件存储是最佳选择。若组织需要处理大量数据,那么选择对象存储是更明智的决定。

 

02 应用场景

对象存储之所以成为近些年的存储顶流,除了其容量无限制、强扩展的特性,还在于其天然拥抱云和互联网的特质。

在对象存储中,用户若想修改文件,只能先下载、修改,再将修改后的文件上传,这一特性决定了它非常适合读取多写入少的场景——比如网站视频播放、网盘应用、机器学习的数据训练、物联网数据传输、云原生等,对于这些现代化应用,对象存储大有可为。

此外,对象存储也被称为云存储,如今已成为云服务公司的一项基础业务,全球各知名厂商纷纷推出基于对象存储的云存储服务,凭借其事实上的语言——AWS S3 API,对象存储可以在内部部署/私有云环境与公有云存储之间进行无缝访问和移动。

因此,对于人工智能、物联网、云原生等新兴应用,对象存储将是不错的选择。

 


http://chatgpt.dhexx.cn/article/fWToAyg2.shtml

相关文章

数据结构之图的基本介绍

图的基本介绍 线性表局限于一个直接前驱和一个直接后继的关系,树也只能有一个直接前驱也就是父节点。当我们需要表示多对多的关系时,就需要用到图。 图的基本概念 图(Graph)是一种数据结构,由顶点(verte…

2024年王道数据结构【考研全套笔记】

22年、23年数据结构大纲一致,24年大纲——>目前和23年大纲保持一致 该博客怎么食用? 大部分考408的友友,只是买了书,书上配置的免费视频是滞后2年的,非常不友好,建议在某鱼上or大学慕课正规购买&#x…

数据结构入门学习之数据结构学些什么?

在刚开始学习数据结构,我推荐一定要搞懂三个问题,这将对我们学习数据结构的帮助很大,能让我们对数据结构有一个清晰的认识,问题如下 1.学习数据结构是干嘛用的? 2.什么是数据结构? 3.数据结构要学习什么…

专升本数据结构复习

数据结构知识点总汇 主要参考书目: 程海英老师的《数据结构(C语言版)》教材严蔚敏,李冬梅,吴伟民.《数据结构(C语言版)》 推荐视频:西北大学 数据结构-耿国华老师 说…

数据结构基础

一、基本概念 1、数据 数据(Data)是描述客观事物属性的数、字符及所有能被输入到计算机中并被计算机程序识别和处理的符号的集合。 解释:数据不仅包括整型、字符型等数值类型,还包括字符及声音、图像、视频等非数值类型。 数据…

锚链接跳转

想让页面跳转到指定的地方&#xff0c;这个时候我们可以用到锚链接&#xff0c;锚链接主要有两个部分组成&#xff0c;点击的地方和跳转的地方&#xff0c;点击的地方我们用 <a> 标签&#xff0c;其 href 属性和即将跳转的标签的 id 保持一致就可以了&#xff0c;举个栗子…

Html中锚文本链接怎么写?锚文本链接有属性用法

锚文本链接的概念&#xff1a; 锚文本又称锚文本链接&#xff0c;是链接的一种方法。和超链接相似&#xff0c;超链接的代码是锚文本&#xff0c;把关键词做一个链接&#xff0c;指向其他网页&#xff0c;这种方法的链接就叫作锚文本。锚文本实际上是建立了文本关键词与URL链接…

Markdown(5):锚链接

一、外部链接 格式&#xff1a; 名称 示例: 百度 二、文内链接 格式 名称 示例: 前往测试锚点 这里的markdown图片没有意义&#xff0c;是为了隔开跳转锚点和锚点之间的位置&#xff0c;使点击锚点时明显的呈现跳转效果。 我是测试锚点 我是测试内容

创建锚点链接

如果网页内容较多&#xff0c;页面过长&#xff0c;浏览网页时就需要不断地拖动滚动条&#xff0c;来查看所需要的内容&#xff0c;这样效率较低且不方便。为了提高信息的检索速度&#xff0c;HTML语言提供了一种特殊的链接——锚点链接&#xff0c;通过创建锚点链接&#xff0…

Vue锚链接(两种方法) scrollIntoView

第一种&#xff1a;常见 锚链接&#xff0c;id和 href 结合起来 <div id"one" style"height: 300px;">第一</div> <div id"two" style"height: 300px;">第二</div><a href#one>回到第一</a> <…

Html的锚点链接

HTML中的链接&#xff0c;正确的说法应该称作"锚点"&#xff0c;它命名锚点链接(也叫书签链接)常常用于那些内容庞大繁琐的网页&#xff0c;通过点击命名锚点&#xff0c;不仅让我们能指向文档&#xff0c;还能指向页面里的特定段落&#xff0c;更能当作"精准链…

页面中的锚链接

1、锚链接 方法一 // 设置锚点链接 <a href"#miao">锚点链接</a> // 锚点 <a namemiao>锚点</a>注&#xff1a;name的属性值和锚链接的href中名一样 方法二 // 设置锚点链接 <a href"#miao">锚点链接</a> // 锚…

HTML链接(锚)

锚 使用<a>标记 有两种使用 <a> 标签的方式&#xff1a; 通过使用 href 属性 - 创建指向另一个文档的链接通过使用 name 属性 - 创建文档内的书签 这样说有点抽象&#xff0c;还是在几种实际应用中理解创建链接和创建书签的含义吧&#xff01; 实现网页之间跳…

HTML超链接、锚链接

超链接和锚链接的区别&#xff0c;就是超链接需要跳砖页面&#xff1b;锚链接不需要&#xff0c;在同一页面中跳转到某个位置。 不管是超链接&#xff0c;还是锚链接&#xff0c;都是用a元素。 超链接&#xff1a;超链接的使用就是在href中加入网址&#xff0c;如果是图片超链…

超链接 锚链接 功能性链接 块元素 行内元素

目录 超链接标签 页面间的锚链接 不同页面中的锚链接 功能性链接 行内元素和块元素 超链接标签 超链接的基本应用: 超链接包含两部分内容:1.是链接地址,可以是某个网址或文件的路径,对应为<a>标签的href属性 2. 是链接文本或图像,单击该文本或图像,将跳转到href属…

HDFS原理简图汇总

HDFS原理简图汇总 1.HDFS结构简图 2.namenode和datanode心跳机制 3.namenode元数据更新的checkpoint机制 4.hdfs写数据机制 5.hdfs读数据机制 一图胜千言&#xff0c;把文字转为图形确实可以更进一步对知识做提炼&#xff0c;如有错漏&#xff0c;欢迎大家留言指正。

Hadoop HDFS原理笔记

1&#xff1a;Hadoop家族 2&#xff1a;Hadoop的两大核心 3&#xff1a;HDFS介绍 4&#xff1a;HDFS结构 5&#xff1a;HDFS架构图 6&#xff1a;HDFS的数据存储单元&#xff08;Block&#xff09; 7&#xff1a;HDFS设计思想 8&#xff1a;NameNode&#xff08;NN&#xff0…

HDFS高级-架构原理

文章目录 1 HDFS架构剖析1.1 集群角色介绍1.2 HDFS重要特性 2 HDFS Web Interfaces2.1 模块功能解读OverviewdatanodesDatanode Volume FailuresSnapshotSatartup progressUtilitiesBrowse the file systemLogs、Log LevelConfigruation 3 HDFS读写流程3.1 HDFS写数据流程&…

(转载)深入分析HDFS原理及读写流程

一、架构体系 1.1、什么是HDFS&#xff1f; HDFS即Hadoop Distributed File System的简称&#xff0c;采用Master/Slave主从结构模型来管理数据。在设计上采用了分而治之的思想&#xff0c;将单服务器无法承受的大量的数据分布在多台服务器上。HDFS主要由Client、NameNode、Dat…

Hadoop分布式文件系统HDFS原理以及操作(一)

HDFS简介&#xff1a;活动在集群上并支持以流式数据访问模式来存取超大文件。存储设计是把海量数据部 署在价格低廉的节点上&#xff0c;具有高容错性和高吞吐量特性。HDFS的设计首要是针对超大文件存储&#xff0c;而对于小的文件访问和存储速度反而会降低。 HDFS体系结构&am…