什么是大数据架构

article/2025/9/12 1:38:06

什么是大数据架构

大数据架构是用于摄取和处理大量数据(通常称为“大数据”)的总体系统,因此可以针对业务目的进行分析。该架构可视为基于组织业务需求的大数据解决方案的蓝图。大数据架构旨在处理以下类型的工作:
什么是大数据架构
  批量处理大数据源。

实时处理大数据。

预测分析和机器学习。 精心设计的大数据架构可以节省企业资金,并帮助其预测未来趋势,从而做出明智的业务决策。

大数据架构的好处

可用于分析的数据量每天都在增长。而且,流媒体资源比以往更多,其中包括流量传感器、健康传感器、事务日志和活动日志中提供的数据。但拥有数据只是业务成功的一半。企业还需要能够理解数据,并及时使用它来影响关键决策。使用大数据架构可以帮助企业节省资金并做出关键决策,其中包括:

降低成本。在存储大量数据时,Hadoop和基于云计算的分析等大数据技术可以显著地降低成本。

做出更快、更好的决策。使用大数据架构的流组件,企业可以实时做出决策。

预测未来需求并创建新产品。大数据可以帮助企业衡量客户需求并使用分析预测未来趋势。

大数据架构的挑战

如果做得好,大数据架构可以为企业节省资金,并帮助预测重要的趋势,但它并非没有挑战。在处理大数据时,需要注意以下问题:

(1)数据质量

无论何时使用各种数据源,数据质量都是一项挑战。这意味着企业需要做的工作是确保数据格式匹配,并且没有重复数据或缺少数据将会使分析不可靠。企业需要先分析和准备数据,然后才能将其与其他数据一起进行分析。

(2)扩展

大数据的价值在于其数量。但是,这也可能成为一个重要问题。如果企业尚未设计架构以进行扩展,则可能会很快遇到问题。首先,如果企业不计划支持基础设施,那么支持基础设施的成本就会增加。这可能会给企业的预算带来负担。其次,如果企业不打算进行扩展,那么其性能可能会显著下降。这两个问题都应该在构建大数据架构的规划阶段得到解决。

(3)安全性

虽然大数据可以为企业提供对数据的深入了解,但保护这些数据仍然具有挑战性。欺诈者和黑客可能对企业的数据非常感兴趣,他们可能会尝试添加自己的伪造数据或浏览企业的数据以获取敏感信息。网络犯罪分子可以制作数据并将其引入其数据湖。例如,假设企业跟踪网站点击次数以发现流量中的异常模式,并在其网站上查找犯罪活动,网络犯罪分子可以渗透企业的系统,在企业的大数据中可以找到大量的敏感信息,如果企业没有保护周边环境,加密数据并努力匿名化数据以移除敏感信息的话,网络犯罪分子可能会挖掘其数据以获取这些信息。

大数据架构因公司的基础设施和需求而异,但通常包含以下组件:

数据源。所有大数据架构都从源代码开始。这可以包括来自数据库的数据、来自实时源(如物联网设备)的数据,以及从应用程序(如Windows日志)生成的静态文件。

实时消息接收。如果有实时源,则需要在架构中构建一种机制来摄取数据。

数据存储。企业需要存储将通过大数据架构处理的数据。通常,数据将存储在数据湖中,这是一个可以轻松扩展的大型非结构化数据库。

批处理和实时处理的组合。企业需要同时处理实时数据和静态数据,因此应在大数据架构中内置批量和实时处理的组合。这是因为可以使用批处理有效地处理大量数据,而实时数据需要立即处理才能带来价值。批处理涉及到长时间运行的作业,用于筛选、聚合和准备数据进行分析。

分析数据存储。准备好要分析的数据后,需要将它们放在一个位置,以便对整个数据集进行分析。分析数据存储的重要性在于,企业的所有数据都集中在一个位置,因此其分析将是全面的,并且针对分析而非事务进行了优化。这可能采取基于云计算的数据仓库或关系数据库的形式,具体取决于企业的需求。

分析或报告工具。在摄取和处理各种数据源之后,企业需要包含一个分析数据的工具。通常,企业将使用BI(商业智能)工具来完成这项工作,并且可能需要数据科学家来探索数据。

自动化。通过这些不同的系统移动数据需要通常以某种形式的自动化进行编排。数据的摄取和转换、批量移动和流处理,将其加载到分析数据存储,最后获得洞察力必须在可重复的工作流程中,以便企业可以不断从大数据中获取洞察力。


http://chatgpt.dhexx.cn/article/xDauBKec.shtml

相关文章

Pipeline大数据架构

1.Pipeline大数据架构 (create by 王小雷) Pipeline大数据架构,面向大数据仓库和大数据处理平台。是基于lambda的大数据架构的变种,增加了企业级服务,而并非只是大数据组件的对切,是一种更落地的方案。 如…

大数据架构之--Kappa架构

一、什么是Kappa架构 Kappa 架构是由 LinkedIn 的前首席工程师杰伊克雷普斯(Jay Kreps)提出的一种架构思想。克雷普斯是几个著名开源项目(包括 Apache Kafka 和 Apache Samza 这样的流处理系统)的作者之一。 Kreps 提出了一个改…

大数据架构及技术体系

下面是大数据体系架构图 大数据分2个部分,一部分是走实时的,另外一部分是走离线的,不管那块都需要数据来分析 从上图来看,数据分为结构化数据(MYSQL,ORACLE等),半结构数据(文件日志…

大数据架构演进

1、数仓架构演变(场景驱动) 1.1 经典数仓架构 数据仓库概念是Inmon于1990年提出并给出了完整的建设方法 1.2 离线大数据架构 随着互联网时代来临,数据量暴增,开始使用大数据工具来代替经典数仓中的传统工具 此时仅仅是工具的…

大数据架构(一)背景和概念

-系列目录- 大数据架构(一)背景和概念 大数据架构(二)大数据发展史 一、背景 1.岗位现状 大数据在一线互联网已经爆发了好多年,2015年-2020年(国内互联网爆发期)那时候的大数据开发,刚毕业能写Hive SQL配置个离线任务、整个帆软报表都20K起步。如果做到架…

大数据架构

大数据核心原理和场景分析 processon:https://www.processon.com/view/link/60b4d0071e08532bd00e9290

大数据架构图

大数据管理数据处理过程图 大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察力。大数据处理的主要流程包括数据收集、数据存储、数据处理、数据应用等主要环节。随着业务的增长,大量和流程、…

大数据架构:全网最全大数据架构生态

文章目录 简介1、数据采集技术框架2、数据存储技术框架3、分布式资源管理框架4、数据计算框架(1)离线数据计算 5、数据分析技术框架6、任务调度技术框架7、大数据底层基础技术框架8、数据检索技术框架9、大数据集群安装管理框架 简介 随着大数据行业的发…

架构-大数据架构-阿里

大数据架构 大数据框架从0到1整个过程的实现,根据本博客内容,可以实现整个大数据基本搭建,只是大概步骤,供学习参考。 本博客从下面5个方面介绍: 技术框架技术选型系统架构设计业务流程生态实现步骤 以阿里为例的大数…

大数据架构新解

大数据系统大体可以分成以下四个部分: 1,数据采集层 2,数据计算层 3,数据服务层 4,数据应用层 下图是阿里巴巴大数据系统架构图: 一、数据采集层 数据采集主要分成以下三块数据: 1&#xff…

大数据技术及大数据架构

大数据架构分为:数据来源层->数据采集层->分布式存储层->传输层->分析计算层->业务存储层->展示层共七层,基本使用flume sqoop hive hadoop spark flink mysql redis logstash elasticsearch datax等技术

大数据基础课03 阿里美团这些大厂都在用什么大数据架构?

首先,我想讲一个叫庖丁解牛的故事,想必你应该听过。庖丁从开始杀牛,到他的故事被写下,操刀十九年,杀了数千头牛。也正是由于丰富的实践经验,他总结出了解杀牛的方法论:依照牛生理上的天然结构&a…

大数据架构演变

大数据架构演变 一、传统离线大数据架构二、Lambda架构(离线处理实时链路)-传统实时开发三、Lambda架构(离线数仓实时数仓)四、Kappa架构五、架构选择:六、湖仓一体(流批一体)实时数仓架构七、从…

大数据基础架构

一、大数据两大核心技术: 分布式存储:HDFS、HBase、NoSQL、NewSQL 分布式处理:MapReduce 二、大数据计算模式: 三、代表性大数据技术: 1.Hadoop:ETL工具(extract、transform、load&#xff0…

大数据架构简介

大数据技术其实是分布式技术在数据处理领域的创新性应用,其本质和此前讲到的分布式技术思路一脉相承,即用更多的计算机组成一个集群,提供更多的计算资源,从而满足更大的计算压力要求。 大数据技术讨论的是,如何利用更多…

大数据之大数据技术架构

上期我们说到大数据的概念,其实,大数据比我们想象中的还要复杂,本期,我们主要从技术的角度介绍一下大数据的知识。 大数据技术是一系列技术的总称,它是集合了数据采集与传输、数据存储、数据处理与分析、数据挖掘、数据…

常用的几种大数据架构剖析

数据分析工作虽然隐藏在业务系统背后,但是具有非常重要的作用,数据分析的结果对决策、业务发展有着举足轻重的作用。随着大数据技术的发展,数据挖掘、数据探索等专有名词曝光度越来越高,但是在类似于Hadoop系列的大数据分析系统大…

一张图解释清楚大数据技术架构,堪称阿里的核心机密

我们先来看看这张图,这是某公司使用的大数据平台架构图,大部分公司应该都差不多: 从这张大数据的整体架构图上看来,大数据的核心层应该是:数据采集层、数据存储与分析层、数据共享层、数据应用层,可能叫法有…

一文搞懂Matlab的3种取整函数(round、ceil、floor)

1、四舍五入取整:round(x) 对实数和复数(实部和虚部)都是四舍五入取整 2、向上取整:ceil(x) 对实数和复数(实部和虚部)都是向上取整 3、向下取整:floor(x) 对实数和复数(实部和…