大数据系统基础 | 绪论

article/2025/10/23 17:06:46

1 什么是大数据

1、Big data is an all-encompassing term for any collection of data sets so large and complex that it becomes difficult to process using traditional data processing apllications.
-http://en.wikipedia.org/wiki/Big_data
2、如果一个数据集的规模或者是其处理的复杂性,用传统的数据处理系统难以驾驭的话,我们就把这样的数据集称为大数据。
3、大数据系统是用于大数据分析处理的软件系统。

2 大数据典型应用

1、沃尔玛“啤酒加尿布”经典案例,1993年
2、塔吉特百货孕妇营销分析,2002年
3、谷歌对流感的成功预测,2009年
4、奥巴马借助大数据连任成功,2012年
5、微软大数据成功预测奥斯卡21项大奖,2013年

3 大数据的特点

1、大数据的规模,从TB,PB,EB,ZB甚至到了ZB级
2、多样的数据类型
(1)结构化数据(关系):先有模式,后有数据
(2)半结构化数据(XML):先有部分模式
(3)非结构化数据(文本):先有数据,后有模式
3、大数据分析生命周期
获取、记录–>抽取、清洗–>集成、聚合–>分析、建模–>解释、展示
5个共性的基础问题:异构、规模、时效、隐私、协同
4、大数据深度加工
(1)数据Raw data
i.e.,uprocessed data,refers to a collection of numbers,characters and is a relative term
(2)信息Information
is that which informs,i.e. that from which data can be derived.
(3)知识Knowledge
can refer to a theoretical or practical understanding of a subject.
(4)智慧Insight
is the understanding of a specific cause and effect in a specitfic context
5、大数据处理方式
(1)批量 Batch
(2)在线 Online
(3)实时 Real-time
6、大数据的用户:内部用户和外部用户
(1)Data Provider - makes available data internal and/or external to the system
(2)Data Consumer - uses the output of the system
(3)System Orchestrator - governance,requirements,monitoring
(4)Big Data Application Provider - instantiates application
(5)Big Data Framework Provider - provides resources and platforms
7、大数据的质量
(1)精确性:数据是否精确表述一个事实
(2)完整性:是否所有必要的数据都已经实现
(3)一致性:不同数据实体间关系是否一致
(4)时效性:数据及其起源是否能够及时获取
8、大数据的价值
(1)价值密度的稀疏
(2)大量样本的长尾

4 大数据技术体系

1、大数据技术体系现状

2、数据质量-无法回避的挑战
(1)传统数据质量仅通过ETL方式执行
–即抽取、转换、加载,包括解析、模式分析等
–没有完全覆盖数据质量的基本性质
(2)挑战
–分布式环境中,如何保障全局数据的一致性、精确性、完整性
–流处理环境中,如何保证时效性,例如,时序一致性。
(3)在大数据中保证绝对的数据质量并不现实
–高维、异质、模糊、海量、多变
3、存储的老问题、新挑战:多副本、高并发、分布式索引、流式技算、磁盘压缩、集群管理等。
4、某些(核心)转变
(1)Hash大于扫描
(2)单副本转向多副本
(3)单阶段转为多阶段
(4)压缩不再解压
5、大数据分析的特点

类别传统BI数据科学&大数据分析
焦点发生了什么将要发生什么
数据小规模、干净数据,简单的统计模型大规模、多样化、无关联数据、语义模糊、复杂的预测模型
支持因果分析:事件及其发生的原因关联分析:利用多个弱关联数据源发现有潜在价值的结果

6、大数据要解决的主要问题
(1)监控动态流数据,跟踪变化趋势,而非仅仅考虑静态数据
(2)和数据科学家一起工作,而非仅依靠数据分析师
(3)将分析工具集成到核心业务和营运环节
7、可视化的挑战
将大规模数据中蕴含的信息、知识与规律,利用计算机软件更好地揭示出来

8、计算范型
(1)数据找程序 -> 程序找数据
(2)Scale Up -> Scale Out
(3)传统计算 -> 云计算 Virtual Machine & Multi Tenants
(4)CPU -> HPU (Crowdsourcing)

5 大数据生态系统

1、大数据生态系统

2、Hadoop的生态圈

3、Berkeley大数据处理平台(BDAS)

BDAS的优势
(1)综合性的解决方案:在统一的框架内开发大数据音乐
(2)高效的解决方案:BDAS的目标是快速处理大量数据

\主流解决方案BDAS解决方案BDAS的优势
文件系统HDFSTachyon数据读写速度提高300倍
MapReduceHadoopSpark运行速度提高10-100倍
SQL查询HiveShark查询速度提高40倍
处理数据流StormSpark Streaming处理速度提高2倍
图运算HadoopGraphX运算速度提高10倍

6 大数据技术挑战

1、人们普遍认识到了数据“大”(Volume),不是数据科学面临的全部挑战,甚至不是主要挑战。来自不同数据源的、不同类型、不同语义(Variety)的数据集合的深度综合与融合问题远没有解决,同时,物联网、传感网、穿戴设备等机器数据的快速到达(Velocity),对数据处理的时效性提出了更大的挑战,除此之外数据隐私与可用性(包括数据质量)问题更是存在挑战
2、数据科学(包括大数据技术)的创新与探索刚刚起步,并行进在泥泞当中。


http://chatgpt.dhexx.cn/article/vCJg1MpT.shtml

相关文章

大数据测试

目录 1、前言 2、大数据测试策略 3、如何测试大数据应用程序 4、架构测试 5、性能测试 6、性能测试方法 7、性能测试参数 8、测试环境需求 9、大数据测试对比传统数据库测试 10、大数据场景中使用的工具 11、大数据测试的挑战 12、性能测试挑战 1、前言 大数据…

大数据系统测评服务

1. 专业服务 围绕大数据的基础平台、分析软件产品、大数据应用系统、大数据交易系统等,面向政府主管机构、大数据解决方案提供商和大数据建设需求方等提供支撑、测试和咨询服务。测试报告可作为大数据产品或系统市场推广或验收提供客观依据。 大数据基础平台测试…

大数据系统发展的技术路线

自从大数据出来后,数据管理界发生了巨大的变化,技术驱动成为大数据管理系统的一个主要变革力量。 传统的数据库管理系统以结构化数据为主,因此关系数据库系统(RDBMS)可以一统天下满足各类应用需求。然而,大…

大数据平台开发:大数据系统架构模块解析

企业要开展大数据相关业务,首先就需要基于自身的需求,来设计搭建数据系统平台。而大数据系统平台的搭建,需要基于实际需求,来进行系统架构规划。今天我们就从大数据平台开发的角度,来对大数据系统架构模块做一个简单的…

大数据画像系统-1.0

大数据画像系统-1.0 写在最前面操作流程与资源资源获取创建 Flask 工程添加必要第三方库将刚刚下载的文件放入 Flask 工程运行 效果首页城市数据页个人画像页 结语 写在最前面 你能找到这篇文章,那么画像系统是什么,你应该已经知道,大数据是…

【云计算与大数据技术】大数据系统总体架构概述(Hadoop+MapReduce )

一、总体架构设计原则 企业级大数据应用框架需要满足业务的需求,一是要求能够满足基于数据容量大,数据类型多,数据流通快的大数据基本处理需求,能够支持大数据的采集,存储,处理和分析,二是要能…

大数据系统计算技术展望

大数据是新一代信息技术的核心方面和竞争前沿,也是制约大数据产业快速发展的关键瓶颈。大数据技术创新能力已经成为后信息时代衡量国家竞争力的重要指标。与传统信息产业的发展过程相似,大数据必将逐渐形成一个相对独立、体系完善的产业形态,…

什么是大数据系统架构

大数据的应用开发过于偏向底层,具有学习难度大,涉及技术面广的问题,这制约了大数据的普及。现在需要一种技术,把大数据开发中一些通用的,重复使用的基础代码、算法封装为类库,降低大数据的学习门槛&#xf…

大数据系统的基础,大数据存储和计算技术

在存储方面,2000 年左右谷歌等提出的文件系统(GFS)、以及随后的 Hadoop 的分布式文件系统 HDFS(Hadoop Distributed File System)奠定了大数据存储技术的基础。 与传统系统相比,GFS/HDFS 将计算和存储节点在物理上结合在一起,从而避免在数据…

大数据系统架构的基本介绍

从数据处理的一般流程可以看到,在大数据环境下需要的关键技术主要针对海量数据的存储和海量数据的运算。传统的关系数据库经过近40年的发展已经成为了一门成熟同时仍在不断演进的数据管理和分析技术,结构化查询语言(SQL)作为存取关…

大数据系统开发综合实践(一)

又来了新的任务,需要学习一些大数据开发的相关操作,其实之前学过一些内容,但是当初没有好好学,现在还得重新学习起来。 大数据系统中各种模块的作用 HDFS:分布式文件系统,用来存储数据 YARN:用…

大数据系统体系架构(含图示)

目录 1 大数据体系架构图2 数据采集层3 数据计算层4 数据服务层5 数据应用层 1 大数据体系架构图 2 数据采集层 阿里的的日志采集包括两大体系: Aplus.JS是Web端的日志采集技术方案,UserTrack是APP端的日志采集技术方案;在采集技术基础上&am…

大数据系统基础

注:本文是学习由清华大学王建明等老师的公开课大数据系统的笔记。 大数据系统基础 绪论 1、什么是大数据 我们的生活无时无刻不在产生着数据,那是什么在处理这些庞大的数据呢? 1、大数据的定义? 大数据(big data)&#xff0c…

大数据系统架构

大数据系统大体可以分成以下四个部分: 1,数据采集层 2,数据计算层 3,数据服务层 4,数据应用层 下图是阿里巴巴大数据系统架构图: 一、数据采集层 数据采集主要分成以下三块数据: 1&#xff0c…

大数据系统及分析

IDC将大数据技术定义为:“为更经济地从高频率的、大容量的、不同结构和类型的数据中获取价值而设计的新一代架构和技术。” 大数据的关键在于种类繁多、数量庞大、使用传统的数据分析工具无法在可容忍的时间内处理相应的数据。大数据分析主要涉及两个不同的领域&…

大数据测试之大数据系统及特点

一、大数据系统简介 扫健康码了没?相信大家每天都会不厌其烦地听到这种询问。 支付宝付款,相信大家也是每天都在扫码付款,这已经成为了生活的一部分。 这些能产生非常巨量数据的应用系统,我们称之为大数据系统。 大数据系统还需要…

QMap与Json相互转换

在Qt中可以用QJsonDocument、QJsonParseError、QJsonObject、QJsonArray、QJsonValue等类来解析json数据,但这种解析有时比较麻烦,代码量也比较多,其实也可以用QMap来解析Json数据,并且QMap和Json可以 相互转换,下面来…

QMap 和 QHash容器

QMap类、 QHash类 QMap与QHash差别&#xff1a; ①QHash比QMap查找速度更快。 ②QHash以任意顺序存储&#xff0c;QMap以Key顺序存储数据。 ③QHash的Key必须提供operator()及一个全局的qHash(Key)函数&#xff0c;而QMap的Key必须提供operator<()函数。 存储一键多值数据时…

关于QMap的几点总结思考

关于QMap的几点总结思考 题记&#xff1a; 前段时间集中精力写了数据的分拣算法&#xff0c;用到了容器QMap和QMultiMap。回头再来回去该算法的时候&#xff0c;又觉得当时好像不是自己写的一样&#xff0c;于是有必要将QMap类来总结一下。 首先来了解下C中STL中的map&#x…

Qt容器:QMap

一、描述 QMap<Key, T> 是 Qt 的通用容器类之一。 它存储&#xff08;键&#xff0c;值&#xff09;对并提供按键快速查找。 二、成员函数 1、QMap::const_iterator constFind(const Key &key) 返回一个 const 迭代器&#xff0c;该迭代器指向map中具有 key 键的项…