海量数据处理--离线批处理技术(Hadoop)

article/2025/9/25 9:22:38

一、概述
大数据领域的两大难题:

1、存储

2、处理

解决方案:Hadoop解决类存储和处理的两大难题,其主要提供两大核心技术:

1、Hadoop分布式文件系统

2、MapReduce并行计算

二、Google核心云计算技术

海量数据存储的三大核心技术:

MapReduce编程模型

分布式文件系统(GFS)

分布式结构化数据存储

1、MapReduce编程模型

编程思想:分而治之

以键值对的形式来进行数据的输入和输出,它将待处理的数据集分解为多个小的键值对来处理。MapReduce编程模型将复杂的并行计算过程高度抽象到map()函数和reduce()函数中。

MapReduce模型将一个大的计算问题分解成多个小的计算问题,由多个map()函数对这些分解后的小问题进行计算,输出中间计算结果,然后由reduce()函数对map()函数的输出结果进行进一步合并,得出最终的计算结果,工作原理如图所示:

在这里插入图片描述

map阶段将一个复杂的任务分解为多个简单的小任务,这些小任务会在多个map()函数中进行并行处理,然后每个函数将处理的中间结果输出。reduce将对数据的中间结果根据键来做聚合处理,最终输出聚合后的数据结果。

2、分布式文件系统(GFS)

GFS分布式文件系统的目标:系统的可靠性、可伸缩性、可用性及性能

运行要求:

需要运行在廉价的服务器上

必须保证系统的容错性

能够大文件和小文件并存

保证系统的容错性:

a、Master容错

b、Chunk服务器容错

三、Hadoop云计算技术

1、Hadoop核心组件

Hadoop的核心组件包括HDFS和分布式计算框架MapReduce,和YARN框架以及Common工具

在这里插入图片描述
1)分布式计算框架MapReduce

MapReduce框架将复杂的大数据处理过程抽象为map()函数和reduce()函数,分别执行大数据处理中的map任务和reduce任务,用户只需要简单编写map()函数和reduce()函数即可开发出一个分布式的Hadoop程序

2)HDFS

HDFS是Hadoop存储海量数据的基石,能够提供对应用程序数据的高吞吐量访问。

3)YARN框架

YARN是Hadoop框架用于作业调度和集群资源管理的框架。

4)Common工具

Hadoop的Common就是封装了一些常用的底层工具。

2、Hadoop物理架构

Hadoop架构不仅在逻辑上支持分布式部署,而且在物理上也是分布式的。可以将Hadoop部署在由上千台物理机组成的大规模分布式集群上,并且Hadoop能够运行在由大规模廉价服务器组成的集群上,架构如图:

在这里插入图片描述
3、Hadoop的原理和运行机制

1)HDFS

Hadoop会将一个大文件切分成n个小文件数据块,分别存储到不同的DataNode上

在这里插入图片描述
2)分布式计算框架MapReduce

3)YARN资源调度系统

4、Hadoop相关技术与概述

1)Hive

2)Pig

3)Flume

4)Kafka

5)Sqoop

6)Storm

7)Spark

8)Mahout

5、Hadoop的局限性

1)时效性低

2)不适合存储大量的小文件

3)不支持任意修改文件

4)不支持多人同时进行写操作


http://chatgpt.dhexx.cn/article/BjgwaTYG.shtml

相关文章

海量数据处理技巧

数据时代来临,数据量的爆炸式增长是最为显著的特征。当高性能硬件的普及还跟不上这样的数据大潮时,如何在有限的时空资源内处理海量数据成为了计算机科学以及数理统计等领域最大的挑战。 所谓“数据处理”,在本文中特指通过计算机技术,对海量数据进行存储、统计、查询等操…

Mysql海量数据处理

一说海量数据有人就说了直接用大数据,那只能说不太了解这块,为此我们才要好好的去讲解一下海量的处理 海量数据的处理分为两种情况 1)表中有海量数据,但是每天不是很快的增长 2)表中有还流量数据,而且每天很…

海量数据处理方法总结

目录 海量数据处理算法与数据结构基础海量数据处理方法归纳分而治之 / hash 映射 hash 统计 堆 / 快速 / 归并排序多层桶结构Bitmap / Bloom filterBitmapBloom filter Trie树/数据库/倒排索引Trie树数据库索引倒排索引(Inverted index) 外排序分布式处理之Hadoop/Mapreduce …

如何解决海量数据的处理问题

一、海量数据,为高效查询,如何处理?分库分表会带来哪些副作用?可能的解决方式有哪些? 目前经常使用的关系型数据库如 MySQL、SQL Server 等,都是以“行”为单位进行存储,为了快速检索&#xff…

海量数据处理

目录 补充 1.位图应用 (1)给定100亿个整数,设计算法找到只出现一次的整数 (2)给两个文件,分别有100亿个整数,我们只有1G内存,如何找到两个文件的交集 (3)一个文件有100亿个整数,1G内存,设计算法找到出现…

H264视频码流格式浅析

针对H264码流格式说明,网上已经有很多介绍了,最近也在看这个,这里根据自己理解,做个记录。 1、H264的功能分为两层:视频编码层(VLC,Video Coding Layer)和网络提取层(NAL, Network Abstraction Layer)。VLC数据即 编码…

H.264(H264)视频文件的制作

一、准备工作 1.下载并安装优酷客户端 2.下载ffmpeg可执行文件,解压可用,不需要下载源码自己编译。 ffmpeg可执行文件下载链接:http://download.csdn.net/detail/caoshangpa/9492758 二、用优酷客户端下载视频并转码 用优酷客户端下载一…

H264和H265区别

很多小伙伴应该都听过H.265和H.264这两种编码,也了解专业术语的解释。包括电视机 都会标注支持H.265格式4K视频编码,视频监控系统也会 标注支持H.265。但是在没有用过的情况下,很难说真的已经 知道两者的区别了,那么H.265和H.264这…

H264 编解码协议详解

1.、什么是 H264? H264 是 MPEG-4 标准所定义的最新编码格式,同时也是技术含量最高、代表最新技术水平的视频编码格式之一,标准写法应该是H.264 H264 视频格式是经过有损压缩的,但在技术上尽可能做的降低存储体积下获得较好图像…

视频和视频帧:H264编码格式整理

本文将介绍的是: H264的发展历史。将介绍H26x和MPEG家族的发展和关联。H264的编码格式。主要介绍VCL和NAL,前者与视频编码数据紧密相关,后者和H264格式相关,也是本文介绍的重点。NAL。介绍NAL的组成单元:NALU。包括NA…

h264文件视频存储格式和音频存储格式

mp4封装 目录 h264视频流格式介绍 aac音频流格式介绍 h264视频文件读取 通过帧索引解析h264文件 通过解析h264结构读取文件 aac音频文件读取 mp4封装 初始化 数据封装 关闭mp4文件句柄 注意点 目录 h264视频流格式介绍 视频数据帧分为I帧,P帧,B帧,其中I帧为关键帧,所包含的图像…

H264和h265编码

未压缩的码流:一秒钟码流大小:640x480x1.5x15x855296000 (是55MB)其中 1.5是yuv占用1.5倍,rgb是3倍,8是一个字节是八位bit H264的建议码流是500kpbs,因此压缩比是100 电影一般帧率大于60帧;在线教育,实时通信一般是15帧 工具使…

H264格式 详细介绍

原文地址:http://blog.csdn.net/yangzhongxuan/article/details/8003494 名词解释 场和帧 : 视频的一场或一帧可用来产生一个编码图像。在电视中,为减少大面积闪烁现象,把一帧分成两个隔行的场。 片: 每个图象中&…

H264码流格式

h264码流格式 码流格式 …NAL头RBSPNAL头RBSPNAL头RBSP… H264 传输 SPSSEIPPSI片图像定界符P片P片 NAL头格式 start code ( 3 or 4 )forbidden_zero_bit(1)nal_ref_idc (2)nal_unit_type( 5)RBSP 解释 start code&#xf…

H264H265格式

文章目录 H2641. NALU1.1 NALU Header1.1.1 nal_unit_type 2. 码流格式2.1 Annex B格式2.2 AVCC格式2.2.1 extradata结构 2.3 H264 Annexb与AVCC格式转换 3. 视频编码帧3.1 压缩方式3.2 编码帧3.3 丢帧 4. PTS与DTS4.1 概念4.2 为什么需要PTS,DTS? H2651…

音视频——视频流H264编码格式

1 H264介绍 我们了解了什么是宏快,宏快作为压缩视频的最小的一部分,需要被组织,然后在网络之间做相互传输。 H264更深层次 —》宏块 太浅了 ​ 如果单纯的用宏快来发送数据是杂乱无章的,就好像在没有集装箱 出现之前,…

H264编码简介

H264编码简介 H.264,同时也是MPEG-4第十部分,是由ITU-T视频编码专家组(VCEG)和ISO/IEC动态图像专家组(MPEG)联合组成的联合视频组(JVT,Joint Video Team)提出的高度压缩…

H264格式

原文地址:http://blog.csdn.net/yangzhongxuan/article/details/8003494 名词解释 场和帧 : 视频的一场或一帧可用来产生一个编码图像。在电视中,为减少大面积闪烁现象,把一帧分成两个隔行的场。 片: 每个图象中…

H264格式解析

H264码流有两种形式:Annex B和AVCC。这两种码流形式所对应不同的编码方式和格式解析。 Annex B中每个NALU中没有存储NALU长度字节 AVCC中每个NALU中存储了长度信息 H264编码分为两层:vcl和nal vcl:编码nal:网络传输 Annex B的编…

H264编码基础概念+格式分析

一、编码基础概念 1、为什么要进行视频编码? 视频是由一帧帧图像组成,就如常见的gif图片,如果打开一张gif图片,可以发现里面是由很多张图片组成。一般视频为了不让观众感觉到卡顿,一秒钟至少需要16帧画面&#xff08…