HDFS核心理论学习记录

article/2025/10/18 18:38:21

标题HDFS理论学习第一天

一、HDFS优缺点

1、优点

高容错性：数据会保存多个副本
适合处理大数据：能够处理GB，TB甚至PB级别的数据
能够处理百万规模的数据数据
廉价不吃配置

2、缺点

不适合低延时数据访问，文件存储是放在磁盘中读取会有额外io时间。
无法高效对大量小文件进行存储
大量小文件会增加namenode的元数据信息（块信息和文件目录）会增加寻址时间。
不支持并发写入只能单线程写。且仅支持在文件末尾追加数据不支持修改。

二、HDFS组织架构

1、 namenode

管理hdfs的命名空间
配置副本策略
管理数据块映射信息
处理客户端读写请求
2、datanode
存储实际的数据块
执行数据块的读写操作
3、client
文件切分：在上传文件时由客户端将文件切分后再上传
与namenode交互获取文件信息
与datanode交互读写数据
管理namenode比如格式化
对hdfs的增删操作
4、2NN secondaryNode
2nn并非为namenode的热备份，当namennode挂了它并不能替换namenode，
辅助namenode工作比如定期合并fsimage，edits，推送给namenode
在紧急情况下可回复namenode

HDFS写数据流程

1. 剖析文件写入
在这里插入图片描述
（1）客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。
（2）NameNode返回是否可以上传。
（3）客户端请求第一个 Block上传到哪几个DataNode服务器上。
（4）NameNode返回3个DataNode节点和输出流对象，分别为dn1、dn2、dn3。
（5）客户端通过FSDataOutputStream模块请求dn1上传数据，dn1收到请求会继续调用dn2，然后dn2调用dn3，将这个通信管道建立完成。
（6）dn1、dn2、dn3逐级应答客户端，。
（7）客户端开始往dn1上传第一个Block（先从磁盘读取数据放到一个本地内存缓存），以Packet为单位，dn1收到一个Packet就会传给dn2，dn2传给dn3；dn1每传一个packet会放入一个应答队列等待应答，通过ack数据校验包返回数据是否传输完成。
（8）当一个Block传输完成之后，客户端再次请求NameNode上传第二个Block的服务器。（重复执行3-7步）。
成功后关闭输出流，并向namenode返回文件已上传完毕，等待namenode
确认。因为NameNode已经知道文件由哪些块组成，因此仅需等待最小复制块即可成功返回即可。至此整个流程就完成了。

网络拓扑-节点距离计算

在HDFS写数据的过程中，NameNode会选择距离待上传数据最近距离的DataNode接收数据。那么这个最近距离怎么计算呢？
节点距离：两个节点到达最近的共同祖先的距离总和。

机架感知（副本存储节点选择）

众所周知，数据块会在hdfs上有多个副本默认三分。那么副本是按照什么策略存储呢？
副本1会存储在client所处节点上，如果client不在对应datanode节点则会随机存储在datanode集群。
副本2会存储在另一个机架随机的一个节点，副本3会存储在和副本3相同机架另个节点。

HDFS读数据流程

1.客户端通过distribute file system 向 NamenNode 发送请求下载文件A 德的请求。
2.namenode接收到后判断是否在存在该文件，且该用户是否有权限如果有则返回对应文件的元数据信息
3 . 客户端接收到元数据信息后，创建input输入流去找最近的节点D1去下载block1块数据，如果D1负载过高，那么下载block2块会打到另个d2节点。
4.传输block1数据，以packet为单位，每隔packet占64字节。先写入缓存，然后再写入目标文件

NN和2NN工作机制

NameNode中的元数据信息是存储在哪里的呢？
首先想到的是数据会存储在内存中，但是如果断电那么数据就会丢失，整个集群就会挂掉。
如果存放在磁盘中读取效率又很低，因为有io操作。
为了解决这个问题 hdfs 在磁盘中产生了备份文件fsimage。和历史操作记录文件Edits
fsimage是存储大部分的元数据序列化信息镜像。
edits文件保存元数据最近的操作记录。元数据修改操作信息会首先同步到edits文件中，再同步到，内存中。这么做的原因是如果修改元数据期间断电，数据不会丢失。
所以即便断电通过fsimage和edits两个文件合并最终也可以得到元数据信息。
如果修改记录过多放到edits文件中会导致文件数据过大，效率降低，开机恢复时间过长出于这个问题，所以需要定期更新合并fsimage和edit文件。如果这个操作由namenode完成，那么namennode工作效率就会降低。
这也是为什么namenode 和 SecondaryNamenode不在一台服务器节点的原因。

总结如下：

一、

第一次namenode格式化后会产生fsimage和edits文件。如果不是第一次启动则会直接加载fsimage和edits文件到内存
客户端发送增删改请求
namenode记录操作日志到edits文件
namenode执行增删改更新操作加载结果到内存

二、
在此期间

2nn会定期向1nn是否需要checkpoint 也就是合并镜像文件。
如果edit文件过大则会触发合并服务。超过100w大概。
期间如果有增删改元数据操作会被滚动在新的edit文件中。旧的edit文件和fsimage会发送到2nn节点，2nn节点负责fsimage文件和edits文件的合并，产生新的fsimage.chkpoint文件发送给1nn。
1nn接收到后恢复改掉原来的fsimage文件并改名为fsimage，那么最后fsiamge和新的正在滚动的edits文件相加就是最新的元数据了。

checkpoint 服务时间再 hdfs-default.xml 中可以配置 默认是1分钟检查一次

HDFS的五大机制

切片机制：
hdfs中的实际数据都是以快的形式存储在datanode节点当中，块大小可配置一般根据磁盘io速度配置
汇报机制
datanode节点开机启动后会想namenode节点汇报注册。namenode与datanode会有一个心跳机制一般为3妙，块信息也会定时向namenode汇报是否可用默认为6小时。
心跳检测机制
datanode会每隔三秒汇报自己的是否可用信息，如果namenode没有收到该信息，datanode节点会继续汇报10次，3S*10=30秒。如果十分钟后还是没有恢复，则datanode节点会被视为宕机状态，当前机器上的数据namenode会找新的datanode节点做备份。‘
负载均衡
让集群中所有的节点（服务器）的利用率和副本数尽量都保持一致或在同一个水平线上
5.副本机制
默认备份三个副本，如果副本多了会删，少于3会新增。少于三且无法新增则会进入安全模式只能读不能写。