CDH大数据平台搭建之HADOOP分布式集群搭建

article/2025/10/9 20:12:00

CDH大数据平台搭建之HADOOP安装

  • 一、什么是HADOOP?
  • 二、如何下载
    • 1.官网下载
    • 2.网盘下载
  • 三、搭建集群
    • 1.虚拟机准备
    • 2.安装JDK
    • 3.安装ZOOKEEPER
    • 4.集群规划
    • 5.安装HADOOP
    • 6.修改配置文件
      • 1、进入配置文件目录:
      • 2、修改env文件
      • 3、修改core-site.xml文件
      • 4、修改hdfs-site.xml文件
      • 5、配置mapred-site.xml文件
      • 6、修改yarn-site.xml文件
      • 7、修改slaves文件
      • 8、分发文件
      • 9、配置环境变量
  • 四、启动集群
    • 1.启动ZOOKEEPER集群
    • 2.启动JournalNode
    • 3.格式化namenode
    • 4.格式化zkfc
    • 5.启动zkfc
    • 6.启动namenode
    • 7.格式化secondarynamenode
    • 8.启动secondarynamenode
    • 9.验证是否成功
    • 10.启动datanode
    • 11.启动resourcemanager
    • 12.启动nodemanager
  • 五、各个机器命令进程
  • 六、网页端口效果
    • 1、namenode
    • resourcemanager
  • 七、高可用测试
  • 总结


一、什么是HADOOP?

Hadoop是一个由Apache基金会所开发的分布式系统基础架构,主要是分布式数据存储以及计算。

二、如何下载

1.官网下载

1、apache版本:http://hadoop.apache.org/
2、cdh版本(已收费):http://archive.cloudera.com/cdh5/cdh/5/

2.网盘下载

链接:https://pan.baidu.com/s/18x2lc0Z7JbJ7pW-15VtiDg 提取码:cdh5 

三、搭建集群

1.虚拟机准备

请参考CHD大数据平台搭建之VMware及虚拟机安装
以及CHD大数据平台搭建之虚拟环境配置

2.安装JDK

请参考CHD大数据平台搭建之JDK安装

3.安装ZOOKEEPER

请参考CHD大数据平台搭建之ZOOKEEPER安装

4.集群规划

请参考CHD大数据平台搭建之集群规划

5.安装HADOOP

tar -zxvf hadoop-2.6.0-cdh5.7.6.tar.gz -C /opt/modules/

6.修改配置文件

1、进入配置文件目录:

cd /opt/modules/hadoop-2.6.0-cdh5.7.6/etc/hadoop

2、修改env文件

配置env文件java安装目录
hadoop-env.sh
mapred-env.sh
yarn-env.sh 
修改:export JAVA_HOME=/opt/modules/jdk1.8.0_91

3、修改core-site.xml文件

1、新建文件夹:

mkdir -p /opt/modules/hadoop-2.6.0-cdh5.7.6/data/tmp

2、添加如下内容

<property><name>fs.defaultFS</name><value>hdfs://mycluster</value>
</property>
<!-- 指定Hadoop运行时产生文件的存储目录 -->
<property><name>hadoop.tmp.dir</name><value>/opt/modules/hadoop-2.6.0-cdh5.7.6/datas/tmp</value>
</property>
<!-- zookeeper通讯地址-->
<property><name>ha.zookeeper.quorum</name><value>bigdata-training03.hpsk.com:2181,bigdata-training04.hpsk.com:2181,bigdata-training05.hpsk.com:2181</value>
</property>

4、修改hdfs-site.xml文件

1、新建文件夹:

mkdir -p /opt/modules/hadoop-2.6.0-cdh5.7.6/datas/jn

2、添加如下内容:

<!-- 完全分布式集群名称 -->
<property><name>dfs.nameservices</name><value>mycluster</value>
</property><!-- 集群中NameNode节点都有哪些 -->
<property><name>dfs.ha.namenodes.mycluster</name><value>nn1,nn2</value>
</property><!-- nn1的RPC通信地址 -->
<property><name>dfs.namenode.rpc-address.mycluster.nn1</name><value>bigdata-training01.hpsk.com:9000</value>
</property><!-- nn2的RPC通信地址 -->
<property><name>dfs.namenode.rpc-address.mycluster.nn2</name><value>bigdata-training03.hpsk.com:9000</value>
</property><!-- nn1的http通信地址 -->
<property><name>dfs.namenode.http-address.mycluster.nn1</name><value>bigdata-training01.hpsk.com:50070</value>
</property><!-- nn2的http通信地址 -->
<property><name>dfs.namenode.http-address.mycluster.nn2</name><value>bigdata-training03.hpsk.com:50070</value>
</property><!-- 指定NameNode元数据在JournalNode上的存放位置 -->
<property><name>dfs.namenode.shared.edits.dir</name><value>qjournal://bigdata-training01.hpsk.com:8485;bigdata-training02.hpsk.com:8485;bigdata-training03.hpsk.com:8485;bigdata-training04.hpsk.com:8485;bigdata-training05.hpsk.com:8485/mycluster</value>
</property><!-- 配置隔离机制,即同一时刻只能有一台服务器对外响应 -->
<property><name>dfs.ha.fencing.methods</name><value>sshfence</value>
</property><!-- 使用隔离机制时需要ssh无秘钥登录-->
<property><name>dfs.ha.fencing.ssh.private-key-files</name><value>/home/hpsk/.ssh/id_rsa</value>
</property><!-- 声明journalnode服务器存储目录-->
<property><name>dfs.journalnode.edits.dir</name><value>/opt/modules/hadoop-2.6.0-cdh5.7.6/datas/jn</value>
</property><!-- 关闭权限检查-->
<property><name>dfs.permissions.enable</name><value>false</value>
</property><!-- 访问代理类:client,mycluster,active配置失败自动切换实现方式-->
<property><name>dfs.client.failover.proxy.provider.mycluster</name><value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
</property><!-- 自动切换-->
<property><name>dfs.ha.automatic-failover.enabled</name><value>true</value>
</property>

5、配置mapred-site.xml文件

1、修改文件名

mv mapred-site.xml.template mapred-site.xml

2、添加如下内容:

<!-- 指定MR运行在YARN上 -->
<property><name>mapreduce.framework.name</name><value>yarn</value>
</property><!-- 历史服务器端地址 -->
<property><name>mapreduce.jobhistory.address</name><value>bigdata-training02.hpsk.com:10020</value>
</property>

6、修改yarn-site.xml文件

1、添加如下内容:

<property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value>
</property><!--启用resourcemanager ha-->
<property><name>yarn.resourcemanager.ha.enabled</name><value>true</value>
</property><!--声明两台resourcemanager的地址-->
<property><name>yarn.resourcemanager.cluster-id</name><value>cluster-yarn1</value>
</property><property><name>yarn.resourcemanager.ha.rm-ids</name><value>rm1,rm2</value>
</property><property><name>yarn.resourcemanager.hostname.rm1</name><value>bigdata-training02.hpsk.com</value>
</property><property><name>yarn.resourcemanager.hostname.rm2</name><value>bigdata-training03.hpsk.com</value>
</property><!--指定zookeeper集群的地址--> 
<property><name>yarn.resourcemanager.zk-address</name><value>bigdata-training03.hpsk.com:2181,bigdata-training04.hpsk.com:2181,bigdata-training05.hpsk.com:2181</value>
</property><!--启用自动恢复--> 
<property><name>yarn.resourcemanager.recovery.enabled</name><value>true</value>
</property><!--指定resourcemanager的状态信息存储在zookeeper集群--> 
<property><name>yarn.resourcemanager.store.class</name>     <value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>
</property><!-- 日志聚集功能使能 -->
<property><name>yarn.log-aggregation-enable</name><value>true</value>
</property><!-- 日志保留时间设置7天 -->
<property><name>yarn.log-aggregation.retain-seconds</name><value>604800</value>
</property>

7、修改slaves文件

1、添加如下内容:

bigdata-training01.hpsk.com
bigdata-training02.hpsk.com
bigdata-training03.hpsk.com
bigdata-training04.hpsk.com
bigdata-training05.hpsk.com

8、分发文件

xsync参考CHD大数据平台搭建之xsync分发脚本

xsync hadoop-2.6.0-cdh5.7.6

9、配置环境变量

1、编辑配置文件

sudo vi /etc/profile

2、添加内容

# HADOOP_HOME
export HADOOP_HOME=/opt/modules/hadoop-2.6.0-cdh5.7.6
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

四、启动集群

1.启动ZOOKEEPER集群

在193、194、195三台机器启动ZK
zkServer.sh start

2.启动JournalNode

5台机器上面都执行
sbin/hadoop-daemon.sh start journalnode

3.格式化namenode

191上面格式化namenode
bin/hdfs namenode -format

4.格式化zkfc

191上面格式化zkfc
bin/hdfs zkfc -formatZK

5.启动zkfc

在191和193上启动zkfc
sbin/hadoop-daemon.sh start zkfc

6.启动namenode

在191上启动namenode
sbin/hadoop-daemon.sh start namenode

7.格式化secondarynamenode

在193上格式化namenode
bin/hdfs namenode -bootstrapStandby

8.启动secondarynamenode

在193上启动namenode
sbin/hadoop-daemon.sh start namenode

9.验证是否成功

1、191和193上的命令行输入jps命令,有namenode进程
2、网页端口查看:
10.192.8.191:50070和10.192.8.193:50070
一个是standby和一个active

10.启动datanode

所有机器启动datanode
sbin/hadoop-daemon.sh start datanode

11.启动resourcemanager

192和193上启动resourcemanager
sbin/yarn-daemon.sh start resourcemanager

12.启动nodemanager

所有机器启动nodemanager
sbin/yarn-daemon.sh start nodemanager

五、各个机器命令进程

1、10.192.8.191进程如下:
在这里插入图片描述
2、10.192.8.192进程如下:
在这里插入图片描述

3、10.192.8.193进程如下:
在这里插入图片描述

4、10.192.8.194进程如下:
在这里插入图片描述

5、10.192.8.195进程如下:
在这里插入图片描述

六、网页端口效果

1、namenode

1、10.192.8.191网页
在这里插入图片描述

2、10.192.8.193网页
在这里插入图片描述

resourcemanager

1、10.192.8.192
在这里插入图片描述
2、10.192.8.193
在这里插入图片描述

七、高可用测试

命令行kill -9 active状态的NN或者RN
查看另一个NN或者RN是否变成active

总结

到此hadoop集群也就搭建完成了,觉得写得可以的小伙伴可以点个赞,网盘大数据所需软件,需要的找前面链接下载哦。


http://chatgpt.dhexx.cn/article/vqgH53rj.shtml

相关文章

大数据平台搭建实训报告(思路而已)

目录 1.环境准备 1.1实验目的 1.2实践操作 2.部署HDFS 2.1实验步骤 2.2实践操作 3.实验三 HDFS shell操作 3.1实验目的 3.2实践操作 3.2.1练习对HDFS文件创建、查看、删除、复制、粘贴等文件操作 3.2.2练习本地文件与HDFS文件的上传与下载 3.2.3练习HDFS文件权限修…

CDH大数据平台搭建

Hadoop是apache旗下的一套开源软件平台, 主要对海量数据进行分布式处理。 本次部署&#xff0c;计划使用5台服务器&#xff0c;服务器磁盘规划如下&#xff1a; 分区挂载完成以后&#xff0c;使用root用户执行对目录/data授权。每台服务器都执行此命令。 chmod 777 -R /data …

Hadoop大数据平台搭建(一)

虚拟机准备&#xff08;本节针对于初学者&#xff09; vmawre、xshell、centos7镜像及搭建包自提地址已放在评论区。 目录 虚拟机准备&#xff08;本节针对于初学者&#xff09; 1、节点规划 2、虚拟机安装 3、启动虚拟机配置网关 总结 1、节点规划 2、虚拟机安装 这里的系统和…

大数据平台搭建详细流程(一)框架简介与平台准备

一、框架简介与平台准备 1.1、框架 1.2、硬件 CPU&#xff1a;四核、内存&#xff1a;4G、磁盘&#xff1a;50G hadoop102、hadoop103、hadoop104 1.3、操作系统 操作系统&#xff1a;Centos7&#xff08;最小系统&#xff09; 1.4、基础环境 1.4.1、网络配置 hadoop10…

Hadoop大数据平台搭建(超详细步骤)

相关软件下载链接&#xff1a; Xshell&#xff1a;家庭/学校免费 - NetSarang Website Xftp&#xff1a;家庭/学校免费 - NetSarang Website Xshell与Xftp官网&#xff1a;XSHELL - NetSarang Website Jdk&#xff1a;百度网盘 请输入提取码 提取码&#xff1a;jdhp Hado…

大数据实战平台环境搭建

大数据实战平台环境搭建 一、创建 Hadoop 用户二、更新apt和安装Vim编辑器三、安装 SSH 和配置 SSH 无密码登录四、安装 Java五、安装单机 Hadoop六、Hadoop 伪分布式安装七、HDFS常用命令八、HDFS实验之通过JAVA-API访问HDFS 一、创建 Hadoop 用户 1、创建 Hadoop 用户&#…

大数据基础平台搭建-(一)基础环境准备

大数据基础平台搭建-&#xff08;一&#xff09;基础环境准备 大数据平台系列文章&#xff1a; 1、大数据基础平台搭建-&#xff08;一&#xff09;基础环境准备 2、大数据基础平台搭建-&#xff08;二&#xff09;Hadoop集群搭建 3、大数据基础平台搭建-&#xff08;三&#x…

QList添加自定义结构体

QList中使用自定义结构体后&#xff0c;构建错误信息如下&#xff1a; 看内容是说需要重载&#xff0c;遂进行重载&#xff0c;如下&#xff1a; 重新构建&#xff0c;不再提示错误。

4.6 案例10 使用QList处理数据集

本案例对应的源代码目录&#xff1a;src/chapter04/ks04_06。 本节介绍Qt的数据处理类QList。如果要使用QList&#xff0c;需要包含其头文件<QList>。本案例也设计了三种编程场景对QList的使用进行介绍。 &#xff08;1&#xff09;向QList中添加成员并遍历。 &#x…

Qt· 常用容器之QList

目录 1、QList介绍 2、构造函数 3、插入函数 4、删除和移动类函数 5、访问和查询函数 6、替换、移动和交换函数 7、运算符函数 8、迭代器函数 9、容器类型转换函数 其他内容 1、QList介绍 在开始讲解 QList 之前&#xff0c;我们先明确一下 Qt 数据容器能存储什么&a…

QT QList<T>介绍与应用、详解、使用说明、官方手册翻译

文章目录 1. 简介2. 使用示例3. 官方手册4. Member Function Documentation 1. 简介 QList<T>是目前最常用的容器类 。它存储了给定类型的值的一个列表&#xff0c;而这些值可以通过索引访问。在内部&#xff0c;QList使用数组来实现&#xff0c;一确保进行快速的基于索…

Web后端开发入门(3)

在Eclipse中创建web项目 右键->new->Project->Web->Dynamic Web Project->下一步 Project name&#xff1a;给你的web项目起一个名称 Target runtime:你这个项目运行在哪一个web服务器上。点击New runtime&#xff0c;选择自己安装的服务器&#xff0c;然后点击…

【Delphi + Vue】Web后端动态图片传递给前端

在用Delphi做Web后台的时&#xff0c;有时需要用到后台动态生成二维码图片&#xff0c;给前端使用&#xff0c;虽然前端可以通过js库生成&#xff0c;目前流行的有 QR码生成器&#xff08;在线&#xff09;、QRCode.js&#xff08;支持本地&#xff09;、 arale-qrcode&#xf…

web搭建服务器端+创建web后端项目操作步骤

一、搭建服务器端 以前,我们的iava程序都是在本地运行,在idea执行main&#xff08;&#xff09;开始运行; 从javaEE开始,后端程序都是运行在服务器上,准备工作就是先要在我们的电脑上安装一个web服务器,把我们开发的java程序部署在服务器中,这样就可以从前端远程的通过网络进行…

从Web后端(Java)转到游戏服务端的感受

九零后的男生几乎都是玩电子游戏长大的&#xff0c;做游戏开发几乎是每个九零后男生从小就有的梦想吧。我的大学时代&#xff0c;正好与移动Web高速发展的时代重合了&#xff0c;大学里几乎所有同学都是做Web方向的开发&#xff0c;Web前端&#xff0c;Java后端等等。大四的秋招…

Python web后端开发框架 Django 、Flask、Tornado

深入学习Python &#xff0c;用Django做Web后端开发现在Python的用途愈来愈广&#xff0c;服务器、Web、游戏、爬虫、数据分析 以及人工智能 学习之路还很长技术之路 不能回头 陷进去 就出不来 就跟恋爱一般&#xff0c;学习中、项目中 印象笔记、有道云笔记、Onenote都记了好…

Web后端框架Springboot创建和基础讲解(一)

Springboot是一款底层由java编写的web后端框架&#xff0c;前身是spring框架&#xff0c;相较于前身框架而言&#xff0c;继承了其良好的兼容性以及扩展性&#xff0c;并且舍弃了大量繁杂的xml文件&#xff0c;将其改为依赖注入spirngboot框架的容器中&#xff0c;节省了工作者…

Web后端开发知识点整理

Web后端开发知识点整理 九大内置对象 1:为了方便开发者而在jsp页面加载完毕时而自动创建的内置对象 内置对象名 类型 request HttpServletRequest response HttpServletResponse config ServletConfig application ServletContext sessi…

wed后端和java的区别_web前端和web后端的区别详细分析

原标题&#xff1a;web前端和web后端的区别详细分析 在刚开始从事web开发时&#xff0c;首先要选准学习方向&#xff0c;看是想从事前端部分还是后端程序部分。当然在工作的后期&#xff0c;就不会分的那么细致了。做前端到后期也会懂一些后端的技术&#xff0c;反之&#xff0…