4.Hadoop环境配置

article/2025/10/8 22:10:16

4. 集群配置

4.1 集群部署规划

安装前先做好节点规划,完全分布式目前规划1个主节点(Master)和2个从节点(Slave)一共三个节点。
部署规划要求:

  • NameNode和SecondaryNameNode不要安装在同一台服务器。
  • ResourceManager也很消耗内存,不要和NameNode、SecondaryNameNode配置在同一台机器上。
hadoop102hadoop103hadoop104
HDFSNameNodeDataNodeDataNodeSecondaryNameNodeDataNode
YARNNodeManagerResourceManagerNodeManagerNodeManager

4.2 配置文件说明

Hadoop配置文件分两类:默认配置文件和自定义配置文件,只有用户想修改某一默认配置值时,才需要修改自定义配置文件,更改相应属性值。

  1. 默认配置文件:
要获取的默认文件文件存放在Hadoop的jar包中的位置
[core-default.xml]hadoop-common-3.1.3.jar/core-default.xml
[hdfs-default.xml]hadoop-hdfs-3.1.3.jar/hdfs-default.xml
[yarn-default.xml]hadoop-yarn-common-3.1.3.jar/yarn-default.xml
[mapred-default.xml]hadoop-mapreduce-client-core-3.1.3.jar/mapred-default.xml

以上文件参数很多,具体使用时可以访问Hadoop官方文档,进入文档底部的Configuration部分进行学习和查看。
在这里插入图片描述

  1. 自定义配置文件:

core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml四个配置文件存放在$HADOOP_HOME/etc/hadoop这个路径上,用户可以根据项目需求重新进行修改配置。

[li@hadoop102 ~]$ cd /opt/module/hadoop-3.1.3/etc/hadoop
[li@hadoop102 hadoop]$ ll
总用量 176
-rw-r--r--. 1 li li  8260 912 2019 capacity-scheduler.xml
-rw-r--r--. 1 li li  1335 912 2019 configuration.xsl
-rw-r--r--. 1 li li  1940 912 2019 container-executor.cfg
-rw-r--r--. 1 li li   774 912 2019 core-site.xml #
-rw-r--r--. 1 li li  3999 912 2019 hadoop-env.cmd
-rw-r--r--. 1 li li 15903 912 2019 hadoop-env.sh
-rw-r--r--. 1 li li  3323 912 2019 hadoop-metrics2.properties
-rw-r--r--. 1 li li 11392 912 2019 hadoop-policy.xml
-rw-r--r--. 1 li li  3414 912 2019 hadoop-user-functions.sh.example
-rw-r--r--. 1 li li   775 912 2019 hdfs-site.xml #
-rw-r--r--. 1 li li  1484 912 2019 httpfs-env.sh
-rw-r--r--. 1 li li  1657 912 2019 httpfs-log4j.properties
-rw-r--r--. 1 li li    21 912 2019 httpfs-signature.secret
-rw-r--r--. 1 li li   620 912 2019 httpfs-site.xml
-rw-r--r--. 1 li li  3518 912 2019 kms-acls.xml
-rw-r--r--. 1 li li  1351 912 2019 kms-env.sh
-rw-r--r--. 1 li li  1747 912 2019 kms-log4j.properties
-rw-r--r--. 1 li li   682 912 2019 kms-site.xml
-rw-r--r--. 1 li li 13326 912 2019 log4j.properties
-rw-r--r--. 1 li li   951 912 2019 mapred-env.cmd
-rw-r--r--. 1 li li  1764 912 2019 mapred-env.sh
-rw-r--r--. 1 li li  4113 912 2019 mapred-queues.xml.template
-rw-r--r--. 1 li li   758 912 2019 mapred-site.xml #
drwxr-xr-x. 2 li li  4096 912 2019 shellprofile.d
-rw-r--r--. 1 li li  2316 912 2019 ssl-client.xml.example
-rw-r--r--. 1 li li  2697 912 2019 ssl-server.xml.example
-rw-r--r--. 1 li li  2642 912 2019 user_ec_policies.xml.template
-rw-r--r--. 1 li li    10 912 2019 workers
-rw-r--r--. 1 li li  2250 912 2019 yarn-env.cmd
-rw-r--r--. 1 li li  6056 912 2019 yarn-env.sh
-rw-r--r--. 1 li li  2591 912 2019 yarnservice-log4j.properties
-rw-r--r--. 1 li li   690 912 2019 yarn-site.xml #

4.3 配置集群

要在多台计算机上进行hadoop集群搭建,还需要对相关配置文件进行修改,来保证集群服务协调运行。进入/opt/module/hadoop-3.1.3/etc/hadoop目录,并修改core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml、workers共5个配置文件的内容。

4.3.1 配置core-site.xml文件

core-site.xml是Hadoop的核心配置文件,用于配置HDFS地址、端口号、以及临时文件目录,即fs.defaultFS和hadoop.tmp.dir。fs.defaultFS配置了Hadoop的HDFS文件系统的NameNode端口。hadoop.tmp.dir配置了Hadoop的临时文件的目录。
将目录切换到/etc/hadoop

[li@hadoop102 ~]$ cd /opt/module/hadoop-3.1.3/etc/hadoop/

使用vim编辑器打开文件

[li@hadoop102 hadoop]$ vim core-site.xml

文件内容如下:

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!--Licensed under the Apache License, Version 2.0 (the "License");you may not use this file except in compliance with the License.You may obtain a copy of the License at[http://www.apache.org/licenses/LICENSE-2.0](http://www.apache.org/licenses/LICENSE-2.0)Unless required by applicable law or agreed to in writing, softwaredistributed under the License is distributed on an "AS IS" BASIS,WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.See the License for the specific language governing permissions andlimitations under the License. See accompanying LICENSE file.
--><!-- Put site-specific property overrides in this file. -->
<configuration><!-- 指定NameNode的地址 --><property><name>fs.defaultFS</name><value>hdfs://hadoop102:8020</value></property><!-- 指定hadoop数据的存储目录 --><property><name>hadoop.tmp.dir</name><value>/opt/module/hadoop-3.1.3/data</value></property><!-- 配置HDFS网页登录使用的静态用户为li --><property><name>hadoop.http.staticuser.user</name><value>li</value></property>
</configuration>

上述文件配置了HDFS的主进程NameNode运行主机(Hadoop集群的主节点),同时配置了Hadoop运行时生成数据的临时目录。
:wq保存退出。

4.3.2 配置hdfs-site.xml文件

hdfs-site.xml设置了HDFS相关的配置,HDFS的NameNode和DataNode两大进程。dfs.namenode.name.dir和dfs.datanode.data.dir分别指定了NameNode元数据和DataNode数据存储位置。dfs.namenode.secondary.http-address配置了SecondaryNameNode的地址。dfs.replication配置了文件块的副本数,默认为3个副本,不作修改。
打开hdfs-site.xml文件:

[li@hadoop102 hadoop]$ vim hdfs-site.xml

文件内容如下:

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!--Licensed under the Apache License, Version 2.0 (the "License");you may not use this file except in compliance with the License.You may obtain a copy of the License at[http://www.apache.org/licenses/LICENSE-2.0](http://www.apache.org/licenses/LICENSE-2.0)Unless required by applicable law or agreed to in writing, softwaredistributed under the License is distributed on an "AS IS" BASIS,WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.See the License for the specific language governing permissions andlimitations under the License. See accompanying LICENSE file.
-->
<!-- Put site-specific property overrides in this file. -->
<configuration><!-- nn web端访问地址--><property><name>dfs.namenode.http-address</name><value>hadoop102:9870</value></property><!-- 2nn web端访问地址--><property><name>dfs.namenode.secondary.http-address</name><value>hadoop104:9868</value></property>
</configuration>

上述文件配置了NameNode的web访问地址,SecondaryNameNode所在主机的HTTP地址。
:wq保存退出。

4.3.3 配置mapred-site.xml文件

mapred-site.xml设置了MapReduce框架的相关配置,由于Hadoop 3.x使用了YARN框架,所以必须指定mapreduce.framework.name配置项的值为“yarn”。mapreduce.jobhistory.address和mapreduce.jobhistoryserver.webapp.address是JobHistoryserver的相关配置,即运行MapReduce任务的日志相关服务端口。此文件用于指定MapReduce运行框架,是MapReduce的核心配置文件。
打开mapred-site.xml文件

[li@hadoop102 hadoop]$ vim mapred-site.xml

文件内容如下:

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!--Licensed under the Apache License, Version 2.0 (the "License");you may not use this file except in compliance with the License.You may obtain a copy of the License at[http://www.apache.org/licenses/LICENSE-2.0](http://www.apache.org/licenses/LICENSE-2.0)Unless required by applicable law or agreed to in writing, softwaredistributed under the License is distributed on an "AS IS" BASIS,WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.See the License for the specific language governing permissions andlimitations under the License. See accompanying LICENSE file.
-->
<!-- Put site-specific property overrides in this file. -->
<configuration><!-- 指定MapReduce程序运行在Yarn上 --><property><name>mapreduce.framework.name</name><value>yarn</value></property><!-- 历史服务器端地址 -->
<property><name>mapreduce.jobhistory.address</name><value>hadoop102:10020</value>
</property><!-- 历史服务器web端地址 -->
<property><name>mapreduce.jobhistory.webapp.address</name><value>hadoop102:19888</value>
</property>
</configuration>

上述配置文件中,设置了执行框架设置为YARN。
:wq保存退出。

4.3.4 配置yarn-site.xml文件

yarn-site.xml文件设置了YARN框架的相关配置,文件中命名了一个yarn.resourcemanager.hostname的变量,指定YARN集群的管理者在YARN的相关配置中可以直接引用该变量,其他配置保持不变即可。
打开yarn-site.xml文件

[li@hadoop102 hadoop]$ vim yarn-site.xml

文件内容如下:

<?xml version="1.0"?>
<!--Licensed under the Apache License, Version 2.0 (the "License");you may not use this file except in compliance with the License.You may obtain a copy of the License athttp://www.apache.org/licenses/LICENSE-2.0Unless required by applicable law or agreed to in writing, softwaredistributed under the License is distributed on an "AS IS" BASIS,WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.See the License for the specific language governing permissions andlimitations under the License. See accompanying LICENSE file.
-->
<configuration><!-- Site specific YARN configuration properties -->
<!-- 指定MR走shuffle --><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><!-- 指定ResourceManager的地址--><property><name>yarn.resourcemanager.hostname</name><value>hadoop103</value></property><!-- 环境变量的继承 --><property><name>yarn.nodemanager.env-whitelist</name><value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value></property>
</configuration>

上述配置文件中,配置了YARN的主进程ResourceManager运行主机为hadoop103,将NodeManager运行时的附属服务配置为:mapreduce_shuffle以及环境变量的继承。
:wq保存。

其他配置也可以参考hadoop官方文档进行,网址:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/ClusterSetup.html

4.3.5 配置workers

workers文件保存的是从节点(slave节点)的信息。

[li@hadoop102 ~]$ vim /opt/module/hadoop-3.1.3/etc/hadoop/workers

在该文件中增加如下内容:

hadoop102
hadoop103
hadoop104

注意:该文件中添加的内容结尾不允许有空格,文件中不允许有空行。
:wq保存退出。

4.3.6 配置日志的聚集

日志聚集概念:应用运行完成以后,将程序运行日志信息上传到HDFS系统上。
在这里插入图片描述
日志聚集功能好处:可以方便的查看到程序运行详情,方便开发调试。
注意:开启日志聚集功能,需要重新启动NodeManager 、ResourceManager和HistoryServer。
开启日志聚集功能具体步骤如下:

  1. 配置yarn-site.xml
[li@hadoop102 hadoop]$ vim yarn-site.xml

添加如下配置:

<!-- 开启日志聚集功能 -->
<property><name>yarn.log-aggregation-enable</name><value>true</value>
</property>
<!-- 设置日志聚集服务器地址 -->
<property>  <name>yarn.log.server.url</name>  <value>[http://hadoop102:19888/jobhistory/logs</value>
</property>
<!-- 设置日志保留时间为7天 -->
<property><name>yarn.log-aggregation.retain-seconds</name><value>604800</value>
</property>

:wq保存。

4.4 在集群上分发配置好的Hadoop配置文件

使用xsync工具进行文件分发:

[li@hadoop102 hadoop]$ xsync /opt/module/hadoop-3.1.3/etc/hadoop/

4.5 查看文件分发情况

到hadoop103和hadoop104上查看文件分发情况:

[li@hadoop103 hadoop]$ cat /opt/module/hadoop-3.1.3/etc/hadoop/core-site.xml
[li@hadoop104 hadoop]$ cat /opt/module/hadoop-3.1.3/etc/hadoop/core-site.xml

集群配置完成。


http://chatgpt.dhexx.cn/article/x2LtCMmv.shtml

相关文章

hadoop环境配置

hadoop环境配置 一、VmWare与linux版本VmWare版本&#xff1a;linux版本 二、使用VmWare来安装linux软件三、三台linux服务器环境准备1、三台机器IP设置2、三台机器关闭防火墙3、三台机器关闭selinux4、三台机器更改主机名5、三台机器更改主机名与IP地址映射6、三台机器同步时间…

hadoop详细安装及配置

一、下载 http://hadoop.apache.org/ hadoop官网 二、解压 注&#xff1a;使用管理员权限解压 三、配置环境变量 添加HADOOP_HOME配置&#xff1a;自己安装hadoop路径&#xff0c;我的是D:\hadoop-3.0.3 在Path中添加如下&#xff1a;自己安装hadoop路径/bin&#xff0c;…

Hadoop集群的配置

一.、创建虚拟机 (10条消息) CentOS 7 虚拟机的搭建_仄言2997的博客-CSDN博客 1. 创建虚拟机 2. 安装 CentOS 二、虚拟机网络设置 (10条消息) 虚拟机网络配置_仄言2997的博客-CSDN博客 三、 安装JDK (10条消息) 虚拟机安装jdk&#xff0c;运行java文件_仄言2997的博客-CSDN博客…

Hadoop集群环境配置搭建

一、简单介绍 Hadoop最早诞生于Cutting于1998年左右开发的一个全文文本搜索引擎 Lucene&#xff0c;这个搜索引擎在2001年成为Apache基金会的一个子项目&#xff0c;也是 ElasticSearch等重要搜索引擎的底层基础。 项目官方&#xff1a;https://hadoop.apache.org/ 二、Linux环…

超详解Hadoop集群环境配置,步步附有截图,一篇讲解清楚

写在最前&#xff0c;在配置Hadoop之前&#xff0c;要确定已经准备好了Hadoop的准备环境&#xff0c;并且已经在机器上安装完了Hadoop&#xff0c;以及编写了一些必要的集群脚本&#xff0c;具体操作详情见这两篇文章 Hadoop安装及集群脚本编写 Hadoop集群准备环境搭建 一、Ha…

大数据开发之Hadoop学习3--Hadoop运行模式

Hadoop运行模式 目录 Hadoop运行模式 4.1 本地运行模式&#xff08;官方wordcount&#xff09; 4.2 完全分布式运行模式 4.2.1 虚拟机准备 4.2.2 编写集群分发脚本xsync 4.2.3 SSH无密登录配置 4.2.4 集群配置 4.2.5 群起集群 4.2.6 集群启动/停止方式总结 4.2.7 配置…

Hadoop完全分布式集群——Hadoop 配置

前面已完成VMware虚拟机安装与配置&#xff08;参考前一篇Hadoop完全分布式集群——VMware虚拟机安装与配置_夏雨和阳阳的博客-CSDN博客&#xff09;&#xff0c;下面将进行Hadoop 配置。 一、slave1、slave2节点配置修改 slave1、slave2节点都需要进行以下操作&#xff1a; …

简易员工信息管理系统

这是一个虽然简单但很有代表性和借鉴性的管理系统。没有使用现有框架SSH等&#xff0c;使用自有JavaBeanJSPServlet技术。 该系统的源码经过细心打磨&#xff0c;可以作为去Spring框架的简单Web系统开发模板使用&#xff0c;从设计模式、函数式编程、Lambda表达式、业务分层、页…

基于SSH学生请假管理系统

【A-021】基于SSH学生请假管理系统 开发环境&#xff1a; Eclipse/MyEclipse、Tomcat8、Jdk1.8 数据库&#xff1a; MySQL &#xff08;1&#xff09;管理员模块 定义一个最高级管理员&#xff0c;可以对整个系统进行查询修改等操作&#xff0c;浏览修改其他管理员的相关信息…

简单的员工信息管理系统

需求&#xff1a; 做一个简易命令行版本的员工信息管理系统 现有员工&#xff1a;张三&#xff0c;年龄23&#xff0c;工号9527&#xff1b;李四&#xff0c;年龄32&#xff0c;工号&#xff0c;007&#xff1b; 王五&#xff0c;年龄22&#xff0c;工号&a…

员工考勤系统

需求&#xff1a; 一、用户管理 1、用户列表 列表字段&#xff1a;姓名、登录名、性别、手机号、薪资、岗位、角色 列表按钮&#xff1a;编辑、启用、停用、重置密码 搜索条件&#xff1a;用户名、状态&#xff08;启用停用&#xff09; 顶部按钮&#xff1a;新增用户 导入、导…

企业如何利用OA系统轻松管理员工请休假

企业的员工想请个假&#xff0c;为什么人事和员工都在喊难&#xff1f; 员工请假麻烦&#xff1a; 不知道自己还有多少年假没有休&#xff0c;每次都要去人事那里查&#xff0c;有事请假要找领导报备交接工作&#xff0c;填完单子还要找领导签字&#xff0c;如果哪天请假领导出…

JavaEE技术的员工请假管理系统的设计与实现

摘 要 近年来&#xff0c;随着网络产业的飞速发展&#xff0c;人们的日常生活和工作方式也随之发生变化。许多公司正在把常规的工作方式与因特网相融合&#xff0c;借助因特网的力量来提升管理者的工作能力。当前很多员工请假管理系统工作都有很多问题&#xff0c;所以针对员…

人事管理系统如何做好员工考勤管理?

企业考勤管理的主要难题在于考勤、排班、假勤这三块&#xff0c;对于考勤来说&#xff0c;往往存在一些漏打卡、代打卡、打卡慢的情况&#xff1b; 对于排班&#xff0c;存在着多班次混排的情况&#xff0c;对各人员调配、设备调配、轮班作业、生产计划调整等有复杂调配需求&a…

【023】Springboot+vue+mysql员工考勤管理系统(多角色登录、请假、打卡)(含源码、数据库、运行教程)

前排提示&#xff1a;项目源码已放在文末 开发环境&#xff1a;SpringbootMysqlVueNodejsMavenJDK1.8 技术栈&#xff1a;spring-boot、mysql、mybatis-plus、druid连接池。 部分功能及代码介绍&#xff1a; 1.员工类型&#xff1a;部门经理、副总经理、总经理、人事人员、财务…

【024】Vue+Springboot+mysql员工考勤管理系统(多角色登录、请假、打卡)(含源码、数据库、运行教程、实验报告)

前排提示&#xff1a;项目源码已放在文末 基于VueSpringbootmysql员工考勤管理系统(多角色登录、请假、打卡) 开发环境&#xff1a;SpringbootMysqlVueNodejsMavenJDK1.8 技术栈&#xff1a;spring-boot、mysql、mybatis-plus、druid连接池。 与【023】相比&#xff0c;【024…

java企业员工考勤请假工资人事管理系统springboot+vue

springboot是spring家族中的一个全新框架&#xff0c;用来简化spring程序的创建和开发过程。在以往我们通过SpringMVCSpringMybatis框架进行开发的时候&#xff0c;我们需要配置web.xml&#xff0c;spring配置&#xff0c;mybatis配置&#xff0c;然后整合在一起&#xff0c;而…

学生请假管理系统--UML画图

参与者 学生、班主任、学工处、学校领导、教务管理系统 功能 学生 销假请假/续假查看&#xff08;请假/销假/续假&#xff09;进度查询个人请假记录 班主任 查询班级请假记录审批学生请假/销假/续假信息 学工处 审批学生请假/销假/续假信息设置规则查询数据 学校领导 …

员工管理系统

一.项目介绍&#xff1a; 该项目主要是实现了管理员和普通用户登录功能&#xff0c;登录后会出现相应的功能菜单。管理员的功能菜单包括查询、修改、添加用户、删除用户、查询历史记录、退出功能&#xff0c;其中查询分为按人名查找和查找所有&#xff0c;修改可以按照…

ssm员工考勤签到请假管理系统 idea maven

1、管理员账号&#xff1a;abo 密码&#xff1a;abo 2、开发环境为Eclipse/idea&#xff0c;数据库为mysql 使用java语言开发。 3.eclipse配置好tomcat 即可打开首页 idea tomcat部署处 必须用项目名 ,不能带_war 4.数据库连接src\main\resources\config.properties中修改 5…