基于ubuntu的hadoop完全分布式集群搭建

article/2025/9/10 8:19:21

借鉴网址1

借鉴网址2

hadoop官方配置教程

搭建虚拟机,克隆(或者先配置JAVA和Hadoop环境再克隆,之后要改主机名和映射以及SSH免密)

可以利用xsync集群分发脚本一台机器配置其他机器分发

修改主机名和ip映射

image 20211225111029478

检查

image 20211225111146251

配置ssh免密登录

这里地址为 ~/.ssh

image 20211225111217552

配置JAVA

image 20211225111337232

Hadoop配置

image 20211225113939916

Hadoop完全分布式集群搭建

    #Hadoop’s Java configuration is driven by two types of important configuration files:1.Read-only default configuration - core-default.xml, hdfs-default.xml, yarn-default.xml and mapred-default.xml.#默认配置文件在官网可以找到2.Site-specific configuration - etc/hadoop/core-site.xml, etc/hadoop/hdfs-site.xml, etc/hadoop/yarn-site.xml and etc/hadoop/mapred-site.xml. #这些都在etc/hadoop/中

集群分配示意图

image 20211225115302262

/*For large installations, these are generally running on separate hosts.*/
HDFS daemons are NameNode, SecondaryNameNode, and DataNode.
​
YARN daemons are ResourceManager, NodeManager, and WebAppProxy.
​
If MapReduce is to be used, then the MapReduce Job History Server will also be running.

开始配置

  1. etc/hadoop/hadoop-env.sh中配置JAVA_HOME

image 20211225131226404

  1. 配置core-site.xml

##core-site.xml  自己决定参数
<configuration><!-- 指定 NameNode 的地址 --><property><name>fs.defaultFS</name><value>hdfs://Master:8080</value></property>
​<!-- 指定 hadoop 数据的存储目录 --><property><name>hadoop.tmp.dir</name><value>/usr/local/hadoop/tmp</value></property>
</configuration>
​
  1. 配置hdfs-site.xml

<configuration><!-- nn web 端访问地址--><property><name>dfs.namenode.http-address</name><value>Master:9870</value></property>
​<!-- 2nn web 端访问地址--><property><name>dfs.namenode.secondary.http-address</name><value>Slave2:9868</value></property>
​<property><name>dfs.namenode.name.dir</name><value>file:/usr/local/hadoop/tmp/dfs/name</value></property>
​<property><name>dfs.datanode.data.dir</name><value>file:/usr/local/hadoop/tmp/dfs/data</value></property>
</configuration>
  1. 配置 yarn-site.xml

<configuration><!-- 指定 MR 走 shuffle --><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><!-- 指定 ResourceManager 的地址--><property><name>yarn.resourcemanager.hostname</name><value>Slave1</value></property><property><name>yarn.resourcemanager.webapp.address</name><value>Slave1:8088</value></property>
</configuration>
  1. 配置mapred-site.xm

<configuration><!-- 指定 MapReduce 程序运行在 Yarn 上 --><property><name>mapreduce.framework.name</name><value>yarn</value></property>
</configuration>

配置workers

List all worker hostnames or IP addresses in your etc/hadoop/workers file, one per line. Helper scripts (described below) will use the etc/hadoop/workers file to run commands on many hosts at once. It is not used for any of the Java-based Hadoop configuration. In order to use this functionality, ssh trusts (via either passphraseless ssh or some other means, such as Kerberos) must be established for the accounts used to run Hadoop.
Master
Slave1
Slave2

同步所有节点配置文件(这里使用xsync同步文件脚本)

xsync脚本编写 并且配置到PATH里 可以echo $PATH然后随便找个地方丢进去

image 20211225143209021

更改执行权限 chmod 777 xsync

随便建一个文件测试是否能传到其他服务器上

image 20211225143847038

xsync同步 可以看到文件更新

image 20211225150705880

启动hadoop集群

在Master节点上

首次启动需要格式化 只有首次启动需要

image 20211225152439697

启动HDFS

image 20211225152305466

在配置了ResourceManager的节点启动Yarn

这里是Slave1

image 20211225152657396

在Slave1配置historyserver

查看是否配置完成(与之前画的图一样)

image 20211225225933820

image 20211225225943211

image 20211225225958329

尝试web页面是否能打开

hdfs:

http://master:9870

如果在主机里没有配置master与ip地址关联的话

http://master的ip地址:9870

image 20211225230455684

同理试试yarn:

http://Slave1:8088

image 20211225230637273

由此,Hadoop集群配置完成

xsync

#!/bin/bash
#1. 判断参数个数
if [ $# -lt 1 ]
thenecho Not Enough Arguement!exit;
fi
​
#2. 遍历集群所有机器
for host in Master Slave1 Slave2 ##这里注意更改!!
doecho ==================== $host ====================#3. 遍历所有目录,挨个发送for file in $@do#4. 判断文件是否存在if [ -e $file ]then#5. 获取父目录pdir=$(cd -P $(dirname $file); pwd)#6. 获取当前文件的名称fname=$(basename $file)ssh $host "mkdir -p $pdir"rsync -av $pdir/$fname $host:$pdirelseecho $file does not exists!fidone
done

http://chatgpt.dhexx.cn/article/pnR0w0Yi.shtml

相关文章

Linux 部署Hadoop伪分布式集群教程

首先&#xff1a;我们需要下载一些关于Hadoop伪分布式集群需要的工具与tar包 链接&#xff1a; https://pan.baidu.com/s/1oUw1jDCxfghWsnaWauSHKg 提取码&#xff1a;6s5a 接下来打开虚拟机终端&#xff0c;先创建一个文件夹用来解压Hadoop的tar包 接着使用xshell远程连接到…

Jmeter分布式集群

一、背景 JMeter是一款非常不错的开源压力测试工具&#xff0c;但在使用过程中也会遇到比较多问题排查&#xff0c;例如&#xff1a;起压机&#xff08;客户端&#xff09;请求并发数无法达到既定目标量、报内存溢出错误、错误事务数过高&#xff1b; JMeter有两种运行模式&a…

hadoop分布式集群搭建

Hadoop入门 1. 了解Hadoop 1.1 Hadoop 的优势&#xff08;4高&#xff09; 高可靠性&#xff1a;存在多个数据副本&#xff0c;即使某个元素或存储出现故障&#xff0c;也不会导致数据的丢失 高拓展性&#xff1a;在集群见分配任务数据&#xff0c;可方便的拓展数以千计的节…

一文快速学会hadoop完全分布式集群搭建,很详细

文章目录 前言一、准备工作二、克隆三台虚拟机并进行网络配置克隆虚拟机克隆引导修改网络配置验证验证方式一验证方式二 三、安装jdk和hadoop四、ssh免密登录配置概述生成公钥和私钥把公钥拷贝到三台虚拟机上面去验证把hadoop103 和 hadoop104的免密登录配置安装上面的操作再做…

搭建Hadoop分布式集群的详细教程

目录 写在前面 一、创建虚拟机&#xff0c;安装Centos 二、VMware VMnet8模式共享主机网络配置 三、克隆集群节点HadoopSlave1与HadoopSlave2 四、Linux系统配置 五、Hadoop的部署配置 六、Hadoop集群的启动 写在前面 搭建Hadoop集群的过程比较复杂&#xff0c;本文旨在…

五大分布式集群架构问题解决方案

前言 什么是分布式集群&#xff1f; 这里有两个概念&#xff1a;分布式和集群。 分布式&#xff1a;分布式是指将不同的业务分布在不同的地方或者同一个业务模块分拆多个子业务&#xff0c;部署在不同的服务器上&#xff0c;解决高并发的问题。分布式中的每一个节点&#xf…

redis分布式集群搭建

一、软件环境信息 1、redis版本要求&#xff1a;3.0及之后版本 2、服务节点个数要求: 至少3个主节点&#xff0c;其中主节点不少于节点总数的一半&#xff1b;至多16384个节点&#xff1b;每个主节点至少有一个从节点&#xff0c;故redis集群模式至少需要6个服务节点。 3、…

大数据Hadoop集群搭建 1(伪分布式集群)

目录 Hadoop集群简介 Hadoop集群具体来说包含两个集群&#xff1a;HDFS集群和YARN集群。 Hadoop集群的部署方式分为三种&#xff0c;分别是单机模式、伪分布式模式和完全分布式模式。 环境搭建 1.修改主机名 2.修改时区 4.配置ssh免密 5.安装Hadoop 目录结构 配置文件说…

HADOOP 伪分布式集群搭建

一 linux 环境的搭建 由于笔者这里使用的是vmware 虚拟机 采用centos7 linux 操作系统进行搭建&#xff0c;所以一下示例均以centos7进行示例 1. 搭建vmware 虚拟机 &#xff08;1&#xff09;创建好虚拟机后采用linux ISO镜像文件启动安装centos7操作系统&#xff08;其它…

Zookeeper分布式集群部署

文章目录 一&#xff1a;zookeeper安装包下载安装1.下载安装包2.上传安装包3.解压安装包4.改名 二&#xff1a;zookeeper集群配置1.修改zoo.cfg配置文件2.创建myid文件3.配置系统环境变量4.分发zookeeper相关文件至从节点slave1&#xff0c;slave2 三&#xff1a;zookeeper服务…

漫话:如何给女朋友解释什么是分布式和集群?

作者 | 漫小画 公号 | 漫话编程 漫小画 擅长漫话 程小员 擅长编程 某天&#xff0c;下班较早&#xff0c;我正在玩吃鸡&#xff0c;已经到决赛圈了&#xff0c;这时候&#xff0c;女朋友满脸求知欲的朝我走过来。 上次他们都说你给我讲的面向对象太简单了。 那你想怎样&#xf…

什么是分布式集群?

首先来说一下集群的概念&#xff0c;集群是指将多台服务器集中起来一起进行同一种服务。相比一台服务器&#xff0c;集群的优势在于将负载均衡到每台服务器上&#xff0c;可以承载更高的访问量。 分布式又是什么呢&#xff0c;分布式指的是将工作进行业务拆分&#xff0c;然后…

什么是分布式,分布式和集群的区别又是什么?这一篇让你彻底明白!

1. 什么是分布式 ? 分布式系统一定是由多个节点组成的系统。 其中&#xff0c;节点指的是计算机服务器&#xff0c;而且这些节点一般不是孤立的&#xff0c;而是互通的。 这些连通的节点上部署了我们的节点&#xff0c;并且相互的操作会有协同。 分布式系统对于用户而言&a…

什么是集群?什么是分布式?集群与分布式的区别,集群和分布式的关系。

什么是集群 假如你开发了一个程序供大家使用&#xff0c;当然会把开发好的程序放到应用服务器中&#xff0c;刚开始用户量不大&#xff0c;用户访问的正常&#xff0c;服务器压力小。 但是随着用户量的增大&#xff0c;一台服务器不足以支撑系统的正常运行。 于是你决定把程…

python 除法符号_python的除法运算符是什么

python的除法运算符是什么&#xff1f;python中除法运算符有两类&#xff0c;一种是浮点除法运算符&#xff0c;另一种是整除除法运算符。 1. / 浮点除法&#xff0c;就算分子分母都是int类型&#xff0c;也返回float类型&#xff0c;比如我们用4/2&#xff0c;返回2.0 2. // …

c语言和Python整除符号,互联网常识:python除法运算符有哪些

python除法运算符&#xff1a;1、“/”运算符&#xff0c;按照常规数学除法计算的方式直接得出结果即可&#xff1b;2、“//”运算符&#xff0c;取整除&#xff0c;返回商的整数部分(向下取整)&#xff1b;3、“%”运算符&#xff0c;返回除法的余数。 本教程操作环境&#xf…

python的除法_python中的除法

广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 截断表示截断小数分,取整数部分的意思。 实际应用中,精确除法比截断除法更频繁,所以有的书上,精确除法也叫普通除法(也就是常用除法) 也有人把精确除法叫浮…

python 整除及余数_python除法余数

广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 常量常量就是不变的变量,在python中,通常用大写的变量名表示常量,这一点和java想相同:ali_address=ali_address=www.alibaba.com4.除法python中和除法...- …

Python 计算之除法

文章目录 1. 除法 /2. 四舍五入round()3. 浮点数取整int()4. 地板除 //5. 向上取整math.ceil()6. 取小数和整数部分math.modf() 1. 除法 / a,b 95,20 c a/b print(a,a,b,b,c,c)运行结果&#xff1a; a 95 b 20 c 4.752. 四舍五入round() round()的第2个位置参数表示取小数…

微信小程序框架(思维导图)

这是小编整理的一份关于微信小程序框架的思维导图&#xff0c;建议大家电脑点击图片查看哦&#xff01;