Hadoop 安装与配置

article/2025/10/18 10:01:08
  1. 创建虚拟机

这里需要下载ubuntu操作系统

  1. 创建一个hadoop用户,并使用/bin/bash 作为shell

虚拟机打开成功后,打开终端Terminal,开始创建hadoop用户

sudo useradd -m hadoop -s /bin/bash

为hadoop设置一个密码

sudo passwd hadoop

为后续操作方便,这里对hadoop用户添加管理员的权限

sudo adduser hadoop sudo

右上角注销登录,使用我们新添加的hadoop用户

选择 Switch User,更换到我们刚刚创建的新用户hadoop

以上可以在创建虚拟机时直接创建为hadoop。

这里我们先对电脑上的软件更新一下,避免后续软件安装时因为软件没有更新而失败

sudo apt-get update

3.hadoop 中的集群单点模式需要使用到SSH登录,Ubuntu默认参数了SSH client,我们需要再安装SSH Server

sudo apt-get install openssh-server

我们使用SSH登录远程服务器

ssh localhost

这里需要输入yes

因为每次需要输入密码,同时hadoop启动需要免密,我们须配置成无密码登录

首先退出ssh,回到终端窗口

exit

进入到ssh目录中

cd ~/.ssh/

然后利用ssh-keygen生成密钥

ssh-keygen -t rsa

会有提示,都按回车就可以

然后将密钥加入到授权中,此时再使用ssh localhost命令就无需登录密码了

cat ./id_rsa.pub >> ./authorized_keys

4.安装jdk

接下来我们需要安装java环境,cd返回主目录,安装jdk-8

sudo apt-get install openjdk-8-jdk

查看java版本

java -version

然后配置java环境

gedit ~/.bashrc

在文件最前面添加

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

使环境变量生效

source ~/.bashrc

查看设置的环境变量是否生效

echo $JAVA_HOME

查看是否是自己安装的java路径和版本

java -version
whereis java

以上安装和配置好后,就可以安装hadoop了.

5.下载hadoop

5.1 方法一

hadoop的安装包可以从火狐浏览器直接下载

链接:https://hadoop.apache.org/releases.html

解压

sudo tar -zxf ~/Downloads/hadoop-3.2.4.tar.gz  -C /usr/local/
5.2 方法二

或者通过手动下载,共享hadoop压缩包的文件夹

接着进入共享文件夹

cd /mnt/hgfs
ls

共享文件夹的地址,根据实际情况

cd BaiduNetdiskDownload/  
ls

注意版本不同要修改,根据实际下载版本

sudo tar -zxvf hadoop-3.1.0.tar.gz  -C /usr/local/   

6. 进入local目录,查看hadoop安装情况

cd /usr/local/

使用ls可以看到,现在的文件夹名为hadoop-3.2.4(根据下载版本),为了方便,我们将文件夹名称改为hadoop

sudo mv hadoop-3.2.4 hadoop

然后修改文件权限

sudo chown -R hadoop ./hadoop

可以来查看我们解压的hadoop是否可用

cd hadoop
./bin/hadoop version

7.hadoop 单机模式调试

Hadoop 默认模式为非分布式模式,无需进行其他配置即可运行。非分布式即单 Java 进程,方便进行调试。

我们可以执行例子来感受下 Hadoop 的运行。选择运行 grep 例子,我们将 input 文件夹中的所有文件作为输入,筛选当中符合正则表达式 dfs[a-z.]+ 的单词并统计出现的次数,最后输出结果到 output 文件夹中。

mkdir ./input
cp ./etc/hadoop/*.xml ./input
./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep ./input ./output 'dfs[a-z.]+'
cat ./output/*    

可以看到符合正则的单词出现了一次

Hadoop默认不会覆盖结果文件,因此再次运行上面实例会提示出错,需要先将./output删除

rm -r ./output

8.hadoop伪分布式配置

接下来是hadoop伪分布式配置。Hadoop 可以在单节点上以伪分布式的方式运行,Hadoop 进程以分离的 Java 进程来运行,节点既作为 NameNode 也作为 DataNode,同时,读取的是 HDFS 中的文件。

Hadoop 的配置文件位于 /usr/local/hadoop/etc/hadoop/ 中,伪分布式需要修改2个配置文件 core-site.xml 和 hdfs-site.xml 。Hadoop的配置文件是 xml 格式,每个配置以声明 property 的 name 和 value 的方式来实现。

gedit ./etc/hadoop/core-site.xml
<configuration><property><name>hadoop.tmp.dir</name><value>file:/usr/local/hadoop/tmp</value><description>Abase for other temporary directories.</description></property><property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property>
</configuration>

接着配置hdfs文件

gedit ./etc/hadoop/hdfs-site.xml
<configuration><property><name>dfs.replication</name><value>1</value></property><property><name>dfs.namenode.name.dir</name><value>file:/usr/local/hadoop/tmp/dfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>file:/usr/local/hadoop/tmp/dfs/data</value></property>
</configuration>

Hadoop 的运行方式是由配置文件决定的(运行 Hadoop 时会读取配置文件),因此如果需要从伪分布式模式切换回非分布式模式,需要删除 core-site.xml 中的配置项。

配置完成后,执行 NameNode 的格式化:

./bin/hdfs namenode -format

接着开启 NameNode 和 DataNode 守护进程。

./sbin/start-dfs.sh

或者使用all来开启/结束hadoop全部进程

./sbin/start-all.sh
./sbin/stop-all.sh

启动完成后,可以通过命令 jps 来判断是否成功启动

jps

成功启动后,可以访问 Web 界面 http://localhost:9870 查看 NameNode 和 Datanode 信息

上面的单机模式,grep 例子读取的是本地数据,伪分布式读取的则是 HDFS 上的数据。要使用 HDFS,首先需要在 HDFS 中创建用户目录:

./bin/hdfs dfs -mkdir -p /user/hadoop

接着将 ./etc/hadoop 中的 xml 文件作为输入文件复制到分布式文件系统中

./bin/hdfs dfs -mkdir input
./bin/hdfs dfs -put ./etc/hadoop/*.xml input

复制完成后,可以通过如下命令查看文件列表

./bin/hdfs dfs -ls input

伪分布式运行 MapReduce 作业的方式跟单机模式相同,区别在于伪分布式读取的是HDFS中的文件

./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep ./input ./output 'dfs[a-z.]+'

查看运行结果的命令

./bin/hdfs dfs -cat output/*

我们也可以将运行结果取回到本地:

rm -r ./output 

先删除本地的 output 文件夹(如果存在)

将 HDFS 上的 output 文件夹拷贝到本机

./bin/hdfs dfs -get output ./output 
cat ./output/*

# 删除 output 文件夹

./bin/hdfs dfs -rm -r output 

关闭Hadoop

./sbin/stop-dfs.sh

9.问题总结

9.1 gedit出现无法连接的情况

修改java环境时,gedit可能会出现Unable to init server 无法连接的情况,使用命令:

xhost local:gedit

出现non-network local connections being added to access control list 表示解决,若出现xhost: unable to open display “”,则使用命令:

export DISPLAY=:0
xhost local:gedit

即可解决。或者不使用gedit命令,使用nano或者vim命令替代。

9.2 开启守护进程时出现Permission denied (publickey,password).

原因未配置ssh 免密登录。

9.3 安装SSH server时,sudo apt-get install openssh-server 命令后出现:

解决:

sudo rm /var/lib/dpkg/lock-frontend
sudo rm /var/lib/dpkg/lock
sudo rm /var/cache/apt/archives/lock

三个都用了一遍,不知道哪个起了作用。

10.参考资料

【什么是Hadoop,浅谈大数据框架Hadoop】https://www.bilibili.com/video/BV1WN411Q7wC?vd_source=d238ba72fa82353a469bcc36b64d8aa2

(63条消息) Hadoop史诗级入门详解_hadoop详解_红糖番薯的博客-CSDN博客

Hadoop安装教程_单机/伪分布式配置 - 简书 (jianshu.com)


http://chatgpt.dhexx.cn/article/0BIqgrTH.shtml

相关文章

Hadoop 安装部署

官网下载软件&#xff1a; Ubuntu : https://releases.ubuntu.com/ jdk &#xff1a; https://www.oracle.com/java/technologies/downloads/ Hadoop &#xff1a; https://archive.apache.org/dist/hadoop/common/hadoop-3.3.2/ 下载后上传到服务器&#xff0c;解压 一 1. …

Hadoop的安装与配置(非常重要)

官方的原生配置文档Hadoop3.1.0 HDFS的组成 NameNodesecondaryNameNodeDataNode 这是以主从模式来运行的&#xff0c;前两个在maser节点上&#xff0c;最后一个在slave节点上 1. 解压hadoop安装包 要学会从官方网站里找到历史镜像和release的发布版本来下载 我觉得从别人给的…

hadoop安装教程(一次填完所有的坑)

文章目录 01 引言02 hadoop 安装2.1 下载与安装2.2 hadoop配置2.3 免登陆配置2.4 配置环境变量2.5 配置域名2.6 启动 03 相关命令 3.1 yarn相关命令 3.2 hdfs相关命令 04 一次填完所有的坑05 Yarn相关配置06 文末 01 引言 最近安装hadoop-2.7.7 版本的时候遇到了很多坑&#x…

Hadoop安装部署全分布式搭建

目录 1. 完全分布式模式介绍 2. 平台软件说明 3. 守护进程布局 4. 完全分布式搭建环境准备 4.1. 总纲 4.2. 关闭防⽕墙 4.3. 静态IP和主机名配置 4.4. 配置/etc/hosts⽂件 4.5. 免密登陆认证 4.6. 时间同步 4.6.1. 同步⽹络的时间 4.6.2. ⾃定义时间服务器 4.7. 安装Jdk和Ha…

安装Hadoop集群(超详细!)

提示&#xff1a;安装前请准备好三台装有jdk的虚拟机 我这里名为hd01、hd02、hd03 hd01最好有hadoop和zookeeper的压缩包 文章目录 前言一、准备环境二、安装Hadoop总结 前言&#xff1a; 前面我写了一篇单机版的Hadoop安装&#xff0c;这里终于要装集群版&#xff0c;装集群版…

hadoop的安装过程

Hadoop安装过程 Hadoop基础环境配置 1.1 使用户获得管理员权限 1.2网络环境配置 1.3免密登录 1.4JDK安装Hadoop安装Hadoop配置 3.1在$HADOOP_HOME/etc/hadoop/目录下需要配置以下文件 3.2格式化并启动hadoop 1.HADOOP基础环境配置 1.1 使用户获得管理员权限 1&#xff09;切…

hadoop保姆级安装教程

hadoop保姆级安装教程 文章目录 一、准备步骤&#xff1a;虚拟机安装二、配置网络三、免密登录四、安装hadoop 实现分布式集群安装&#xff0c;不再从入门到放弃&#xff01;&#xff01; 这是一篇超详细的Hadoop安装教程&#xff0c;历时两个星期&#xff0c;重装了三次&…

Hadoop安装及使用

1.简介&#xff1a; &#xff08;1&#xff09;Hadoop项目为可靠、可扩展的分布式计算开发开源软件。 &#xff08;2&#xff09;Hadoop 软件库是一个框架&#xff0c;它允许使用简单的编程模型跨计算机集群分布式处理大型数据 集。它旨在从单个服务器扩展到数千台机器&#xf…

史上最详细的hadoop安装教程(含坑点)

0.前言 最近因为需要所以要安装hadoop&#xff0c;但是网上怎么说呢&#xff0c;就是很混乱&#xff0c;各种资料&#xff0c;各种安装方法&#xff0c;总体来说都不是很有效果&#xff0c;经过了3天的挣扎&#xff0c;收集资料&#xff0c;才完成了部署。 1.从官网上获得对应…

史上最详细的hadoop安装教程

一、引言 首先说明一下&#xff0c;本文的安装教程仅是针对个人的操作经验所写的。可能有些同学安装的时候觉得跟他的不一样&#xff0c;那可能是由于版本不一样所导致的。另外本次分享是基于已经安装了java及配置好了环境。 本机的配置环境如下&#xff1a; Hadoop(3.1.1) Ubu…

hadoop安装(超详细)

本文用到的软件 设置固定IP &#xff08;1&#xff09; &#xff08;2&#xff09;修改配置文件“/etc/sysconfig/network-scripts/ifcfg-ens33” #修改&#xff1a; ONBOOTyes NM_CONTROLLEDyes BOOTPROTOstatic \#添加以下内容 IPADDR192.168.128.130(根据自身情况) NE…

Charles安卓8手机抓包

目的 通过PC端的Charles&#xff0c;对安卓系统8的手机APP进行抓包。 先说明&#xff0c;只能对Android10以下进行抓包&#xff0c;高版本的不行。 步骤 1、PC端安装Charles并破解 可以去Charles官网下载应用&#xff0c;下载好之后直接安装到本地。 下载链接&#xff1a;h…

fiddler安卓模拟器与ios手机抓包

一.安卓模拟器(雷电模拟器)抓包 1.1fiddler基本配置 1.2导出Fiddler证书 Tools -> Options -> HTTPS -> Actions -> Export Root Certificate to Desktop 在桌面上看到导出的FiddlerRoot.cer证书文件 1.3下载和安装openssl openssl下载地址 git终端输入 open…

charles抓包工具使用及手机抓包教程

目录 1.前言 2.操作环境条件 3.操作步骤 3.1.电脑配置 3.2.手机配置 4.抓包实战 5.网络代理 6.参考文章 1.前言 不知道怎么抓包手机&#xff08;移动端&#xff09; 如何抓取手机HTTPS的包 2.操作环境条件 电脑系统&#xff1a;Mac OS 手机系统&#xff1a;Android …

使用fiddler对android手机抓包

前言 以往在PC或Linux服务后台定位问题的时候&#xff0c;wireshark等抓包工具是必不可少要具备的&#xff0c;最近搞android播放器开发&#xff0c;为了定位问题方便&#xff0c;也装了fiddler等抓包工具。 以下是在win上使用fiddler抓包工具的详细教程。 一、下载fiddler抓包…

Charles4.6.2版本手机抓包设置,抓包失败的解决方法详解

一、Charles手机抓包设置 第一步&#xff1a;设置Charles为允许状态&#xff0c;并设置好接入的接口 在Charles的菜单栏选择“Proxy”->“Proxy Settings”&#xff0c;填入代理端口8888&#xff08;⚠️这个端口不一定填写8888&#xff0c;也可以写别的端口&#xff09;&…

wireshark手机抓包分析(一)

一、先给你的电脑开个共享WiFi win10怎么设置wifi热点 这里注意一定要选择2.4hz&#xff0c;否则根本搜不到电脑开的wifi。 然后就连wifi就行了。 这里需要注意的点就是&#xff0c;你的wifi开启了可能连不上&#xff0c;可以试试&#xff1a; 网络共享中心---->以太网—&…

charles手机抓包配置

Charles手机抓包 静静地就好关注 2020.07.26 22:12:27字数 393阅读 873 一、Charles设置 1、让电脑和手机处于同一个局域网下&#xff0c;即电脑和手机连接同一个WiFi【电脑开WiFi给手机连接也可以】&#xff1b; 2、打开Charles&#xff0c;点击菜单栏中Proxy –> Prox…

postman手机抓包(http协议)——比fiddler简单直观

针对http协议的浏览器网页抓包。见 之前写过一篇用fiddler抓包。今天来说一个更好的&#xff0c;postman抓包。 以下是针对http协议的手机抓包&#xff0c;https开头的用如下方式是不能的&#xff0c;http是超文本传输协议&#xff0c;信息是明文传输&#xff0c;https则是具…

使用whistle进行手机抓包并调试

whistle是一个基于Node实现的跨平台web调试代理工具&#xff0c;类似Windows上的Fiddler&#xff0c;Mac上的Charles&#xff0c;主要用于查看、修改HTTP、HTTPS、Websocket的请求、响应&#xff0c;也可以作为HTTP代理服务器使用&#xff0c;不同于Fiddler通过断点修改请求响应…