Hadoop安装教程_单机/伪分布式配置

article/2025/10/7 14:58:22

目录

  • 测试环境
  • 创建hadoop用户
  • 更新apt
  • 安装SSH、配置SSH无密码登陆
  • 配置Java环境
  • 安装 Hadoop3.1.3
  • Hadoop部署方式介绍
  • Hadoop单机配置(非分布式)
  • Hadoop伪分布式配置
  • 运行Hadoop伪分布式实例


测试环境

Linux系统版本:ubuntukylin-20.04-pro
Hadoop版本:hadoop-3.1.3
Java版本:jdk-8u162-linux-x64


创建hadoop用户

如果你安装 Ubuntu 的时候不是用的 “hadoop” 用户,那么需要增加一个名为 hadoop 的用户。

首先按 ctrl+alt+t 打开终端窗口,输入如下命令创建新用户 :

sudo useradd -m hadoop -s /bin/bash

这条命令创建了可以登陆的 hadoop 用户,并使用 /bin/bash 作为 shell。

接着使用如下命令设置密码,可简单设置为 hadoop,按提示输入两次密码:

sudo passwd hadoop

可为 hadoop 用户增加管理员权限,方便部署,避免一些对新手来说比较棘手的权限问题:

sudo adduser hadoop sudo

最后注销当前用户(点击屏幕右上角的齿轮,选择注销),返回登陆界面。在登陆界面中选择刚创建的 hadoop 用户进行登陆。


更新apt

用 hadoop 用户登录后,我们先更新一下 apt,后续我们使用 apt 安装软件,如果没更新可能有一些软件安装不了。按 ctrl+alt+t 打开终端窗口,执行如下命令:

sudo apt-get update

后续需要更改一些配置文件,用的是 vim(vi增强版,基本用法相同),建议安装一下:

sudo apt-get install vim

安装SSH、配置SSH无密码登陆

集群、单节点模式都需要用到 SSH 登陆(类似于远程登陆,你可以登录某台 Linux 主机,并且在上面运行命令),Ubuntu 默认已安装了 SSH client,此外还需要安装 SSH server:

sudo apt-get install openssh-server

安装后,可以使用如下命令登陆本机:

ssh localhost

此时会有如下提示(SSH首次登陆提示),输入 yes 。然后按提示输入密码 hadoop,这样就登陆到本机了。

但这样登陆是需要每次输入密码的,我们需要配置成SSH无密码登陆比较方便。

首先退出刚才的 ssh,就回到了我们原先的终端窗口,然后利用 ssh-keygen 生成密钥,并将密钥加入到授权中:

exit                           # 退出刚才的 ssh localhost
cd ~/.ssh/                     # 若没有该目录,请先执行一次ssh localhost
ssh-keygen -t rsa              # 会有提示,都按回车就可以
cat ./id_rsa.pub >> ./authorized_keys  # 加入授权

此时再用 ssh localhost 命令,无需输入密码就可以直接登陆了,如下图所示。
在这里插入图片描述


配置Java环境

Linux系统下安装并配置Java环境


安装 Hadoop3.1.3

Hadoop安装文件,可以在Linux系统中到Hadoop官网下载hadoop-3.1.3.tar.gz,也可以使用终端模拟软件将文件从windows上传至Linux

在这里插入图片描述

 # 解压到/usr/local中
sudo tar -zxvf ./hadoop-3.1.3.tar.gz -C /usr/local# 切换至/usr/local目录   
cd /usr/local/# 将文件夹名改为hadoop
sudo mv ./hadoop-3.1.3/ ./hadoop  # 修改文件权限         
sudo chown -R hadoop ./hadoop       

Hadoop 解压后即可使用。输入如下命令来检查 Hadoop 是否可用,成功则会显示 Hadoop 版本信息:

cd /usr/local/hadoop
./bin/hadoop version

在这里插入图片描述


Hadoop部署方式介绍

  Hadoop部署方式分三种:Standalone Mode(单机模式)、Pseudo-Distributed Mode(伪分布式模式)、Fully Distributed Mode(全分布式模式)

单机模式

  单机模式是Hadoop的默认模式。这种模式在一台单机上运行,没有分布式文件系统,而是直接读写本地操作系统的文件系统。当首次解压Hadoop的源码包时,Hadoop无法了解硬件安装环境,便保守地选择了最小配置。在这种默认模式下所有3个XML文件均为空。当配置文件为空时,Hadoop会完全运行在本地。因为不需要与其他节点交互,单机模式就不使用HDFS,也不加载任何Hadoop的守护进程。该模式主要用于开发调试MapReduce程序的应用逻辑。

伪分布模式

  这种模式也是在一台单机上运行,但用不同的Java进程模仿分布式运行中的各类结点伪分布模式在“单节点集群”上运行Hadoop,其中所有的守护进程都运行在同一台机器上。该模式在单机模式之上增加了代码调试功能,允许你检查内存使用情况,HDFS输入输出,以及其他的守护进程。

全分布模式
  Hadoop守护进程运行在一个集群上。


Hadoop单机配置(非分布式)

  Hadoop 默认模式为非分布式模式(本地模式),无需进行其他配置即可运行。非分布式即单 Java 进程,方便进行调试。

  现在我们可以执行例子来感受下 Hadoop 的运行。Hadoop 附带了丰富的例子(运行 ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar 可以看到所有例子),包括 wordcount、terasort、join、grep 等。

  在此我们选择运行 grep 例子,我们将 input 文件夹中的所有文件作为输入,筛选当中符合正则表达式 dfs[a-z.]+ 的单词并统计出现的次数,最后输出结果到 output 文件夹中。

cd /usr/local/hadoop
mkdir ./input
cp ./etc/hadoop/*.xml ./input   # 将配置文件作为输入文件
./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar grep ./input ./output 'dfs[a-z.]+'
cat ./output/*          # 查看运行结果

  执行成功后如下所示,输出了作业的相关信息,输出的结果是符合正则的单词 dfsadmin 出现了1次
请添加图片描述

  注意,Hadoop 默认不会覆盖结果文件,因此再次运行上面实例会提示出错,需要先将 ./output 删除。

rm -r ./output

Hadoop伪分布式配置

  Hadoop 可以在单节点上以伪分布式的方式运行,Hadoop 进程以分离的 Java 进程来运行,节点既作为 NameNode 也作为 DataNode,同时,读取的是 HDFS 中的文件。

  Hadoop 的配置文件位于 /usr/local/hadoop/etc/hadoop/ 中,伪分布式需要修改2个配置文件 core-site.xml 和 hdfs-site.xml 。Hadoop的配置文件是 xml 格式,每个配置以声明 property 的 name 和 value 的方式来实现。
请添加图片描述
修改配置文件 core-site.xml

vim core-site.xml

进入文件中,将其中<configuration>的内容进行修改:

<configuration><property><name>hadoop.tmp.dir</name><value>file:/usr/local/hadoop/tmp</value><description>Abase for other temporary directories.</description></property><property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property>
</configuration>

修改完后,按Esc退出修改,输入 :wq 保存退出,如图:
请添加图片描述
请添加图片描述
同样的,修改配置文件 hdfs-site.xml:

<configuration><property><name>dfs.replication</name><value>1</value></property><property><name>dfs.namenode.name.dir</name><value>file:/usr/local/hadoop/tmp/dfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>file:/usr/local/hadoop/tmp/dfs/data</value></property>
</configuration>

请添加图片描述
配置完成后,执行 NameNode 的格式化:

cd /usr/local/hadoop
./bin/hdfs namenode -format

成功的话,会看到 “successfully formatted” 的提示,如下:请添加图片描述
接着开启 NameNode 和 DataNode 守护进程。

cd /usr/local/hadoop
./sbin/start-dfs.sh  #start-dfs.sh是个完整的可执行文件,中间没有空格

在这里插入图片描述

启动完成后,可以通过命令 jps 来判断是否成功启动

jps

  若成功启动则会列出如下进程: “NameNode”、”DataNode” 和 “SecondaryNameNode”(如果 SecondaryNameNode 没有启动,请运行 sbin/stop-dfs.sh 关闭进程,然后再次尝试启动尝试)。如果没有 NameNode 或 DataNode ,那就是配置不成功,请仔细检查之前步骤,或通过查看启动日志排查原因。
请添加图片描述


运行Hadoop伪分布式实例

  上面的单机模式,grep 例子读取的是本地数据,伪分布式读取的则是 HDFS 上的数据。要使用 HDFS,首先需要在 HDFS 中创建用户目录:

./bin/hdfs dfs -mkdir -p /user/hadoop

请添加图片描述

  接着将 ./etc/hadoop 中的 xml 文件作为输入文件复制到分布式文件系统中,即将 /usr/local/hadoop/etc/hadoop 复制到分布式文件系统中的/user/hadoop/input 中。我们使用的是 hadoop 用户,并且已创建相应的用户目录 /user/hadoop ,因此在命令中就可以使用相对路径如 input,其对应的绝对路径就是 /user/hadoop/input:

./bin/hdfs dfs -mkdir input
./bin/hdfs dfs -put ./etc/hadoop/*.xml input

请添加图片描述

复制完成后,可以通过如下命令查看文件列表:

./bin/hdfs dfs -ls input

请添加图片描述

  伪分布式运行 MapReduce 作业的方式跟单机模式相同,区别在于伪分布式读取的是HDFS中的文件(可以将单机步骤中创建的本地 input 文件夹,输出结果 output 文件夹都删掉来验证这一点)。

./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar grep input output 'dfs[a-z.]+'

查看运行结果的命令(查看的是位于 HDFS 中的输出结果):

./bin/hdfs dfs -cat output/*

结果如下,注意到刚才我们已经更改了配置文件,所以运行结果不同。
请添加图片描述
  Hadoop 运行程序时,输出目录不能存在,否则会提示错误“org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory hdfs://localhost:9000/user/hadoop/output already exists” ,因此若要再次执行,需要执行如下命令删除 output 文件夹:

./bin/hdfs dfs -rm -r output    # 删除 output 文件夹

请添加图片描述
若要关闭 Hadoop,则运行

./sbin/stop-dfs.sh

请添加图片描述


http://chatgpt.dhexx.cn/article/VuYFh9wR.shtml

相关文章

Hadoop安装教程方式

本次教程首先介绍的是根据个人经验来安装hadoop环境&#xff0c;其次是林子雨老师Hadoop安装教程方式&#xff0c;大家可以自行选择其中一种方式来进行安装。另外&#xff0c;还附送根据个人经验进行虚拟机磁盘扩容&#xff0c;可以说是痛苦经历吧&#xff01; 个人安装hadoop…

Hadoop安装教程

1:先解决桌面向虚拟机黏贴问题。(在windos环境中下载好hadoop安装包) sudo apt-get autoremove open-vm-tools sudo apt-get update sudo apt-get install open-vm-tools-desktop reboot 2:下载openssh-server sudo apt-get install openssh-server 3:登陆ssh ssh local…

Hadoop安装教程(单机/伪分布式配置)

Hadoop安装文件&#xff0c;可以到Hadoop官网下载&#xff0c;也可以点击这里从百度云盘下载&#xff08;提取码&#xff1a;99bg&#xff09;&#xff0c;进入该百度云盘链接后&#xff0c;找到Hadoop安装文件hadoop-2.7.1.tar.gz&#xff08;本教程也可以用于安装Hadoop 2.7.…

手机突发bug?这几种Android 手机自动化测试工具,关键时刻轻松搞定你的手机!

主要分享软件测试的学习资源&#xff0c;帮助想转行、进阶、小白成为高级测试工程师…1、Monkey是Android SDK自带的测试工具&#xff0c;在测试过程中会向系统发送伪随机的用户事件流&#xff0c;如按键输入、触摸屏输入、手势输入等等&#xff09;&#xff0c;实现对正在开发…

安卓自动化测试框架

安卓APP测试框架总结&#xff1a; 基于Instrumentation的测试框架&#xff0c;比如Espresso&#xff0c;Robotium&#xff0c;Selendroid等&#xff0c;都不能支持跨APP使用。 如自动化测试中有跨APP操作&#xff0c;我们可以结合UiAutomator实现。支持BDD&#xff08;行为驱动…

自动化测试工具-Airtest

目录 一、Airtest介绍与安装二、Airtest基于图像识别自动控制手机App流程三、Airtest基于Poco的UI组件自动化控制App流程四、Airtest实现手机群控操作 一、Airtest介绍与安装 主要介绍区别&#xff0c;以及各种详细的教程可以看这篇文章&#xff0c;和selenium、appium都是用来…

手把手教你使用手机自动化测试工具Airtest

安卓手机自动化操作框架--Airtest 项目官网&#xff1a;http://airtest.netease.com/ 前言 Airtest是网易基于信息识别出品的一个自动化操作框架&#xff0c;可以模拟人工机械操作&#xff0c;对于日常中一些机械录入手机系统的信息完全可以使用Airtest来代替&#xff0c;实现录…

APP自动化测试

大框架参考&#xff1a;appium新手入门&#xff08;第2步Android和sdk安装与配置需要百度&#xff09; 前提&#xff0c;已经安装好了JDK&#xff0c;Maven 一、安装Android SDK 1、下载地址 http://tools.android-studio.org/index.php/sdk 2、设置Android环境变量 3、安…

android 自动化测试

Android 谈谈自动化测试 Android自动化测试原来可以这么简单 几款Android 应用自动化测试工具 Android自动化测试探索&#xff08;一&#xff09;adb详细介绍 - 周希 - 博客园 移动测试基础 Android&#xff1a;自动化兼容性测试 Android 上一次编写&#xff0c;随处测试 a…

手机自动化测试

随着手机被越来越多人使用&#xff0c;移动自动化也是趋势所在。 测试的时间是至关重要的&#xff0c;尤其是移动测试&#xff0c;软件测试生命周期中的手工测试的时间已经影响到了手机抢占最佳市场先机。因此自动化是不可避免的需求。 什么是手机自动化测试? 要回答这个问题&…

App 自动化测试

一、5分钟上手自动化测试——AirtestPoco快速上手 - Airtest Project DocsAirtest Project Docshttps://airtest.doc.io.netease.com/tutorial/1_quick_start_guide/自动化测试工具-Airtest_十一姐的博客-CSDN博客_airtest工具目录一、Airtest介绍与安装二、Airtest基于图像识别…

android 自动化测试工具

Auto.js https://github.com/hyb1996/Auto.js/tree/master/app/src/main/assets/sample 布局范围分析 https://blog.csdn.net/zy0412326/article/details/105140707 免费版auto.js apk 下载 https://zhuanlan.zhihu.com/p/90065914?from_voters_pagetrue&ivk_sa10243…

Github每日精选(第65期):手机自动化测试工具maestro

Maestro 现在手机ui的测试工具已经很多了&#xff0c;为什么还要多一款Maestro 呢&#xff1f;我们来看看Maestro 的介绍。 Maestro 是为您的移动应用程序自动化 UI 测试的最简单方法。 github的地址在这里。 Maestro 建立在其前辈&#xff08;Appium、Espresso、UIAutomat…

手机自动化测试工具实现

手机自动化测试工具实现 一、PC 端监控工具实现 1、手机自动化可解决的问题 ( 1 ) 压力测试&#xff1a;一些连续不断的操作&#xff0c;比如反复切换歌曲播放及联网操作等 ( 2 ) 极限临界测试&#xff1a;一些极限条件的构造&#xff08;创建多个列表&#xff09;及输入字…

五款Android 应用的自动化测试工具

如今自动化测试已经应用到每天的测试中。这不足为奇&#xff0c;因为自动化测试在测试过程中节约了时间&#xff0c;还能避免包括人为因素造成的测试错误和遗漏。 自动化测试工具选择很多。一些是开源的&#xff0c;一些非常贵。一些自动化工具是几年前出的,一些才在市场上出来…

Android 应用有哪些自动化测试工具

目录 简述&#xff1a; 1、Monkey 测试 2、 MonkeyRunner 测试 3、Robotium测试 4、Ronaorex测试 5、Appium测试 6、UI Automator 测试 7、TestBird 测试 简述&#xff1a; 本文介绍几款流行的 Android应用自动化测试工具。希望对你有帮助&#xff0c; Monkey测试&…

六款Android 应用的自动化测试工具

如今自动化测试已经应用到每天的测试中。这不足为奇&#xff0c;因为自动化测试在测试过程中节约了时间&#xff0c;还能避免包括人为因素造成的测试错误和遗漏。 自动化测试工具选择很多。一些是开源的&#xff0c;一些非常贵。一些自动化工具是几年前出的,一些才在市场…

超好用的手机开源自动化测试工具分享

随着消费者对移动应用使用的占比增加, APP测试越来越被重视! 在现已出现的开源移动自动化测试工具中&#xff0c;总结了几个最实用的&#xff0c;希望对大家有帮助&#xff1a; 一、Calabash&#xff08;适用于Android和iOS&#xff09; Calabash-android是支持android的UI自…

几款Android 应用自动化测试工具

简述&#xff1a; 本文介绍几款流行的 Android应用自动化测试工具。 Monkey测试&#xff1a;随机测试&#xff0c;压力测试&#xff0c;运行在模拟器或实际设备中。 MonkeyRunner测试&#xff1a;操作简单&#xff0c;可录制测试脚本&#xff0c;可视化操作&#xff0c;主要生成…

2021年四大流行Android手机自动化测试工具,全在这里了

Android 自动化测试的工具非常多&#xff0c;但是目前主流使用的就那几个&#xff0c;我会详细说明他们各自的情况&#xff0c;你可以根据自己的需要决定使用哪款工具。 Appium Appium 是目前最主流的移动测试自动化框架&#xff0c;不仅支持 Android 应用&#xff0c;而且适…