大数据-02

article/2025/6/22 22:38:09

xsync放在家目录的bin下,其他脚本文件也放在该目录下

HDFS架构概述:

1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。

相当于目录

2)DataNode(dn):再本地文件系统存储文件块数据,以及块数据的校验和

这才是具体的数据

3)Secondary NameDode(2nn):每隔一段时间对NameNode元数据备份

相当于nn的秘书

YARN架构概述:

Yet Another Resource Negotiator简称YARN ,另一种资源协调者是Hadoop资源管理器

1)ResourceManager(RM):整个集群资源(内存、CPU等)的老大

2)NodeManager(NM):单个节点服务器资源的老大

3)ApplicationMaster(AM):单个任务运行的老大

4)Container:容器,相当一台独立的服务器,里面封装了任务运行所需要的资源,如内存、cpu、磁盘、网络等

 MapReduce架构概述:

MapReduce将计算过程分为两个阶段:Map和Reduce

1)Map阶段并行处理输入数据

2)Reduce阶段对Map结果进行汇总

HDFS、YARN、MapReduce三者关系:

集群配置

1)集群部署规划:    有关配置文件都在~/opt/module/hadoop-3.1.3/etc/hadoop   目录下

 NameNode和SecondaryNameNode不要安装在同一台服务器

ResourceManager也很消耗内存,不要和NameNode、SecondaryNameNode配置在同一台机器上

2)配置文件说明 

hadoop配置文件分两类:默认配置文件和自定义配置文件,只有用户想修改某一默认配置值时,才需要修改自定义配置文件,更改相应属性值

 

3)配置集群

#注意里这里是 etc/hadoop  etc前不能加/,否则就找不到(因为加了后是再根下面找)
[xwt@hadoop102 etc]$ cd /opt/module/hadoop-3.1.3/
[xwt@hadoop102 hadoop-3.1.3]$ ll
总用量 176
drwxr-xr-x. 2 xwt xwt    183 9月  12 2019 bin
drwxr-xr-x. 3 xwt xwt     20 9月  12 2019 etc
drwxr-xr-x. 2 xwt xwt    106 9月  12 2019 include
drwxr-xr-x. 3 xwt xwt     20 9月  12 2019 lib
drwxr-xr-x. 4 xwt xwt    288 9月  12 2019 libexec
-rw-rw-r--. 1 xwt xwt 147145 9月   4 2019 LICENSE.txt
-rw-rw-r--. 1 xwt xwt  21867 9月   4 2019 NOTICE.txt
-rw-rw-r--. 1 xwt xwt   1366 9月   4 2019 README.txt
drwxr-xr-x. 3 xwt xwt   4096 9月  12 2019 sbin
drwxr-xr-x. 4 xwt xwt     31 9月  12 2019 share
[xwt@hadoop102 hadoop-3.1.3]$ cd etc
[xwt@hadoop102 etc]$ ll
总用量 4
drwxr-xr-x. 3 xwt xwt 4096 9月  12 2019 hadoop
[xwt@hadoop102 etc]$ cd hadoop/
[xwt@hadoop102 hadoop]$ ls -al
总用量 176
drwxr-xr-x. 3 xwt xwt  4096 9月  12 2019 .
drwxr-xr-x. 3 xwt xwt    20 9月  12 2019 ..
-rw-r--r--. 1 xwt xwt  8260 9月  12 2019 capacity-scheduler.xml
-rw-r--r--. 1 xwt xwt  1335 9月  12 2019 configuration.xsl
-rw-r--r--. 1 xwt xwt  1940 9月  12 2019 container-executor.cfg
-rw-r--r--. 1 xwt xwt   774 9月  12 2019 core-site.xml
-rw-r--r--. 1 xwt xwt  3999 9月  12 2019 hadoop-env.cmd
-rw-r--r--. 1 xwt xwt 15903 9月  12 2019 hadoop-env.sh
-rw-r--r--. 1 xwt xwt  3323 9月  12 2019 hadoop-metrics2.properties
-rw-r--r--. 1 xwt xwt 11392 9月  12 2019 hadoop-policy.xml
-rw-r--r--. 1 xwt xwt  3414 9月  12 2019 hadoop-user-functions.sh.example
-rw-r--r--. 1 xwt xwt   775 9月  12 2019 hdfs-site.xml
-rw-r--r--. 1 xwt xwt  1484 9月  12 2019 httpfs-env.sh
-rw-r--r--. 1 xwt xwt  1657 9月  12 2019 httpfs-log4j.properties
-rw-r--r--. 1 xwt xwt    21 9月  12 2019 httpfs-signature.secret
-rw-r--r--. 1 xwt xwt   620 9月  12 2019 httpfs-site.xml
-rw-r--r--. 1 xwt xwt  3518 9月  12 2019 kms-acls.xml
-rw-r--r--. 1 xwt xwt  1351 9月  12 2019 kms-env.sh
-rw-r--r--. 1 xwt xwt  1747 9月  12 2019 kms-log4j.properties
-rw-r--r--. 1 xwt xwt   682 9月  12 2019 kms-site.xml
-rw-r--r--. 1 xwt xwt 13326 9月  12 2019 log4j.properties
-rw-r--r--. 1 xwt xwt   951 9月  12 2019 mapred-env.cmd
-rw-r--r--. 1 xwt xwt  1764 9月  12 2019 mapred-env.sh
-rw-r--r--. 1 xwt xwt  4113 9月  12 2019 mapred-queues.xml.template
-rw-r--r--. 1 xwt xwt   758 9月  12 2019 mapred-site.xml
drwxr-xr-x. 2 xwt xwt    24 9月  12 2019 shellprofile.d
-rw-r--r--. 1 xwt xwt  2316 9月  12 2019 ssl-client.xml.example
-rw-r--r--. 1 xwt xwt  2697 9月  12 2019 ssl-server.xml.example
-rw-r--r--. 1 xwt xwt  2642 9月  12 2019 user_ec_policies.xml.template
-rw-r--r--. 1 xwt xwt    10 9月  12 2019 workers
-rw-r--r--. 1 xwt xwt  2250 9月  12 2019 yarn-env.cmd
-rw-r--r--. 1 xwt xwt  6056 9月  12 2019 yarn-env.sh
-rw-r--r--. 1 xwt xwt  2591 9月  12 2019 yarnservice-log4j.properties
-rw-r--r--. 1 xwt xwt   690 9月  12 2019 yarn-site.xml

 (1)核心配置文件     配置core-site.xml

[xwt@hadoop102 hadoop]$ vim core-site.xml
#zai configuration下粘贴<!-- 指定NameNode的地址 --><property><name>fs.defaultFS</name><value>hdfs://hadoop102:8020</value></property><!-- 指定hadoop数据的存储目录 --><property><name>hadoop.tmp.dir</name><value>/opt/module/hadoop-3.1.3/data</value></property><!-- 配置HDFS网页登录使用的静态用户为xwt --><property><name>hadoop.http.staticuser.user</name><value>xwt</value></property>

(2)HDFS配置文件  配置hdfs-site.xml   得让别人能从外部访问 

[xwt@hadoop102 hadoop]$ vim hdfs-site.xml
#插入
<!-- nn web端访问地址--><property><name>dfs.namenode.http-address</name><value>hadoop102:9870</value></property><!-- 2nn web端访问地址--><property><name>dfs.namenode.secondary.http-address</name><value>hadoop104:9868</value></property>

(3)YARN配置文件  配置yarn-site.xml

[xwt@hadoop102 hadoop]$ vim yarn-site.xml 
#插入
<!-- 指定MR走shuffle --><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><!-- 指定ResourceManager的地址--><property><name>yarn.resourcemanager.hostname</name><value>hadoop103</value></property><!-- 环境变量的继承 --><property><name>yarn.nodemanager.env-whitelist</name><value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value></property>

(4)MapReduce配置文件  配置mapred-site.xml

[xwt@hadoop102 hadoop]$ vim mapred-site.xml
#插入
<!-- 指定MapReduce程序运行在Yarn上 --><property><name>mapreduce.framework.name</name><value>yarn</value></property>

注意,这里全都是再102(在/opt/module/hadoop-3.1.3/etc/hadoop/)上进行操作,还需要将这里的配置分发到103、104

群起集群

1)配置workers   集群上有几个节点就配置几个主机名称

注意:该文件中添加的内容结尾不允许有空格,文件中不允许有空行。

[xwt@hadoop102 hadoop]$ vim workers 

记得同步一下xsync workers

2)启动集群

如果集群是第一次启动,需进行格式化

[xwt@hadoop102 hadoop-3.1.3]$ hdfs namenode -format

查看当前服务器的版本号

(1)启动HDFS

[xwt@hadoop102 hadoop-3.1.3]$ sbin/start-dfs.sh 

 (2)在配置了ResourceManager的节点(hadoop103)启动YARN

[xwt@hadoop103 hadoop-3.1.3]$ sbin/start-yarn.sh 

(3)Web端查看HDFS的NameNode

        (a)浏览器中输入:http://hadoop102:9870         

        (b)查看HDFS上存储的数据信息

(4)Web端查看YARN的ResourceManager

        (a)浏览器中输入:http://hadoop103:8088     

        (b)查看YARN上运行的Job信息

查看HDFS文件存储路径

/opt/module/hadoop-3.1.3/data/dfs/data/current/BP-797325151-192.168.10.102-1651655424857/current/finalized

集群崩溃情况:①删除当前居群nn,2nn等进程②删除data和logs

③开始格式化 

[xwt@hadoop102 hadoop-3.1.3]$ hdfs namenode -format

配置历史服务器

        查看程序的历史运行情况

1)配置mapred-site.xml

[xwt@hadoop102 hadoop]$ vim mapred-site.xml 
#插入
<!-- 历史服务器端地址 -->
<property><name>mapreduce.jobhistory.address</name><value>hadoop102:10020</value>
</property><!-- 历史服务器web端地址 -->
<property><name>mapreduce.jobhistory.webapp.address</name><value>hadoop102:19888</value>
</property>

一个是内部运行的端口号,一个是用户查看的端口号

2)分发配置 

[xwt@hadoop102 hadoop]$ xsync mapred-site.xml 

3)在hadoop102启动历史服务器

[xwt@hadoop102 hadoop]$ mapred --daemon start historyserver
[xwt@hadoop102 hadoop]$ jps
2752 NameNode
2886 DataNode
3211 NodeManager
3692 Jps
3630 JobHistoryServer

配置日志的聚集

        日志聚集概念:应用运行完成以后,将程序运行日志信息上传到HDFS系统上

        日志聚集功能好处:可以方便的查看到程序运行详情,方便开发调试

1)配置yarn-site.xml

[xwt@hadoop102 hadoop]$ vim yarn-site.xml 
#插入
<!-- 开启日志聚集功能 -->
<property><name>yarn.log-aggregation-enable</name><value>true</value>
</property>
<!-- 设置日志聚集服务器地址 -->
<property>  <name>yarn.log.server.url</name>  <value>http://hadoop102:19888/jobhistory/logs</value>
</property>
<!-- 设置日志保留时间为7天 -->
<property><name>yarn.log-aggregation.retain-seconds</name><value>604800</value>
</property>

2)分发配置

[xwt@hadoop102 hadoop]$ xsync yarn-site.xml 

3)关闭NodeManager 、ResourceManager和HistoryServer

[xwt@hadoop102 hadoop-3.1.3]$ mapred --daemon stop historyserver
[xwt@hadoop102 hadoop-3.1.3]$ sbin/stop-yarn.sh 
[xwt@hadoop103 hadoop-3.1.3]$ sbin/stop-yarn.sh 

4)启动NodeManager 、ResourceManage和HistoryServer

[xwt@hadoop102 hadoop-3.1.3]$ mapred --daemon start historyserver
[xwt@hadoop102 hadoop-3.1.3]$ sbin//start-yarn.sh [xwt@hadoop103 hadoop-3.1.3]$ sbin/start-yarn.sh 

集群启动/停止方式总结

1各个模块分开启动/停止(配置ssh是前提)常用

(1)整体启动/停止HDFS

start-dfs.sh/stop-dfs.sh

(2)整体启动/停止YARN

start-yarn.sh/stop-yarn.sh

2各个服务组件逐一启动/停止

(1)分别启动/停止HDFS组件

hdfs --daemon start/stop namenode/datanode/secondarynamenode

(2)启动/停止YARN

yarn --daemon start/stop  resourcemanager/nodemanager

shell不靠后缀区分文件,脚本的话看第一行#!

编写Hadoop集群常用脚本

1)Hadoop集群启停脚本(包含HDFS,Yarn,Historyserver):myhadoop.sh

#这里再~/bin下,编写脚本就在bin下
[xwt@hadoop102 bin]$ vim myhadoop.sh
#输入如下内容
#!/bin/bashif [ $# -lt 1 ] #如果参数小于1
thenecho "No Args Input..."exit ;
ficase $1 in
"start")echo " =================== 启动 hadoop集群 ==================="echo " --------------- 启动 hdfs ---------------"ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/start-dfs.sh"echo " --------------- 启动 yarn ---------------"ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/start-yarn.sh"echo " --------------- 启动 historyserver ---------------"ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon start historyserver"
;;
"stop")echo " =================== 关闭 hadoop集群 ==================="echo " --------------- 关闭 historyserver ---------------"ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon stop historyserver"echo " --------------- 关闭 yarn ---------------"ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/stop-yarn.sh"echo " --------------- 关闭 hdfs ---------------"ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/stop-dfs.sh"
;;
*)echo "Input Args Error..."
;;
esac
#赋予权限
[xwt@hadoop102 bin]$ chmod 777 myhadoop.sh 

2)查看三台服务器Java进程脚本:jpsall

[xwt@hadoop102 bin]$ vim jpsall
#!/bin/bashfor host in hadoop102 hadoop103 hadoop104
doecho =============== $host ===============ssh $host jps 
done
[xwt@hadoop102 bin]$ chmod 777 jpsall 
[xwt@hadoop102 ~]$ xsync bin/


http://chatgpt.dhexx.cn/article/aaEE7eFo.shtml

相关文章

大数据概述(二)

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明 大数据概述 传统数据处理介绍 目标: 了解大数据到来之前,传统数据的通用处理模式 数据来源: 1、企业内部管理系统 ,如员工考勤(打卡)记录。 2、客户管理系统(CRM) 数据…

大数据2--hive--hive介绍

第一章 Hive介绍 1.1hive概述 1.1.1 hive的简介 HIve是基于Hadoop的一个数据仓库工具&#xff0c;可以将结构化的数据文件映射为一张数据库表&#xff0c;并提供类SQK查询功能。其本质是将SQL转换为MapReduce/Spark的任务进行运算&#xff0c;底层由HDFS来提供数据的存储&…

【大数据实验2】hadoop配置、测试和实例

hadoop配置、测试和实例 0 环境1 配置网络2 卸载和安装JDK4 配置hadoop4.1 前提4.2 修改配置文件4.3 配置环境4.4 初始化HDFS4.5 启动hadoop4.6 登录 5 测试hadoop6 hadoop实例&#xff1a;统计单词频数6.1 编程实现6.1.1 安装eclipse6.1.2 JAVA编程6.1.3 上传文件6.1.4 运行程…

大数据1

cd sysconfig(目录名) 进目录 ll&#xff08;listlist&#xff09; 查看所有的目录 cat 看目录里的内容打开文件 ~当前目录的用户主体目录 cd / 根路径 pwd 当前路径 vi 修改文件 敲I 才可以编辑 然后更改BOOTPROTO"STATIC" IPADDRIP地址19…

大数据2 Hadoop

Hadoop是Apache软件基金会下的顶级开源项目&#xff0c;用以提供&#xff1a; • 分布式数据存储 • 分布式数据计算 • 分布式资源调度 为一体的整体解决方案。 Apache Hadoop是典型的分布式软件框架&#xff0c;可以部署在1台乃至成千上万台服务器节点上协同工作。 个人或企…

数分-理论-大数据2-Hadoop

数分-理论-大数据2-Hadoop (数据分析系列) 文章目录 数分-理论-大数据2-Hadoop1知识点2具体内容2.1发展2.2简介2.3项目架构2.4安装应用 参考 1知识点 发展简介项目架构安装应用 2具体内容 2.1发展 Lucene&#xff1a;文本搜索的函数库&#xff0c;全文检索引擎Nutch&…

大数据2

机器学习和数据挖掘的区别 数据挖掘是一个比较大的概念&#xff0c;由许多学科综合而成&#xff0c;其包括机器学习、统计学习、数据库、领域知识及模式识别等领域。数据挖掘与机器学习可以看成是一种相交关系&#xff0c;两者都是依靠规律分析来预测数据趋势的&#xff0c;但不…

大数据行业部署实战2:环境大数据统计

实验二、环境大数据&#xff08;必须基于实验一验证通过的环境&#xff09; 一、实验目的二、实验要求三、实验原理四、实验步骤1、 分析数据文件2、 将数据文件上传至HDFS3 、编写月平均气温统计程序4 、查看月平均气温统计结果5、 编写每日空气质量统计程序6、 查看每日空气…

大数据(2)--Hadoop

目录标题 1.初识大数据1.1 大数据相关技术1.2 日志流量分析系统1.2.1 项目设计1.2.2 日志的捕获1.2.3 离线分析1.2.4 实时分析 1.3 系统搭建 2.Hadoop2.1 Hadoop概述2.1.1 历史2.1.2 作用 2.2 Hadoop的安装2.2.1 Hadoop版本介绍2.2.2 Hadoop 的安装有三种方式2.2.3 Hadoop伪分布…

《大数据时代》书评及书摘

三天的零碎时间把这本书读完了&#xff0c;内容本身其实很简单&#xff0c;也谈不上特别精彩&#xff0c;五分制的话我只能打三分。 我的理解&#xff0c;数据一生应该是包含了三个阶段&#xff1a;收集&#xff0c;分析&#xff0c;最后是预测。我们总能根据现有的数据&#x…

Python 与SQL sever数据库 图形化智能停车场管理系统

这个是我的一次课程设计&#xff0c;写了236行代码&#xff0c;都是最简单的函数和图形化界面。特别简单。首先你应该确保你的SQL数据库可以在Pycham中连接成功。不会SQL连接的的可以去其他博客写看一看。在Pycham中需要安装 Tkinter win32com.client 第三方库。 序言界面截…

asp毕业设计——基于asp+sqlserver的WEB车辆管理系统设计与实现(毕业论文+程序源码)——车辆管理系统

基于aspsqlserver的WEB车辆管理系统设计与实现&#xff08;毕业论文程序源码&#xff09; 大家好&#xff0c;今天给大家介绍基于aspsqlserver的WEB车辆管理系统设计与实现&#xff0c;文章末尾附有本毕业设计的论文和源码下载地址哦。需要下载开题报告PPT模板及论文答辩PPT模…

基于Java+控制台实现车辆信息管理系统

基于Java控制台实现车辆信息管理系统 一、系统介绍二、功能展示1.主要功能2.查看所有车辆信息3.车辆信息添加4.车辆信息查询5.车辆信息删除 三、系统实现1.car.java 四、其它1.其他系统实现 五、源码下载 一、系统介绍 该系统实现了简单的增删查改、采用面对对象&#xff08;O…

qt 汽车管理系统

界面设计 运行后界面 数据库表: connection.h文件 #ifndef CONNECTION_H #define CONNECTION_H #include<Qtsql> #include<QDebug> #include<qdom.h> #include<QDebug> #include <QSqlQuery> static bool createConnection() { // "O…

计算机毕业设计-基于SSM的汽车维修管理系统

项目背景 随着计算机技术的高速发展&#xff0c;现代计算机系统已经从以计算为中心向以信息化处理为中心的方向发展。而汽车维修&#xff0c;不仅需要在硬件上为现代社会的人们提供一个汽车维修的平台&#xff0c;获取汽车知识的环境&#xff0c;更要在软件上为车辆提供汽车维…

ASP.NET+C#+Sql Server 1125数据库 汽车租赁系统的设计与实现+讲解视频

绪论 随着汽车行业的快速发展&#xff0c;汽车租赁行业交易的数量也随之增加&#xff0c;自2000年起&#xff0c;我国汽车租赁交易量开始进入一个快速发展的状态&#xff0c;也是汽车行业市场经济发展的重要一部分&#xff0c;近几年&#xff0c;越来越多汽车租赁公司进军当前…

Java项目:springBoot+Vue汽车销售管理系统

作者主页&#xff1a;夜未央5788 简介&#xff1a;Java领域优质创作者、Java项目、学习资料、技术互助 文末获取源码 项目介绍 本项目基于spring boot以及Vue开发&#xff0c;为前后端分离的项目。针对汽车销售提供客户信息、车辆信息、订单信息、销售人员管理、财务报表等功能…

基于JSP的物流公司信息管理系统设计与实现

目 录 第一章 绪论 1 1.1 研究背景 1 1.2课题研究意义 1 1.3 国内外的研究状况 2 第二章 相关技术分析 3 2.1技术简介 3 2.2 工作原理 3 2.3体系结构 3 2.4编程语言的特点 3 2.5 数据库 4 第三章 需求分析 5 3.1 可行性分析 5 3.1.1 经济可行性 5 3.1.2 技术可行性 5 3.1.3 运…

C#毕业设计——基于C#+asp.net+sqlserver的汽车销售管理系统设计与实现(毕业论文+程序源码)——汽车销售管理系统

基于C#asp.netsqlserver的汽车销售管理系统设计与实现&#xff08;毕业论文程序源码&#xff09; 大家好&#xff0c;今天给大家介绍基于C#asp.netsqlserver的汽车销售管理系统设计与实现&#xff0c;文章末尾附有本毕业设计的论文和源码下载地址哦。需要下载开题报告PPT模板及…

汽车销售管理系统

文章目录 汽车销售管理系统**背景****环境****项目结构**项目详情**数据库****DBConn.java****Login.java****Data.java****CircleProgressBar.java**运行截图 汽车销售管理系统 背景 Java基础课程设计 环境 数据库&#xff1a;MySQL8.0开发环境&#xff1a;JDK1.8开发工具…