大数据CDH安装详细教程

article/2025/11/6 11:41:29

1.环境准备

1.1 服务器配置(理想配置)
在这里插入图片描述
1.2 修改主机名和hosts文件(所有节点)

[root@hadoop001 ~]# vim /etc/hosts
vim /etc/hostname

1.3 关闭防火墙

systemctl stop firewalld
systemctl disable firewalld

1.4 SSH免密登录(主节点)

ssh-keygen -t rsa
#分发到所有节点
ssh-copy-id hadoop01
ssh-copy-id hadoop02
ssh-copy-id hadoop03

1.5 关闭SELINUX(所有节点)

vi /etc/selinux/config
#修改
SELINUX=disabled

1.6 配置NTP时钟同步(所有节点)

yum -y install ntpdate
#设置定时同步
crontab -e
*/8 * * * * /sbin/ntpdate ntp1.aliyun.com;/sbin/hwclock -w  > /dev/null 2>&1

1.7 设置swap空间(所有节点)

echo "vm.swappiness = 0">>/etc/sysctl.conf
#立即生效
sysctl -p

1.8 关闭大页面压缩(所有节点)

echo never > /sys/kernel/mm/transparent_hugepage/defrag
echo never > /sys/kernel/mm/transparent_hugepage/enabled

1.9 安装jdk (所有节点)
固定目录目录/usr/java下。

1)创建/usr/java目录
2)用SecureCRT将jdk-8u144-linux-x64.tar.gz上传至hadoop01,并解压到/usr/java目录下。
tar -zxvf jdk-8u144-linux-x64.tar.gz -C /usr/java/
3)配置JAVA_HOME环境变量
(1)打开/etc/profile文件
vi /etc/profile
在profile文件末尾添加JDK路径
#JAVA_HOME
export JAVA_HOME=/usr/java/jdk1.8.0_144
export PATH=$PATH:$JAVA_HOME/bin
(2)让修改后的文件生效
source /etc/profile
4)测试JDK是否安装成功
java -version

如果已经装过,注意版本,locate jps 查看路径
建立同步连接
ln -s /opt/jdk1.8.0_202 /usr/java/default
1.10 安装mysql(主节点)

1)下载msql5.7 yum源
wget https://dev.mysql.com/get/mysql57-community-release-el7-9.noarch.rpm
2)安装yum源
rpm -ivh mysql57-community-release-el7-9.noarch.rpm
3)安装mysql
rpm --import https://repo.mysql.com/RPM-GPG-KEY-mysql-2022
yum -y install mysql-server	
yum -y remove mysql57-community-release-el7-9.noarch
4)启动mysql
systemctl start mysqld.service
5)查看root用户密码
grep 'temporary password' /var/log/mysqld.log
set global validate_password_policy=0;
set global validate_password_length=4
6)执行mysql初始化脚本
mysql_secure_installation
7)输入新密码

在这里插入图片描述

8)配置root用户远程访问权限
mysql> grant all privileges on *.* to 'root' @'%' identified by '******.123456';mysql> flush privileges;
9)安装mysql驱动
安装驱动包(所有节点)
wget https://dev.mysql.com/get/Downloads/Connector-J/mysql-connector-java-5.1.27.tar.gz
放在 /usr/share/java   命名:mysql-connector-java.jar

1.11 下载第三方依赖

yum -y install chkconfig python bind-utils psmisc libxslt zlib sqlite cyrus-sasl-plain cyrus-sasl-gssapi fuse fuse-libs redhat-lsb

2.CM安装

2.1 集群规划
在这里插入图片描述
2.2 搭建本地yum源(主节点)

2.2.1安装 httpdyum install -y httpdsystemctl start httpdsystemctl enable httpd
2.2.2创建yum源(主节点)
文件放入对应目录
mkdir /var/www/html/{cm,cdh}
创建yum源
yum install -y createrepo
cd /var/www/html/cm
createrepo .编辑配置文件
vi /etc/yum.repos.d/cm.repo内容:
[cm]
name=cm
baseurl=http://hadoop01/cm/
enabled=1
gpgcheck=02.2.3下发到其他节点
scp /etc/yum.repos.d/cm.repo hadoop02:/etc/yum.repos.d/
scp /etc/yum.repos.d/cm.repo hadoop03:/etc/yum.repos.d/

2.3 安装CM

2.3.1安装CM server及agent
[root@hadoop01 ~]# yum install cloudera-manager-daemons cloudera-manager-agent cloudera-manager-server
[root@hadoop02 ~]# yum install cloudera-manager-agent cloudera-manager-daemons
[root@hadoop03 ~]# yum install cloudera-manager-agent cloudera-manager-daemons
修改配置文件
vim /etc/cloudera-scm-agent/config.ini
修改所有 server_host=hadoop012.3.2创建各组件需要的数据库
mysql> CREATE DATABASE scm DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;mysql> CREATE DATABASE amon DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;mysql> CREATE DATABASE hue DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;mysql> CREATE DATABASE hive DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;mysql> CREATE DATABASE sentry DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;mysql> CREATE DATABASE oozie DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;
2)为CM配置数据库
/opt/cloudera/cm/schema/scm_prepare_database.sh mysql scm root 123456

3.启动CM服务

[root@hadoop01~]# systemctl start cloudera-scm-server cloudera-scm-agent[root@hadoop02~]# systemctl start cloudera-scm-agent[root@hadoop03~]# systemctl start cloudera-scm-agent#查看状态
[root@hadoop01~]# systemctl status cloudera-scm-server
#查看异常信息
[root@hadoop01~]# journalctl -xe

访问http://hadoop01:7180,(用户名、密码:admin)

4.安装CDH

2.1 选择商业版本
1)欢迎页面
在这里插入图片描述
2)用户协议

在这里插入图片描述

3)选择免费版在这里插入图片描述
2.2 部署CDH集群

1)选定集群物理节点
在这里插入图片描述
2)添加本地parcel库
在这里插入图片描述
替换成自己httpd中CDH的地址
在这里插入图片描述

3)等待parcel的下载、分配、解压和激活
在这里插入图片描述

4)检查集群网络环境
在这里插入图片描述

5)选择要安装的CDH组件,选择自定义安装
在这里插入图片描述

6)选择需要安装的组件,如下
在这里插入图片描述

7)CDH各组件角色分布
在这里插入图片描述
在这里插入图片描述
8)数据库连接测试
在这里插入图片描述

9)各组件基本设置,使用默认即可

10)等待安装部署和启动

11)启动成功
**加粗样式**
12)CM-HUE-OOZIE时间统一和oozie资源
oozie.processing.timezone
在这里插入图片描述
在这里插入图片描述

13)在yarn配置项中搜索“yarn.nodemanager.resource.memory-mb”,修改成4G。
在这里插入图片描述

14)在yarn配置项中搜索“yarn.scheduler.maximum-allocation-mb”,修改成2G。
在这里插入图片描述

5.YARN性能调优

每个job提交到yarn执行的时候,都会分配container容器去运行,而这个容器需要资源才能运行,那这个资源就是cpu和内存,也就是每个任务container都需要CPU和内存。
5.1 CPU

1.yarn.nodemanager.resource.cpu-vcores
表示该节点服务器上yarn可以使用的虚拟CPU个数,默认是8,推荐将值配置与物理核心个数相同,如果节点CPU核心不足8个,要调小这个值,yarn不会智能的去检测物理核心数2.yarn.scheduler.minimum-allocation-vcores
单个任务最小可申请的虚拟核心数,默认为13.yarn.scheduler.maximum-allocation-vcores
单个任务最大可申请的虚拟核心水,默认为4,如果申请资源时,超过这个配置,会抛出InvalidResourceRequestException

5.2 内存

服务器节点上会有若干的内存,一部分给yarn,一部分给hdfs,一部分给hbase;Member相关的配置如下:
1.yarn.nodemanager.resource.memory-mb
设置该节点上yarn可使用的内存,默认为8G,如果节点内存资源不足8G,要减少这个值,yarn不会智能的去检测内存资源,一般这个设置yarn的可用内存资源2.yarn.scheduler.minimum-allocation-mb
单个任务最小申请物理内存量,默认1024MB,根据自己的业务设定3.yarn.scheduler.maximum-allocation-mb
单个任务最大申请物理内存量,默认为8291MB

5.3 实际案例

安装服务器为16核,64G内存
yarn.nodemanager.resource.cpu-vcores 虚拟core
这个参数根据自己生产服务器决定,比如公司服务器很富裕,那就直接1:1,设置成16,如果公司服务器不是很富裕,那就直接成1:2,设置成32,我们生产设置的是32yarn.nodemanager.resource.memory-mb 总内存
生产上我们一般要预留15-20%的内存,那么可用内存就是64*0.8=51.2G,我们设置成50G就可以了(固定经验值)yarn.scheduler.minimum-allocation-mb 单任务最小内存
如果设置成2G,那50/2 = 25,就是最多可以跑25个container
如果设置成3G,那50/3 = 16,就是最多可以跑16个containeryarn.scheduler.minimum-allocation-vcores 单任务最少vcore
如果设置vcore = 1,那么32/1 = 32,就是最多可以跑32个container,如果设置成这个,根据上面内存分配的情况,最多只能跑25个container,vcore有点浪费
如果设置vcore = 2,那么32/2 = 16,就是最多可以跑16个containeryarn.scheduler.maximum-allocation-vcores 单任务最多vcore
一般就设置成4个,cloudera公司做过性能测试,如果cpu大于等于5之后,cpu利用率反而不是很好(固定经验值)yarn.scheduler.maximum-allocation-mb 单任务最大内存
这个要根据自己公司业务设定,如果有大任务,需要5-6G内存,那就设置为8G

原文链接:https://blog.csdn.net/u010452388/article/details/98234147


http://chatgpt.dhexx.cn/article/ta5ZtBWk.shtml

相关文章

CDH6安装

官方文档 https://www.cloudera.com/documentation/enterprise/6/6.0/topics/installation.html 安装之前 JDK兼容性在不同的Cloudera Manager和CDH版本中也有所不同。某些版本的CDH 5与JDK 7和JDK 8兼容。在这种情况下,请确保所有服务都部署在同一主要版本上。例…

Cloudera(CDH) 简介和在线安装

实验背景 笔者需要维护线上的hadoop集群环境,考虑在本地搭建一套类似的hadoop集群,便于维护与管理。 Cloudera 简介 经过搜索发现Cloudera产品很适合笔者当前需求,于是开始研究Cloudera(CDH)的安装与使用,参…

CDH6.3.1安装

CDH6.3.1安装遇到很多问题,我想主要是由于条件有限,毕竟自己的电脑内存不如专业集群的内存大(如果是内存和硬盘充足,有些是可以避免的,甚至不会出现报错的情况),这里就介绍一下我用VMware安装的…

CDH安装配置

Cloudera5.14配置 准备工作 软件下载软件安装 JDK安装 所有节点 安装环境变量配置 sudo vim /etc/profile export JAVA_HOME/usr/java/default export PATH$JAVA_HOME/bin:$PATH 使用root用户 echo "JAVA_HOME/usr/java/default" >> /etc/environment …

CDH 6.3.2 安装(一)

目录 一、CDH框架介绍 1、CDH介绍 2、CDH官方网址 3、CDH官方文档 4、CDH集群扩容 5、CDH硬件要求 6、CDH k8s服务开启 二、CDH依赖安装 1、安装通用依赖 2、网络工具安装 3、防火墙服务安装 4、进程树形工具安装 5、其它依赖安装 三、Linux系统配置 1、主机名配…

CDH安装手册(自整理)

文章目录 前言1.组件版本2.集群规划(三台服务器为例)3.配置linux静态IP4.修改hosts文件,并实现免密登录5.创建集群分发脚本6.关闭防火墙和SELINUX(所有节点)7.配置NTP时钟同步8.安装jdk和mysql9.搭建本地yum源并安装10…

安装篇2 - 安装CDH

登陆Cloudera Manager平台 http://192.168.60.100:7180 账号密码:admin/admin 1.1 1.2 1.3 免费 2.1 2.2 2.3 2.4 选择CDH和Flink 2.5 将parcel包内的Hadoop,Hive等组件分发到各个节点进行解压激活 2.6 3.1 自行选择 自定义选择Zookeeper&#xff…

CDH5(CDH 5.16.1)安装

日萌社 人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新) CDH 6系列(CDH 6.0.0、CDH 6.1.0、CDH 6.2.0等)安装和使用 CDH5(CDH 5.16.1)安装 linux配置 1.…

CDH 6.3.2 安装(二)

目录 一、网络配置 1、静态网卡配置 2、网关配置 3、停止networkManager服务 4、重启网卡服务 二、配置静态网卡 1、修改网络配置 2、修改主机名 三、加载MySQL驱动包 1、准备文件 2、下载地址 3、加载MySQL驱动包 四、安装 cloudera-manager-daemons 五、保存当…

CDH6.3.1安装指南

CDH安装指南!!!! CDH简介 CDH基于Web的用户界面,支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 HBase、Zookeeper、Sqoop,简化了大数据平台的安装、使用难度。 Cloudera Manager的功能&#xff…

linux安装cdh

环境准备: linux版本:阿里云ecs,Red Hat 4.8.5,四台机器(一台主节点,三台从节点) cdh版本:cdh-6.1.0-install-soft.tar.gz,离线安装 java版本: jdk1.8.0_18…

ClouderaCDH安装配置说明

实验环境 实验环境:Win7下vmware虚拟机 操作系统:CentOS 6.5 x64 Clouder Manager:5.14.0 CDH:5.14.0 安装说明 官方共给出了3中安装方式:第一种方法必须要求所有机器都能连网,由于最近各种国外的网站被…

CDH 6系列(CDH 6.0.0、CDH 6.1.0、CDH 6.2.0等)安装和使用

日萌社 人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新) CDH 6系列(CDH 6.0.0、CDH 6.1.0、CDH 6.2.0等)安装和使用 CDH5(CDH 5.16.1)安装 CDH 6系列&am…

CDH6.3.2详细安装

CDH(Cloudera’s Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,并集成了很多补丁,可直接用于生产环境。 CDH优点: 1、提供基于web…

cdh安装及配置

一、修改linux主机名称 vim /etc/sysconfig/network 三台虚拟机修改后重启 centos7修改方法: [rootcentos7 ~]$ hostnamectl set-hostname 要修改的主机名.magedu.com # 使用这个命令会立即生效且重启也…

cdh6.3.2安装

1. 数仓之Cloudera Manager 1.1 CM简介 1.1.1 CM简介 Cloudera Manager是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具,使得安装集群从几天的时间缩短在几个小时内,运维人员从数十人降低到几人以内,极大的提高集群管理…

CDH的安装与部署

1.基础环境准备 1.1创建一个新的虚拟机 1.2安装虚拟机,设置ROOT密码并创建用户名为cdh的用户。 1.3修改配置文件 1.4测试是否可以联网 1.5安装常用命令 1.6关闭防火墙 1.7复制两台虚拟机并修改名称 1.8生成MAC地址并记录此地址之后取消 1.9启动第二台虚…

cdh安装教程

CDH免费版最高版本提供到了6.3.2,从6.3.3开始不提供免费版,为此整理了cdh6.3.2的离线安装包,大家可以点此下载:CDH6.3.2 安装大体思路是将rpm压缩包解压到某个节点的本地目录,然后在这个节点开启http服务,…

cdh平台安装详细教程

CDH安装文档目录 文章目录 0、准备1、配置免密码登录2、配置环境变量2.1、配置主机名,安装JDK2.2、安装mysql2.2.1、查看mysql是否安装2.2.2、主节点安装mysql 2.4、NTP安装 3、CDH Manager包文件文件上传分发4、CDH5的安装配置5、hdfs的高可用配置6、kafka安装7、…

大数据之cdh集群安装

安装前的准备工作 配置主机名、hosts、开启PermitRootLogin、设置密码 、做免密 、java环境变量、时间同步 安装过程概述(Ubuntu18.04安装) (centos7离线安装参考https://www.cnblogs.com/swordfall/p/10816797.html) http://ro-bucharest-repo.bigs…