CDH5.8安装说明

article/2025/11/6 11:28:41

#CDH5.8安装说明

@(Hadoop)

使用过Ambari,不知道是因为没有商业运作支撑还是社区活跃度有限,总体管理能力只能算凑合。很多Hadoop组件版本都不高,Spark也才1.3.X,Sqoop还是1.4.6.2.3,相对版本都比较低,而且管理并不算优秀。遂放弃,准备使用CDH做下测试。

CDH在版本跟踪上还是比较密切贴近Hadoop的各个模块版本,基本上在修复版本上差个一两个版本。逼近CDH一直有在做Issue的修复,很多修复也都是直接提交给Apache,所以自身版本的集成速度还是可以满足有尝鲜需求的开发者。

###准备工作
查看SSH无密码登录配置
另外,需要安装Python2.6或2.7版本
jdk1.7

###安装cdh-manager-sever
首先,先下载repo,
wget https://archive.cloudera.com/cm5/redhat/7/x86_64/cm/cloudera-manager.repo
然后,将下载的cloudera-manager.repo文件拷贝至/etc/yum.repos.d/路径下
运行安装命令yum install cloudera-manager-daemons cloudera-manager-server,默认下载最新的CDH版本。然后,开始非常漫长的下载,因为外网下载实在很狗屎,原因大家都明白。
Alt text

当然,还有捷径哦,直接http://archive.cloudera.com/cm5下载你要的版本installer,chmod u+x相关bin文件,然后./*.bin该文件,即可进入界面化安装操作。一路确认,接受license,最后也是要通过外网下载安装包,然后依然慢的像狗屎。
好吧,为什么非得他们来下载呢,用迅雷自己下载啊,那链接呢
http://archive.cloudera.com/cm5/redhat/7/x86_64/cm/5.8.1/RPMS/x86_64/
找到了。

###安装MySQL并配置
本身hive/Oozie/Hue等都会使用到MySQL,因而安装MySQL是必须的。
CentOS7安装MySQL有些蛋疼,总是出错,原来是需要初始化
mysql_install_db --user=mysql --datadir=/data/db/mysql/,其中,datadir需要清空,并配置到my.cnf文件中

初始化基本数据库

--hive数据库,为什么使用latin1,后面安装异常会做说明
create database hive DEFAULT CHARSET latin1; 
--集群监控数据库
create database amon DEFAULT CHARSET utf8;
--hue数据库
create database hue DEFAULT CHARSET utf8;
--oozie数据库
create database oozie default charset utf8;
--授权
grant all privileges on hive.* to 'scm'@'%' identified by 'cdh' with grant option;
grant all privileges on amon.* to 'scm'@'%' identified by 'cdh' with grant option;
grant all privileges on hue.* to 'scm'@'%' identified by 'cdh' with grant option;
grant all privileges on oozie.* to 'scm'@'%' identified by 'cdh' with grant option;
flush privileges; 

初始化manager数据库配置

我的安装路径在/usr/share/cmf/,进入/usr/share/cmf/schema/路径
./scm_prepare_database.sh mysql -hlocalhost -uroot -plinesum@com --scm-host cdh.master.linesum scm scm cdh.master.linesum
参数含义详见官方说明Cloudera Manager and Managed Service Datastores
删除不必要的配置文件

Remove the embedded PostgreSQL properties file if it exists:
Installer or package install
/etc/cloudera-scm-server/db.mgmt.properties
Tarball install
<tarball root>/etc/cloudera-scm-server/db.mgmt.properties

另外,将mysql-connector-java-5.1.8.jar丢到/usr/share/cmf/lib路径下。

####初始化agent数据库配置
Alt text
安装Agent的时候发现很多包和库都没有,我比较粗暴,直接一次性安装
yum -y install bind-utils psmisc libxslt cyrus-sasl-plain cyrus-sasl-gssapi fuse portmap fuse-libs httpd mod_ssl openssl-devel python-psycopg2 MySQL-python
漏了一个 /lib/lsb/init-functions is need by
使用安装即可yum -y install lsb
Alt text
安装路径总是很难琢磨,只能使用find查找。
修改config.ini该文件的server_host为主节点的主机名

###下载parcel安装包
离线先下载具体软件的安装包:http://archive.cloudera.com/cdh5/parcels/5.8.0.42/,使用迅雷下载,拥有飞一样的速度。
Alt text
根据自己的环境选择版本,下载的*.sha1要修改为*.sha。
然后上传到主节点的/opt/cloudera/parcel-repo/路径(该路径每个版本都不一样)

###启动manager和agent
service cloudera-scm-server start,这个启动有点慢,可以关注日志变动情况
service cloudera-scm-agent start
其中,日志所在路径是
/var/log/cloudera-scm-server/cloudera-scm-server.log
启动server后,使用/sbin/iptables -I INPUT -p tcp --dport 7180 -j ACCEPT打开7180端口,然后即可访问manager: http://cdh.master.linesum:7180
这里写图片描述
有点小不容易,截图占位下_
初始密码是admin/admin
然后使用Parcel安装
Alt text
这个过程可以查看/opt/cloudera/parcel*几个路径,这是一个复制过程。通过主机的parcel拷贝到其他几个从机上,速度非常快。所以使用Parcel安装,升级就非常便捷了。
完成后继续,CDH会自动测试机器的配置
这里写图片描述
有这么的WARNING,我没有理会。

###特定端口的开放
查看端口是否开放:firewall-cmd --query-port=80/tcp
如果没有,使用firewall-cmd --add-port=8888/tcp

###安装异常记录

  1. Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException): Permission denied: user=mapred, access=WRITE, inode="/":hdfs:supergroup:drwxr-xr-x
    YARN JobHistory Server不能正常启动,使用
    groupadd supergroup usermod -a -G supergroup mapred usermod -a -G supergroup hdfs usermod -a -G supergroup hive usermod -a -G supergroup hue usermod -a -G supergroup spark sudo -u hdfs hadoop fs -chmod 777 /user

  2. org.apache.hadoop.security.AccessControlException: Permission denied: user=spark, access=EXECUTE, inode="/user":mapred:supergroup:drwxrwx—

  3. Hue不能正常访问
    Alt text
    Hue已经正常启用,而且防火墙端口也已经开通了,可是访问8888端口不成功。需要勾选上图的选项。具体原因查看端口变动
    Alt text
    这个问题经常会碰到,改造方式都是如此。

  4. Hive Metastore Canary报错,不能正常插入数据库
    Caused by: javax.jdo.JDODataStoreException:Required table missing : "VERSION" in Catalog "" Schema"". DataNucleus requires this table to perform its persistenceoperations. Either your MetaData is incorrect, or you need to enable"datanucleus.autoCreateTables"
    修复方案参考http://blog.csdn.net/nevergiveup54/article/details/50612252
    Alt text

  5. hive的Specified key was too long; max key length is 767 bytes问题解决
    这个坑其实和CDH没有关系,是使用MySQL的字符集错误。
    具体参考http://blog.csdn.net/fhx007/article/details/46353035
    mysql>alter database hive character set latin1; mysql>flush privileges;
    或者直接重新创建hive表,并使用默认charset为latin1.
    create database hive DEFAULT CHARSET latin1;
    使用上述方案前,需要先将hive库内的所有表做删除。

  6. Permission access=EXECUTE, inode="/user":mapred:supergroup:drwxrwx—
    Alt text
    这个也是常见问题,
    Alt text
    sudo -u hdfs hdfs dfs -chown hive:hive /user sudo -u hdfs hdfs dfs -chown hue:hue /user

  7. Spark安装报HDFS地址/user/spark/applicationHistory不存在
    手动创建:sudo -u hdfs hdfs dfs -mkdir /user/spark/applicationHistory

  8. NameNode检查点状态
    Alt text
    总是报错,首先了解下NameNode检查点的作用:这是 NameNode 运行状况测试,用于检查 NameNode 的文件系统检查点是否不早于文件系统检查点周期的某一百分比,并检查自上个文件系统检查点开始的事务的数量是否未超过文件系统检查点事务限制的某一百分比。 如果该运行状况测试失败,可能表明活动的 NameNode 或其已配置的检查点角色存在问题,例如 Standby NameNode,或是 SecondaryNameNode。有关详细信息,请查看 NameNode 日志或检查点角色的日志。 可以使用 文件系统检查点期间监控阈值 和 文件系统检查点事务监控阈值 NameNode 监控设置配置该测试。
    这个说法,有点拗口,简单点说:你的SecondaryNameNode可能同步出问题了。详见网友说明,我也同样找了日志说明,发现平静底下一堆报错:
    Alt text
    Alt text
      所以,这个报错放在NameNode就很容易迷糊,我一直没有找到NameNode的日志有报错的说明,找起来也就很没有方向。
    所以具体问题是:secondarynamenode没有执行检查点的操作,导致会产生上面的错误,上面的错误说明的是你一直没有执行检查点的操作。下面的错误说明的是执行检查点操作失败,不执行。
    问题的解决方法
      通过真正的错误的描述,发现主要是版本不匹配,说明在重新安装CDH的时候,保留了以前版本的CDH的数据,导致不一致的版本问题,所以导致secondarynamenode不执行检查点的操作。那么解决办法就是删除之前的数据,所以通过删除secondarynamenode执行检查点是的目录,即hdfs-site.xml中参数fs.checkpoint.dir, dfs.namenode.checkpoint.dir的值的路径。
      删除之后,重新启动集群即可。

  9. 启动hdfs时,报错 Canary 测试无法在目录 /tmp/.cloudera_health_monitoring_canary_files 中创建文件。
    经过查看日志,发现 Name node is in safe mode.
    解决方法:sudo -uhdfs hdfs dfsadmin -safemode leave

  10. oozie安装失败SERVER[cdh.master.linesum] E0103: Could not load service classes, Cannot load JDBC driver class ‘com.mysql.jdbc.Driver’
    org.apache.oozie.service.ServiceException: E0103: Could not load service classes, Cannot load JDBC driver class ‘com.mysql.jdbc.Driver’
    这个报错很常见,原以为把mysql-connector-java-***-bin.jar丢到oozie的lib即可,但是发现依然宝盖错误。后来在网上找到需要将这个包放到这个路径下就通过了(名字需要修改下)
    /usr/share/java/mysql-connector-java.jar
    Alt text

  11. oozie启动或运行报错:Caused by: com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: Table ‘oozie.VALIDATE_CONN’ doesn’t exist
    解决方式是After changing Oozie's database (you need to create the mysql user and database outside of CM,), you need to run the appropriate command to populate that database with oozie's tables. **Click on Oozie, then in the Actions menu on the right, select Create Database. Oozie must be stopped to do this.**
    Alt text

  12. Hue – Failed to access Hive warehouse: /data/hadoop/hive/warehouse
    Its means that HUE can’t get to the Hive warehouse folder in HDFS, and its a very easy problem to fix. As we’ve done previously, open up a terminal window, and switch over to the root account with: su –
    Create the hive user folder in hdfs, and a warehouse subfolder, then change the ownership by running these three commands, one after another:
    sudo -u hdfs hadoop fs -mkdir /data/hadoop/hive sudo -u hdfs hadoop fs -mkdir /data/hadoop/hive/warehouse sudo -u hdfs hadoop fs -chmod 1777 /data/hadoop/hive/warehouse
    Restart the HUE service and re-login:
    service hue restart

  13. Hue中的Hive查询出错(触发MapReduce就报错:)
    查看YARN的任务列表,发现直接使用hive cli执行的语句是可以正常运行的,但是使用Hue执行的,都FAILED,可以看出,角色不同。
    Alt text
    这个问题怎么解决呢?再Hue管理台创建root或hive账号即可。
    Alt text

###Over
解决完上述问题
这里写图片描述
终于是全绿了!

##Reference
[1] 官网说明不是用A方案(non-production model),采用B安装方案。主动配置主要依赖工具或SDK。
[2] 网友整理版本
[3] 清晰的说明
[4] 详细的版本说明http://blog.csdn.net/a921122/article/details/51939692


http://chatgpt.dhexx.cn/article/Qd6elfQA.shtml

相关文章

大数据CDH安装详细教程

1.环境准备 1.1 服务器配置(理想配置) 1.2 修改主机名和hosts文件(所有节点) [roothadoop001 ~]# vim /etc/hosts vim /etc/hostname1.3 关闭防火墙 systemctl stop firewalld systemctl disable firewalld1.4 SSH免密登录(主节点) ssh-keygen -t rsa #分发到所有节点 ssh…

CDH6安装

官方文档 https://www.cloudera.com/documentation/enterprise/6/6.0/topics/installation.html 安装之前 JDK兼容性在不同的Cloudera Manager和CDH版本中也有所不同。某些版本的CDH 5与JDK 7和JDK 8兼容。在这种情况下&#xff0c;请确保所有服务都部署在同一主要版本上。例…

Cloudera(CDH) 简介和在线安装

实验背景 笔者需要维护线上的hadoop集群环境&#xff0c;考虑在本地搭建一套类似的hadoop集群&#xff0c;便于维护与管理。 Cloudera 简介 经过搜索发现Cloudera产品很适合笔者当前需求&#xff0c;于是开始研究Cloudera&#xff08;CDH&#xff09;的安装与使用&#xff0c;参…

CDH6.3.1安装

CDH6.3.1安装遇到很多问题&#xff0c;我想主要是由于条件有限&#xff0c;毕竟自己的电脑内存不如专业集群的内存大&#xff08;如果是内存和硬盘充足&#xff0c;有些是可以避免的&#xff0c;甚至不会出现报错的情况&#xff09;&#xff0c;这里就介绍一下我用VMware安装的…

CDH安装配置

Cloudera5.14配置 准备工作 软件下载软件安装 JDK安装 所有节点 安装环境变量配置 sudo vim /etc/profile export JAVA_HOME/usr/java/default export PATH$JAVA_HOME/bin:$PATH 使用root用户 echo "JAVA_HOME/usr/java/default" >> /etc/environment …

CDH 6.3.2 安装(一)

目录 一、CDH框架介绍 1、CDH介绍 2、CDH官方网址 3、CDH官方文档 4、CDH集群扩容 5、CDH硬件要求 6、CDH k8s服务开启 二、CDH依赖安装 1、安装通用依赖 2、网络工具安装 3、防火墙服务安装 4、进程树形工具安装 5、其它依赖安装 三、Linux系统配置 1、主机名配…

CDH安装手册(自整理)

文章目录 前言1.组件版本2.集群规划&#xff08;三台服务器为例&#xff09;3.配置linux静态IP4.修改hosts文件&#xff0c;并实现免密登录5.创建集群分发脚本6.关闭防火墙和SELINUX&#xff08;所有节点&#xff09;7.配置NTP时钟同步8.安装jdk和mysql9.搭建本地yum源并安装10…

安装篇2 - 安装CDH

登陆Cloudera Manager平台 http://192.168.60.100:7180 账号密码&#xff1a;admin/admin 1.1 1.2 1.3 免费 2.1 2.2 2.3 2.4 选择CDH和Flink 2.5 将parcel包内的Hadoop&#xff0c;Hive等组件分发到各个节点进行解压激活 2.6 3.1 自行选择 自定义选择Zookeeper&#xff…

CDH5(CDH 5.16.1)安装

日萌社 人工智能AI&#xff1a;Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战&#xff08;不定时更新&#xff09; CDH 6系列&#xff08;CDH 6.0.0、CDH 6.1.0、CDH 6.2.0等&#xff09;安装和使用 CDH5&#xff08;CDH 5.16.1&#xff09;安装 linux配置 1.…

CDH 6.3.2 安装(二)

目录 一、网络配置 1、静态网卡配置 2、网关配置 3、停止networkManager服务 4、重启网卡服务 二、配置静态网卡 1、修改网络配置 2、修改主机名 三、加载MySQL驱动包 1、准备文件 2、下载地址 3、加载MySQL驱动包 四、安装 cloudera-manager-daemons 五、保存当…

CDH6.3.1安装指南

CDH安装指南&#xff01;&#xff01;&#xff01;&#xff01; CDH简介 CDH基于Web的用户界面,支持大多数Hadoop组件&#xff0c;包括HDFS、MapReduce、Hive、Pig、 HBase、Zookeeper、Sqoop&#xff0c;简化了大数据平台的安装、使用难度。 Cloudera Manager的功能&#xff…

linux安装cdh

环境准备&#xff1a; linux版本&#xff1a;阿里云ecs&#xff0c;Red Hat 4.8.5&#xff0c;四台机器&#xff08;一台主节点&#xff0c;三台从节点&#xff09; cdh版本&#xff1a;cdh-6.1.0-install-soft.tar.gz&#xff0c;离线安装 java版本&#xff1a; jdk1.8.0_18…

ClouderaCDH安装配置说明

实验环境 实验环境&#xff1a;Win7下vmware虚拟机 操作系统&#xff1a;CentOS 6.5 x64 Clouder Manager&#xff1a;5.14.0 CDH&#xff1a;5.14.0 安装说明 官方共给出了3中安装方式&#xff1a;第一种方法必须要求所有机器都能连网&#xff0c;由于最近各种国外的网站被…

CDH 6系列(CDH 6.0.0、CDH 6.1.0、CDH 6.2.0等)安装和使用

日萌社 人工智能AI&#xff1a;Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战&#xff08;不定时更新&#xff09; CDH 6系列&#xff08;CDH 6.0.0、CDH 6.1.0、CDH 6.2.0等&#xff09;安装和使用 CDH5&#xff08;CDH 5.16.1&#xff09;安装 CDH 6系列&am…

CDH6.3.2详细安装

CDH(Cloudera’s Distribution, including Apache Hadoop)&#xff0c;是Hadoop众多分支中的一种&#xff0c;由Cloudera维护&#xff0c;基于稳定版本的Apache Hadoop构建&#xff0c;并集成了很多补丁&#xff0c;可直接用于生产环境。 CDH优点&#xff1a; 1、提供基于web…

cdh安装及配置

一、修改linux主机名称 vim /etc/sysconfig/network 三台虚拟机修改后重启 centos7修改方法&#xff1a; [rootcentos7 ~]$ hostnamectl set-hostname 要修改的主机名.magedu.com # 使用这个命令会立即生效且重启也…

cdh6.3.2安装

1. 数仓之Cloudera Manager 1.1 CM简介 1.1.1 CM简介 Cloudera Manager是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具&#xff0c;使得安装集群从几天的时间缩短在几个小时内&#xff0c;运维人员从数十人降低到几人以内&#xff0c;极大的提高集群管理…

CDH的安装与部署

1.基础环境准备 1.1创建一个新的虚拟机 1.2安装虚拟机&#xff0c;设置ROOT密码并创建用户名为cdh的用户。 1.3修改配置文件 1.4测试是否可以联网 1.5安装常用命令 1.6关闭防火墙 1.7复制两台虚拟机并修改名称 1.8生成MAC地址并记录此地址之后取消 1.9启动第二台虚…

cdh安装教程

CDH免费版最高版本提供到了6.3.2&#xff0c;从6.3.3开始不提供免费版&#xff0c;为此整理了cdh6.3.2的离线安装包&#xff0c;大家可以点此下载&#xff1a;CDH6.3.2 安装大体思路是将rpm压缩包解压到某个节点的本地目录&#xff0c;然后在这个节点开启http服务&#xff0c;…

cdh平台安装详细教程

CDH安装文档目录 文章目录 0、准备1、配置免密码登录2、配置环境变量2.1、配置主机名&#xff0c;安装JDK2.2、安装mysql2.2.1、查看mysql是否安装2.2.2、主节点安装mysql 2.4、NTP安装 3、CDH Manager包文件文件上传分发4、CDH5的安装配置5、hdfs的高可用配置6、kafka安装7、…