在centos 7.3上进行Apache HAWQ集群安装部署

article/2025/9/18 20:20:48

一、前期准备工作

1、准备三台物理机,master(192.168.251.8),dataserver1(192.168.251.9),dataserver2(192.168.251.10);

2、目前最新版本是2.4.0,

官网下载地址:http://hawq.apache.org/

源码编辑及安装Apache官方文档地址为:https://cwiki.apache.org/confluence/display/HAWQ/Build+and+Install

3、此次选择安装部署的是在官网上打包号的安装包,下载地址: http://apache.org/dyn/closer.cgi/hawq/2.4.0.0/apache-hawq-rpm-2.4.0.0.tar.gz ,将部署包拷贝到相应的服务器中;

4、关闭防火墙

关闭防火墙:systemctl stop firewalld
关闭防火墙自动运行:systemctl disable firewalld
查看防火墙状态:systemctl status firewalld

5、HAWQ是基于hadoop的,在安装HAWQ前确保已经安装好了hadoop集群。

二、依赖项及前期配置

     前期保证网络正常

1、安装依赖项,依次执行下列命令

wget https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm
# For CentOs 7 the link is https://dl.fedoraproject.org/pub/epel/7/x86_64/e/epel-release-7-9.noarch.rpm
rpm -ivh epel-release-latest-7.noarch.rpm
yum makecache
# On redhat7, make sure enabled rhel-7-server-extras-rpms and rhel-7-server-optional-rpms channel in /etc/yum.repos.d/redhat.repo
# Otherwise yum will prompt some packages(e.g. gperf) not be found
yum install -y man passwd sudo tar which git mlocate links make bzip2 net-tools \autoconf automake libtool m4 gcc gcc-c++ gdb bison flex gperf maven indent \libuuid-devel krb5-devel libgsasl-devel expat-devel libxml2-devel \perl-ExtUtils-Embed pam-devel python-devel libcurl-devel snappy-devel \thrift-devel libyaml-devel libevent-devel bzip2-devel openssl-devel \openldap-devel protobuf-devel readline-devel net-snmp-devel apr-devel \libesmtp-devel python-pip json-c-devel \java-1.7.0-openjdk-devel lcov cmake3 \openssh-clients openssh-server perl-JSON perl-Env# need tomcat6 if enable-rps
# download from http://archive.apache.org/dist/tomcat/tomcat-6/v6.0.44/ln -s /usr/bin/cmake3 /usr/bin/cmake
pip --retries=50 --timeout=300 install pycrypto

2、修改系统环境参数,打开 vim /etc/sysctl.conf,添加如下配置

     kernel.shmmax = 1000000000kernel.shmmni = 4096kernel.shmall = 4000000000kernel.sem = 250 512000 100 2048kernel.sysrq = 1kernel.core_uses_pid = 1kernel.msgmnb = 65536kernel.msgmax = 65536kernel.msgmni = 2048net.ipv4.tcp_syncookies = 0net.ipv4.conf.default.accept_source_route = 0net.ipv4.tcp_tw_recycle = 1net.ipv4.tcp_max_syn_backlog = 200000net.ipv4.conf.all.arp_filter = 1net.ipv4.ip_local_port_range = 1281 65535net.core.netdev_max_backlog = 200000vm.overcommit_memory = 2fs.nr_open = 3000000kernel.threads-max = 798720kernel.pid_max = 798720#增加网络net.core.rmem_max = 2097152net.core.wmem_max = 2097152

执行以下命令将更新的  /etc/sysctl.conf  文件应用于操作系统配置:

sysctl -p

3、使用文本编辑器编辑  /etc/security/limits.conf  文件

#按照列出的确切顺序添加以下定义
#(请确保在编辑limits.conf之前应用fs.nr_open = 3000000,否则您可能无法ssh到您的实例)* soft nofile 2900000* hard nofile 2900000* soft nproc 131072* hard nproc 131072

4、新增 gpadmin用户(root下不能运行HAWQ)

useradd -m gpadmin -G root -s /bin/bashpasswd gpadmin

5、授予管理员权限

输入visudo命令,在打开的文件中找到 root ALL=(ALL) ALL 这一行

在底部补充添加一行 gpadmin  ALL=(ALL) ALL 保存退出

6、给gpadmin用户配置SSH无密码登录

1)进入gpadmin用户目录下,ssh-keygen -t rsa 生成各自机器对应的公钥文件;

2)将集群中各自公钥文件集成到authorized_keys文件中;

3)将authorized_keys文件拷贝到集群各个节点中的~/.ssh/目录下;

4)给authorized_keys授权文件,其它用户可以访问

chmod 600 authorized_keys。

三、安装HAWQ

1、解压HAWQ压缩包到目标目录/usr/local下

tar -zxvf apache-hawq-rpm-2.4.0.0.tar.gz  -C /usr/local/

2、进入解压后的目录下 执行rpm,安装hawq

cd hawq_rpm_packages/
rpm -ivh apache-hawq-2.4.0.0-el7.x86_64.rpm

3、将安装目录的所属用户及所属组改为gpadmin

chown -hR gpadmin /usr/local/apache-hawq/
chgrp -hR gpadmin /usr/local/apache-hawq/

4、在/usr/local/apache-hawq目录下创建 hawq_data_directory文件夹并在其中分别 创建文件夹masterdd及segment

mkdir /usr/local/apache-hawq/hawq-data-directory/masterdd
mkdir /usr/local/apache-hawq/hawq-data-directory/segmentdd

5、配置/usr/local/apache-hawq/etc目录下的hawq-site.xml文件(主要的配置信息如下,其它的默认保持不变)

<configuration><property><name>hawq_master_address_host</name><value>master</value> <description>The host name of hawq master.</description></property><property><name>hawq_master_address_port</name><value>5432</value><description>The port of hawq master.</description></property><property><name>hawq_standby_address_host</name><value>none</value><description>The host name of hawq standby master.</description></property><property><name>hawq_segment_address_port</name><value>40000</value><description>The port of hawq segment.</description></property><property><name>hawq_dfs_url</name><value>master:9000/hawq_default</value> # 端口及ip地址与dfs的一致<description>URL for accessing HDFS.</description></property><property><name>hawq_master_directory</name><value>/usr/local/apache-hawq/hawq-data-directory/masterdd</value><description>The directory of hawq master.</description></property><property><name>hawq_segment_directory</name><value>/usr/local/apache-hawq/hawq-data-directory/segmentdd</value><description>The directory of hawq segment.</description></property><property><name>hawq_master_temp_directory</name><value>usr/local/apache-hawq/tmp</value><description>The temporary directory reserved for hawq master.</description></property><property><name>hawq_segment_temp_directory</name><value>usr/local/apache-hawq/tmp</value><description>The temporary directory reserved for hawq segment.</description></property><property><name>hawq_rm_yarn_address</name>
<value>master:8032</value><description>The address of YARN resource manager server.</description></property><property><name>hawq_rm_yarn_scheduler_address</name><value>master:8030</value><description>The address of YARN scheduler server.</description></property><property><name>hawq_rm_yarn_queue_name</name><value>default</value><description>The YARN queue name to register hawq resource manager.</description></property><property><name>hawq_rps_address_port</name><value>8432</value><description>The port number of Ranger Plugin Serice. HAWQ RPS address ishttp://$rps_host(hawq_master_address_host or hawq_standby_address_host):$hawq_rps_address_port/rpsFor example, http://localhost:8432/rps</description></property><property><name>default_hash_table_bucket_number</name><value>12</value></property></configuration>

注:master 和 standby 装在 hadoop namenode 和secondnamenode 上,   segmentdd 装在datanode所在服务器

5、配置pgadmin用户免密登陆

cd /usr/local/apache-hawq   #进入hawq目录中
source greenplum_path.sh
cd bin
./hawq ssh-exkeys -h master -h dataserver1 -h dataserver2

6、切换到hadoop用户,在hadoop创建hawq所需的文件夹,并改变文件夹所有者

su hadoophadoop dfs -mkdir /hawq_defaulthadoop dfs -chown gpadmin:gpadmin /hawq_default

7、初始化hawq

cd /usr/local/apache-hawq/bin./hawq init cluster

初始化后,默认hawq是启动状态;

8、启动和关闭hawq

    启动之前保证hadoop服务已启动

./hawq start cluster./hawq stop cluster

9、在pg_hba.conf文件中添加如下

host all gpadmin 192.168.251.1/24 trust

可以远程访问(例如可以使用navicat工具)

官网文档:http://hawq.apache.org/docs/userguide/2.3.0.0-incubating/tutorial/overview.html


http://chatgpt.dhexx.cn/article/fENC3j6M.shtml

相关文章

HAWQ

为了跟上所谓“大数据”技术的脚步&#xff0c;从两年前开始着手实践各种SQL-on-Hadoop技术&#xff0c;从最初的Hive&#xff0c;到SparkSQL&#xff0c;再到Impala&#xff0c;进行了一系列ETL、CDC、多维数据仓库、OLAP的实验。作为一名从业20年以上的DBA&#xff0c;从数据…

HAWQ技术解析(三) —— 基本架构

HAWQ是一个Hadoop原生的SQL查询引擎&#xff0c;它结合了MPP数据库的关键技术和Hadoop的可扩展性。HAWQ在原生的HDFS上读写数据&#xff0c;MPP架构使HAWQ表现出超越其它SQL on Hadoop解决方案的查询性能&#xff0c;Hadoop又为HAWQ提供了传统数据库所不具备的线性扩展能力。 一…

HAWQ技术解析(十三) —— 资源管理

一、HAWQ如何管理资源 HAWQ使用多种机制管理CPU、内存、I/O、文件句柄等系统资源&#xff0c;包括全局资源管理、资源队列、强制资源使用限额等。 1. 全局资源管理 Hadoop通常使用YARN全局管理资源。YARN是一个通用的资源管理框架&#xff0c;为MapReduce作业或其…

HAWQ个人学习笔记(一)——HAWQ介绍

一、什么是HAWQ&#xff1f; HAWQ是Hadoop原生SQL查询引擎&#xff0c;针对分析性的应用。它具有大规模并行处理很多传统数据库以及其他数据库没有的特性及功能&#xff0c;结合了MMP数据库的关键技术优势和Hadoop的可扩展性和便利性。读写依赖于HDFS。 注&#xff1a;Hadoop…

全面讲解光纤、光模块、光纤交换机、光模块组网设计与案例

光纤组网已是当今建筑智能化弱电行业里一种常见的组网方式&#xff0c;组建远距离无线、监控网络时&#xff0c;往往需要使用光纤进行连接通信&#xff0c;使用光纤收发器是经济适用型做法&#xff0c;尤其是在室外的使用。其实光纤收发器不仅可以成对使用&#xff0c;还可以配…

400G光模块的相关知识

现在的高速光模块市场慢慢从100G向400G转移&#xff0c;未来400G必定是主流的高速光模块&#xff0c;目前这个阶段占领主流的还是100G&#xff0c;之前100G的相关知识已经讲述过了&#xff0c;400G与100G的传输速率由各种因素导致&#xff0c;我们讲讲400G与100G的信号传输。 4…

QSFP28-100G-LR4光模块有什么特点及优势?

100G以太网的迅速发展给100G光模块带来了巨大的市场需求&#xff0c;在众多100G光模块中&#xff0c;QSFP28光模块以其较小的尺寸和低功耗的特点成为最受欢迎的光模块。下面易天光通信&#xff08;ETU-LINK&#xff09;将从定义&#xff0c;工作原理&#xff0c;应用场景和常见…

DWDM光模块和CWDM光模块的区别

DWDM光模块和CWDM光模块的区别 近年来波分复用(WDM)技术受到网络用户的热烈欢迎,这是一种在单根光纤上复用不同波长激光的多个光载波信号的技术。下文将由亿创飞宇光通信重点介绍CWDM SFP光模块和DWDM SFP光模块。 DWDM光模块是什么?DWDM光模块有哪些主要优势? DWDM光模…

SC接口光模块相关知识

什么是SC接口光模块&#xff1f; SC接口光模块即接口类型为SC的光模块&#xff0c;必须搭配SC接口的跳线才能正常使用。SC光模块的接口的紧固方式是采用插拔销闩式&#xff0c;不须旋转&#xff0c;使用很方便。 SC光模块的分类 SC光模块相比LC光模块和MPO光模块…

全面解析光模块的应用场景

光模块主要应用于数据通信领域&#xff0c;它的功能是实现光电信号的相互转化。因为大数据、区块链、云计算、物联网、人工智能、5G的兴起&#xff0c;使得数据流量迅猛增长&#xff0c;数据中心以及移动通信的光互连成为了光通信行业的研究热点。接下来&#xff0c;易天光通信…

单波100G光模块与4路100G光模块相比,优势有哪些?

目前市场上大多数的100G光模块都是采用4路25Gb/s并行或者波分复用进行传输的&#xff0c;比如100G SR4、100G PSM4、100G LR4、100G CWDM4光模块等&#xff0c;为了降低成本以及更好的传输效率&#xff0c;业界提出了100G single-lambda规范&#xff0c;这个规范是指使用PAM4光…

光模块-寿命分析

光模块结构分类基本指标光模块的使用寿命光模块的三种失效率预计方法基本概念失效率预计 可靠性分析可靠性试验加速寿命试验方法阿伦尼兹(Arrhenius)模型逆幂律模型单应力的艾林(Eyring)模型 光模块加速寿命试验分析方法研究 光模块 光模块是进行光电和电光转换的光电子器件。…

5G通信光模块是什么?5G通信光模块的发展方向如何?

随着移动通信行业的迅猛发展&#xff0c;目前5G已经成为全球关注的超级热门话题&#xff0c;与2G、3G、4G相比&#xff0c;未来光纤通信行业5G地位不容小觑&#xff0c;在5G网络时代&#xff0c;不管什么样的5G承载方案都离不开5G通信光模块&#xff0c;那么5G通信光模块是什么…

100G多模光模块介绍及应用

随着光通信市场对数据传输速率的要求越来越高&#xff0c;更高速率的光模块也随之诞生。与10G、40G的波分传输系统相比&#xff0c;100G光传输实现了偏振复用相位调制技术、数字相干接收技术第三代超强纠错编码技术等一系列重大改革&#xff0c;满足了用户与时俱进的需求。本期…

linux 光功率 模块_【光电通信】10G 光模块消光比补偿方法

今日光电 有人说,20世纪是电的世纪,21世纪是光的世纪;知光解电,再小的个体都可以被赋能。欢迎来到今日光电! ----与智者为伍 为创新赋能---- 0. 引言 随着光纤到户、4G 业务的高速发展,光通信行业对高速光模块的需求也越来越大,这也对光模块厂商产能提出了新的挑…

精品文章!精讲光模块的方方面面,收藏!

光纤&#xff1a; 光纤作为光通信的传播媒介&#xff0c;分为多模光纤和单模光纤。 多模光纤&#xff08;橘红色&#xff09;的纤芯直径为 50um~62.5um&#xff0c;包层外直径 125um&#xff0c;适用于短距离传输&#xff08; 2KM-5KM)&#xff1b;单模光纤&#xff08;黄色&…

XFP与SFP+光模块的区别是什么?能相互连接吗?

在光纤网络中&#xff0c;10G光模块凭借着较低的成本和功耗被广泛应用于学校、公司等应用环境中。XFP和SFP是10G光模块常见的两种封装类型&#xff0c;下面易天光通信&#xff08;ETU-LINK&#xff09;就为大家介绍下XFP与SFP光模块的区别是什么&#xff1f;以及它们两者能相互…

400G光模块知识大全

400G光模块是目前高速传输领域中的一种先进产品&#xff0c;被广泛应用于高性能数据中心、通信网络、大规模计算、云计算等领域。本文将从400G光模块的定义、技术、产品型号、应用场景以及未来发展方向进行详细介绍。 一、什么是400G光模块&#xff1f; 400G光模块是指传输速率…

光模块:定义与组成

光模块是光纤通信系统中的核心器件&#xff0c;是实现光信号传输过程中光电转换和电光转换功能的光电子器件。按照分层划分的话&#xff0c;它属于OSI模型的物理层。 那么光模块主要应用在哪里呢&#xff1f;基本上所有的网络传输环节都会与光模块打交道&#xff0c;其应用场景…

光模块选购注意事项大全

光模块是光纤通信的核心配件&#xff0c;现今光模块市场品种繁多&#xff0c;我们在选购光模块的时候需要考虑哪些因素呢&#xff1f;如何才能采购到合适的光模块呢&#xff1f;选购光模块的时候需要考虑的因素&#xff1a; 1、封装速率 光模块的封装有 SFP:用于155M、1.25G、…