tez详解

article/2025/11/1 3:37:13

1 tez的概览

1.1 tez介绍

1.1.1 介绍

tez是一个apache的开源项目,意在构建一个应用框架,能通过复杂任务的DAG来处理数据。它是基于当前的hadoop yarn之上,换句话就是yarn为其提供资源。

tez主要的两个设计目标:

增强终端用户使用:

灵活的数据流定义API

灵活的输入输出运行时模型(强调处理模型)

数据类型无关

简洁部署

高性能执行:

通过mapreduce提高性能

资源优化管理

执行时计划重定义

物理数据流的动态决策

tez可以像Apache Hive和Apache Pig这样的项目运行复杂的任务DAG,Tez可以用于处理数据,早期使用了多个MR作业,现在在单个Tez作业中,如下所示:

[外链图片转存失败(img-Iq305CQu-1568909945897)(img/04.png)]

注:

天蓝色方块为map,绿色方块为reduce,云状的为输出隐藏,绿色的圆圈为一个mr。

参考官网:http://tez.apache.org/

2 tez的安装

2.1 tez下载

tez提供咯二进制包和源码包,二者官网下载路径:
https://mirrors.tuna.tsinghua.edu.cn/apache/tez/0.9.0/注:
官方提供咯源码包和二进制包,我这儿就不在下载源码来编译,而是直接使用其二进制包来安装。

2.2 tez源码编译

暂时不下载源码包来编译,费时,可以自行参考官网编译。参考官网编译地址:
http://tez.apache.org/install.html

2.3 tez的安装

2.3.1 解压并配置环境

解压重命名:
[root@hadoop01 ~]# tar -zxvf /home/apache-tez-0.9.0-bin.tar.gz -C /usr/local/
[root@hadoop01 ~]# mv /usr/local/apache-tez-0.9.0-bin/ /usr/local/tez-0.9.0/上传tez.tar.gz到hdfs中一个目录中:
[root@hadoop01 tez-0.9.0]# hdfs dfs -mkdir /tez-0.9.0
[root@hadoop01 tez-0.9.0]# hdfs dfs -put /usr/local/tez-0.9.0/share/tez.tar.gz /tez-0.9.0配置环境:
[root@hadoop01 ~]# vi /etc/profile
增加内容如下:
export TEZ_CONF_DIR=$HADOOP_CONF_DIR
export TEZ_JARS=/usr/local/tez-0.9.0/*:/usr/local/tez-0.9.0/lib/*
export HADOOP_CLASSPATH=$TEZ_CONF_DIR:$TEZ_JARS:$HADOOP_CLASSPATH

然后保存退出,验证环境变量即可。

[root@hadoop01 ~]# source /etc/profile

2.3.2 配置配置文件

在hadoop的配置目录下创建tez-site.xml配置文件,内容如下:

[root@hadoop01 tez-0.9.0]# vi /usr/local/hadoop-2.7.1/etc/hadoop/tez-site.xml
文件中添加如下内容:
<?xml version="1.0" encoding="UTF-8"?><configuration><property><name>tez.lib.uris</name><value>${fs.defaultFS}/tez-0.9.0/tez.tar.gz</value></property><property><name>tez.container.max.java.heap.fraction</name><value>0.2</value></property>
</configuration>更多配置参考默认配置:/usr/local/tez-0.9.0/conf/tez-default-template.xml

2.4 tez、hadoop、hive整合

2.4.1 tez和hadoop的兼容

tez下的lib目录中的hadoop包的版本和真实安装的hadoop版本不一致,需要将其jar包换成一致.
删除不符合版本的jar:
[root@hadoop01 tez-0.9.0]# rm -rf ./lib/hadoop-mapreduce-client-core-2.7.0.jar ./lib/hadoop-mapreduce-client-common-2.7.0.jar
重新再hadoop目录中拷贝:
[root@hadoop01 tez-0.9.0]# cp /usr/local/hadoop-2.7.1/share/hadoop/mapreduce/hadoop-mapreduce-client-common-2.7.1.jar /usr/local/hadoop-2.7.1/share/hadoop/mapreduce/hadoop-mapreduce-client-core-2.7.1.jar /usr/local/tez-0.9.0/lib/

然后启动hadoop和hive。

2.4.2 tez和hive结合

如果要将hive的执行引擎更换成tez,则只需要设置执行引擎即可。
set hive.execution.engine=tez;

注意:

1、jar包冲突问题。

2、tez引擎不能使用,需要测试判断。

3 tez案例

3.1 tez执行

创建表:
create table if not exists tz(
name string,
age int
)
row format delimited fields terminated by '\t'
;create table if not exists tz_par(
age int,
age_cnt int
)
partitioned by(dt string)
row format delimited fields terminated by '\t'
;数据:
vi /home/tz
zs	16
ls	18
ww	18
goudan	18
mazi	16加载数据:
load data local inpath "/home/tz" into table tz;执行查询:insert into tz_par partition(dt="2019-08-12")
select
age,
count(*)
from tz
group by age
;
执行状态和查看结果,如下图:

[外链图片转存失败(img-m09qiJTw-1568909945899)(img/02.png)]

3.2 还原mr执行

一般情况下,除非整个项目以tez执行,如果仅仅是一部分,则需要两个执行引擎随时切换。创建表:
create table if not exists tz_par1(
age int,
age_cnt int
)
partitioned by(dt string)
row format delimited fields terminated by '\t'
;执行查询:
set hive.execution.engine=tez;
insert into tz_par partition(dt="2019-08-12")
select
age,
count(*)
from tz
group by age
;查看执进度和结果如下:

在这里插入图片描述
到此为止,证明我们的语句真的可以使用tez引擎来计算咯。

4 tez优化

一、AM、Container大小设置
1、tez.am.resource.memory.mb  #设置 tez AM容器内存默认值:1024  配置文件:tez-site.xml建议:不小于或者等于yarn.scheduler.minimum-allocation-mb值。2、hive.tez.container.size  #设置 tez container内存默认值:-1默认情况下,Tez将生成一个mapper大小的容器。这可以用来覆盖默认值。配置文件:hive-site-xml建议:不小于或者是yarn.scheduler.minimum-allocation-mb的倍数二、AM、Container JVM参数设置
1、tez.am.launch.cmd-opts  #设置 AM jvm,启动TEZ任务进程期间提供的命令行选项。默认值:-XX:+PrintGCDetails -verbose:gc -XX:+PrintGCTimeStamps -XX:+UseNUMA -XX:+UseParallelGC(用于GC),默认的大小:80%*tez.am.resource.memory.mb配置文件:tez-site.xml建议:不要在这些启动选项中设置任何xmx或xms,以便tez可以自动确定它们。2、hive.tez.java.ops  #设置 container jvm默认值:Hortonworks建议“–server –Djava.net.preferIPv4Stack=true–XX:NewRatio=8 –XX:+UseNUMA –XX:UseG1G”,默认大小:80%*hive.tez.container.size说明:在hive 2.x的官方文档中没有找到这个参数。看有些博客里面有这个值。配置文件:hive-site.xml3、tez.container.max.java.heap.fraction  #设置task/AM占用jvm内存大小的比例。默认值:0.8配置文件:tez-site.xml说明:这个值按具体需要调整,当内存不足时,一般都要调小。三、Hive内存Map Join参数设置
1、tez.runtime.io.sort.mb  #设置输出排序内存大小默认值:100配置文件:tez-site.xml建议:40%*hive.tez.container.size,一般不超过2G
2、hive.auto.convert.join.noconditionaltask  #是否将多个mapjoin合并为一个默认值:true建议使用默认值。配置文件:hive-site.xml
3、hive.auto.convert.join.noconditionaltask.size  默认值:10000000  (10M)说明:这个参数使用的前提是hive.auto.convert.join.noconditionaltask值为true,多个mapjoin转换为1个时,所有小表的文件大小总和小于这个值,这个值只是限制输入的表文件的大小,并不代表实际mapjoin时hashtable的大小。 建议值:1/3* hive.tez.container.size配置文件:hive-site.xml
4、tez.runtime.unordered.output.buffer.size-mb  #如果不直接写入磁盘,使用的缓冲区大小默认值:100M建议:10%* hive.tez.container.size配置文件:tez-site.xml5、tez.am.container.reuse.enabled  #容器重用默认值:true配置文件:tez-ste.xml参考网址:https://www.cnblogs.com/yjt1993/p/11050791.htmle配置文件:hive-site.xml
4、tez.runtime.unordered.output.buffer.size-mb  #如果不直接写入磁盘,使用的缓冲区大小默认值:100M建议:10%* hive.tez.container.size配置文件:tez-site.xml5、tez.am.container.reuse.enabled  #容器重用默认值:true配置文件:tez-ste.xml参考网址:https://www.cnblogs.com/yjt1993/p/11050791.html

http://chatgpt.dhexx.cn/article/ORCb4ifR.shtml

相关文章

TEZ深入理解

简介 Tez是Apache开源的支持DAG作业的计算框架&#xff0c;是支持HADOOP2.x的重要引擎。它源于MapReduce框架&#xff0c;核心思想是将Map和Reduce两个操作进一步拆分&#xff0c;分解后的元操作可以任意灵活组合&#xff0c;产生新的操作&#xff0c;这些操作经过一些控制程序…

Tez 简介

目录 一、Tez简介 二、Tez UI界面 三、Tez 日志 一、Tez简介 1.1 Tez 是支持 DAG 作业的开源计算框架&#xff0c;它可以将多个有依赖的作业转换为一个作业从而大幅提升 DAG 作业的性能。 从本质上讲&#xff0c;Tez 组成非常简单&#xff1a; 数据处理管道引擎&#xff…

TEZ介绍及使用

TEZ介绍及使用 TEZ是什么&#xff1f; Tez是支持DAG作业的开源计算框架&#xff0c;它可以将多个有依赖的作业转换为一个作业从而大幅提升DAG 作业的性能。 Tez源于MapReduce框架&#xff0c;核心思想是将Map和Reduce两个操作进一步拆分&#xff0c;即Map被拆分成Input、Proc…

BACnet安全连接(BACnet/SC) 介绍

BACnet安全连接(BACnet/SC)是ASHRAE BACnet委员会最近发布的BACnet协议的增编。是在增编135-2016bj中介绍的。它基于一个安全的、加密的数据链路层。 专门设计以满足不同IP基础结构。对BACnet通信使用标准化的、通常已经存在的IP网络基础设施的需求正在增加&#xff0c;BACnet/…

BACnet学习笔记

BACnet是一种用于自动化建筑和控制网络的数据通信协议。(Building Automation and Control Networks) 自控网络通信协议基本体系: CAN -- 只定义了通信标准 BACnet BAC Model and Message Network Layer LANs The protocol can be viewed as a matrix of layers. Propertie…

BACnet协议简要说明及组网简介

主题概要BACnet协议BACnet协议简要说明&#xff0c;组网简介编辑时间新建20160217序号参考资料1BACnet协议正文1995版2http://www.bacnet.org/Tutorial/BACnetIP/ 1 协议说明 BACnet协议(A Data Communication Protocol for Building Automation and Control Networks)&#…

BACnet协议详解——应用层说明一

文章目录 写在前面1. 应用层模型1.1 需确认的应用层服务1.2 无需确认的应用层服务2 BACnet报文的分段2.1 报文分段规则2.1.1 APDU数据流的分段规则2.1.2 APDU最大长度的确定2.1.3 可接受的最大分段数2.2 分段协议控制信息(PCI)写在前面 年关将至,事情有点多,耽误了原本定好…

BACnet协议读取与发送

BACnet协议读取与发送 注意我的提问&#xff1a;更新开发环境BACnet相关基础知识BACnet格式BACnet代码BACnet设备查找BACnet设备读取BACnet写入操作AND其他...**BACpypes库中没有提供非标准数据类型接口&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;** 结束 因…

Bacnet协议报文格式详解(一)

系统实现基于BACnet/IP&#xff08;又称B/IP&#xff09;网络进行通讯。BACnet虚拟链路层&#xff08;BVLL&#xff09;提供了BACnet网络层和某指定的通讯子系统的接口&#xff0c;本文指定了BACnet虚拟链路控制&#xff08;BVLC&#xff09;要求支持的定向和广播信息。本实现关…

bacnet (收集)

嵌入式系统中BACnet-MS/TP协议栈的实现 一个BACnet设备由一个网络号码和一个MAC地址唯一确定 bacnet MS/TP 走的是485网络 https://www.eefocus.com/mcu-dsp/226727 1 引言 20世纪90年代&#xff0c;Internet经历了爆炸性发展&#xff0c;成为垄断全球的计算机网络。以Cisc…

BACnet

BACnet通讯协议(一) BACnet协议(A Data Communication Protocol for Building Automation and Control Networks)&#xff0c;是由美国采暖、制冷和空调工程师协会&#xff08;ASHRAE&#xff09;制定的一个楼宇自动控制技术标准文件&#xff0c;BACnet协议最根本的目的是提供…

BACnet协议

BACnet协议 BACnet协议层包括物理层&#xff0c;链路层&#xff0c;网络层&#xff0c;应用层和BACnet安全层。 我们知道BACnet是用于楼宇自动化和控制网络的简短形式的数据通信协议。BACnet是主要行业供应商产品中常用的自动化和控制协议之一&#xff0c;如江森自控&#xff…

BACnet协议详解——初识BACnet架构

文章目录 BACnet协议架构BACnet简化的架构简化的四层BACnet体系结构选取BACnet 网络的拓扑结构安全最后声明BACnet协议架构 国际标准化组织在制定计算机网络通讯协议标准时定义了一个模型,称为开放系统互联参考模型(OSI(ISO 7498)。模型的目的是解决计算机与计算机之间普遍…

BACnet基础入门

BACnet入门&#xff1a;一、简单了解 前言协议栈层级与拓扑结构1.层级体系2.拓扑结构 协议栈的相关内容1.应用层a.设备b.对象c.属性e.服务f.扩展g.安全h.互操作基本模块(BIBBs)i.一致性声明&#xff08;PICS&#xff09;j.其他 2.网络层3.数据链路与物理层 工具源码参考 前言 …

BACnet协议介绍

BACnet为BuildingAutomation andControlnetworks的简称&#xff0c;台湾通常翻译为“建筑自动化控制网路通讯协定”&#xff0c;而中国大陆则译为“楼宇自动化与控制网络”。 前言 BACnet是用于智能建筑的通信协议&#xff0c;是国际标准化组织&#xff08;ISO&#xff09;、美…

认识BACnet协议

一、什么是BACnet&#xff1f; BACnet&#xff0c;Building Automation and Control networks的简称&#xff0c;即楼宇自动化与控制网络。是用于智能建筑的通信协议。 一般楼宇自控设备从功能上讲分为两部分&#xff1a;一部分专门处理设备的控制功能&#xff1b;另一部分专…

【块存储block源码分析】 linux内核模块ceph nbd源码分析

jewel 版本支持 rbd-nbd 的特性&#xff0c;需要 map 支持较多特性的 rbd image 时&#xff0c;可以使用该 nbd driver NBD(Network Block Device) 可以将一个远程主机的磁盘空间&#xff0c;当作一个块设备来使用&#xff0c;就像一块硬盘一样。NBD是一个内核模块&#xff0c;…

用户增长 - BG/NBD概率模型预测用户生命周期LTV(二)

文章目录 1 理论1.1 BG / NBD概率模型介绍1.2 Gamma-Gamma模型2 实践案例2.1 lifetimes实践案例一&#xff1a;在线零售业务的交易2.1.1 数据解读2.1.2 BG / NBD - 预期交易的frequency /recency 热力图2.1.3 顾客留存概率热力图2.1.4 评估模型效果方式一&#xff1a;模型验证重…

使用BG/NBD模型与Gamma-Gamma模型预测客户的生命周期价值CLV/LTV

1. 背景 客户生命周期价值CLV: CLV是Customer Lifetime Value的简称&#xff0c;用来衡量一个客户&#xff08;用户&#xff09;在一段时期内对企业有多大价值&#xff0c;也称为LTV。 假如一个客户两年内在某商店内消费2000元&#xff0c;这2000元就是CLV,具有预测性。 CLV…

nbd 相关概念及操作

周五(3月6号)笔者发现有台物理机上挂载了一个并非常用的nbd设备&#xff0c;估计是之前人做的测试留下来的&#xff0c;决定卸载它&#xff0c;顺带了解了下nbd的设备信息。 什么是nbd 全称是network block device&#xff0c;类似于nfs&#xff0c;远程设备可以挂载&#xff…