tez得文件生成个数与什么有关?

article/2025/11/1 2:38:34

之前研究过hive on spark,最后的文件生成个数
hive-mapJoin和skewJoin-CSDN博客
现在在cdp了 使用的是hive on tez。也在学习下这个文件的生成个数与什么有关?

以该表为例 有11个文件 每个差不多60M左右 总共620M左右。

 我们先想下 哪些参数和生成的文件数有关?

set hive.tez.cpu.vcores   --好像是tez处理时用的core 类似spark的core 默认没有

set mapred.reduce.tasks=10  --reduce的个数 默认-1

set hive.exec.reducers.bytes.per.reducer=67108864 --默认64M

set hive.merge.tezfiles=false  --合并小文件 默认false

-- set mapreduce.reduce.cpu.vcores=1 --reduce使用的core 默认1  这个参数在set找得到但是官网和hive的文档里找不到,不做考虑

distribute by 

order by 

来点参数说明

hive.tez.cpu.vcores

  • Default Value: -1
  • Added In: Hive 0.14.0 with HIVE-8452

By default Tez will ask for however many CPUs MapReduce is configured to use per container. This can be used to overwrite the default.

mapred.reduce.tasks

  • Default Value: -1
  • Added In: Hive 0.1.0

The default number of reduce tasks per job. Typically set to a prime close to the number of available hosts. Ignored when mapred.job.tracker is "local". Hadoop set this to 1 by default, whereas Hive uses -1 as its default value. By setting this property to -1, Hive will automatically figure out what should be the number of reducers.

hive.exec.reducers.bytes.per.reducer

  • Default Value: 1,000,000,000 prior to Hive 0.14.0; 256 MB (256,000,000) in Hive 0.14.0 and later
  • Added In: Hive 0.2.0; default changed in 0.14.0 with HIVE-7158 (and HIVE-7917)

Size per reducer. The default in Hive 0.14.0 and earlier is 1 GB, that is, if the input size is 10 GB then 10 reducers will be used. In Hive 0.14.0 and later the default is 256 MB, that is, if the input size is 1 GB then 4 reducers will be used.

hive.merge.tezfiles

  • Default Value: false
  • Added In: Hive 0.13.0 with HIVE-6498 and HIVE-6360

Merge small files at the end of a Tez DAG.

经过我各种测试 各种参数修改发现最后的结果都是一样的,都是11个。。。。我就觉得不对劲了。那里出错了呢?怎么找呢?

看yarn app

我的appId是1377

而我都已经设置了。

set hive.exec.reducers.bytes.per.reducer=134217728
set mapred.reduce.tasks=5
set hive.merge.tezfiles=true
set hive.tez.cpu.vcores=4

insert overwrite table odsmdmdata.sms_vendor_manage_t
select * from  odsmdmdata.sms_vendor_manage_t

 

 总不可能是我吃饱了没事干,专门骗你们的吧。

经过多方测试发现 你在hive里set 参数了,确实不生效,不知道是不是我这边的环境问题。放弃了。

其实文件生成个数应该就与我上面的那几个参数有关,我这边环境 测不了。能测得动的留个言反馈下。。。

因为我没测出来,但是后面我看到其他人有具体的测试案例可以学习下

Hive 基于Tez引擎 map和reduce数的参数控制原理与调优经验_tez 优化_abcdggggggg的博客-CSDN博客


http://chatgpt.dhexx.cn/article/uZTpXJCP.shtml

相关文章

hive-tez

1 参考: https://www.freesion.com/article/9435149734/ https://blog.csdn.net/Shea1992/article/details/101041244 https://www.jianshu.com/p/9fb9f32e1f0f https://www.jianshu.com/p/45c95a51a8c2 https://blog.csdn.net/weixin_43941899/article/details/105…

CDH6.3.2搭建HIVE ON TEZ步骤

|引言 参考:CDH6.3.2 hive on tez搭建过程_我不是橙子的博客-CSDN博客 CDH6.3.2版本搭建Tez执行引擎过程 - 虎啸千峰 - 博客园 hive on tez集成完整采坑指南(含tez-ui及安全环境)_匆匆z2的博客-CSDN博客_hive on tez 下载过程中若是感觉慢的话可以参考这个操作步…

tez-ui docker镜像打包配置并部署K8S

一、下载tez ui安装包并修改配置文件 1.1 选择版本下载, tez-ui下载官方地址 mkdir tez-ui && cd tez-ui wget https://repository.apache.org/content/repositories/releases/org/apache/tez/tez-ui/0.9.1/tez-ui-0.9.1.war1.2 解压war包,修改…

Apache Tez 了解

转发自这位大佬博客:https://www.cnblogs.com/rongfengliang/p/6991020.html 你可能听说过Apache Tez,它是一个针对Hadoop数据处理应用程序的新分布式执行框架。但是它到底是什么呢?它的工作原理是什么?哪些人应该使用它&#xf…

Tez - 安装

一、Tez 安装 1 下载地址 https://mirrors.tuna.tsinghua.edu.cn/apache/tez/0.9.0/ 2 二进制包安装 2.1 解压并重命名 [roothadoop01 ~]# tar -zxvf /home/apache-tez-0.9.0-bin.tar.gz -C /usr/local/ [roothadoop01 ~]# mv /usr/local/apache-tez-0.9.0-bin/ /usr/local/t…

tez详解

1 tez的概览 1.1 tez介绍 1.1.1 介绍 tez是一个apache的开源项目,意在构建一个应用框架,能通过复杂任务的DAG来处理数据。它是基于当前的hadoop yarn之上,换句话就是yarn为其提供资源。 tez主要的两个设计目标: 增强终端用户使用: 灵活…

TEZ深入理解

简介 Tez是Apache开源的支持DAG作业的计算框架,是支持HADOOP2.x的重要引擎。它源于MapReduce框架,核心思想是将Map和Reduce两个操作进一步拆分,分解后的元操作可以任意灵活组合,产生新的操作,这些操作经过一些控制程序…

Tez 简介

目录 一、Tez简介 二、Tez UI界面 三、Tez 日志 一、Tez简介 1.1 Tez 是支持 DAG 作业的开源计算框架,它可以将多个有依赖的作业转换为一个作业从而大幅提升 DAG 作业的性能。 从本质上讲,Tez 组成非常简单: 数据处理管道引擎&#xff…

TEZ介绍及使用

TEZ介绍及使用 TEZ是什么? Tez是支持DAG作业的开源计算框架,它可以将多个有依赖的作业转换为一个作业从而大幅提升DAG 作业的性能。 Tez源于MapReduce框架,核心思想是将Map和Reduce两个操作进一步拆分,即Map被拆分成Input、Proc…

BACnet安全连接(BACnet/SC) 介绍

BACnet安全连接(BACnet/SC)是ASHRAE BACnet委员会最近发布的BACnet协议的增编。是在增编135-2016bj中介绍的。它基于一个安全的、加密的数据链路层。 专门设计以满足不同IP基础结构。对BACnet通信使用标准化的、通常已经存在的IP网络基础设施的需求正在增加,BACnet/…

BACnet学习笔记

BACnet是一种用于自动化建筑和控制网络的数据通信协议。(Building Automation and Control Networks) 自控网络通信协议基本体系: CAN -- 只定义了通信标准 BACnet BAC Model and Message Network Layer LANs The protocol can be viewed as a matrix of layers. Propertie…

BACnet协议简要说明及组网简介

主题概要BACnet协议BACnet协议简要说明,组网简介编辑时间新建20160217序号参考资料1BACnet协议正文1995版2http://www.bacnet.org/Tutorial/BACnetIP/ 1 协议说明 BACnet协议(A Data Communication Protocol for Building Automation and Control Networks)&#…

BACnet协议详解——应用层说明一

文章目录 写在前面1. 应用层模型1.1 需确认的应用层服务1.2 无需确认的应用层服务2 BACnet报文的分段2.1 报文分段规则2.1.1 APDU数据流的分段规则2.1.2 APDU最大长度的确定2.1.3 可接受的最大分段数2.2 分段协议控制信息(PCI)写在前面 年关将至,事情有点多,耽误了原本定好…

BACnet协议读取与发送

BACnet协议读取与发送 注意我的提问:更新开发环境BACnet相关基础知识BACnet格式BACnet代码BACnet设备查找BACnet设备读取BACnet写入操作AND其他...**BACpypes库中没有提供非标准数据类型接口!!!!!** 结束 因…

Bacnet协议报文格式详解(一)

系统实现基于BACnet/IP(又称B/IP)网络进行通讯。BACnet虚拟链路层(BVLL)提供了BACnet网络层和某指定的通讯子系统的接口,本文指定了BACnet虚拟链路控制(BVLC)要求支持的定向和广播信息。本实现关…

bacnet (收集)

嵌入式系统中BACnet-MS/TP协议栈的实现 一个BACnet设备由一个网络号码和一个MAC地址唯一确定 bacnet MS/TP 走的是485网络 https://www.eefocus.com/mcu-dsp/226727 1 引言 20世纪90年代,Internet经历了爆炸性发展,成为垄断全球的计算机网络。以Cisc…

BACnet

BACnet通讯协议(一) BACnet协议(A Data Communication Protocol for Building Automation and Control Networks),是由美国采暖、制冷和空调工程师协会(ASHRAE)制定的一个楼宇自动控制技术标准文件,BACnet协议最根本的目的是提供…

BACnet协议

BACnet协议 BACnet协议层包括物理层,链路层,网络层,应用层和BACnet安全层。 我们知道BACnet是用于楼宇自动化和控制网络的简短形式的数据通信协议。BACnet是主要行业供应商产品中常用的自动化和控制协议之一,如江森自控&#xff…

BACnet协议详解——初识BACnet架构

文章目录 BACnet协议架构BACnet简化的架构简化的四层BACnet体系结构选取BACnet 网络的拓扑结构安全最后声明BACnet协议架构 国际标准化组织在制定计算机网络通讯协议标准时定义了一个模型,称为开放系统互联参考模型(OSI(ISO 7498)。模型的目的是解决计算机与计算机之间普遍…

BACnet基础入门

BACnet入门:一、简单了解 前言协议栈层级与拓扑结构1.层级体系2.拓扑结构 协议栈的相关内容1.应用层a.设备b.对象c.属性e.服务f.扩展g.安全h.互操作基本模块(BIBBs)i.一致性声明(PICS)j.其他 2.网络层3.数据链路与物理层 工具源码参考 前言 …