大数据相关面试题

article/2025/8/26 13:12:58

linux

常见linux高级命令?

  1. top、iotop
  2. netstat
  3. df -h
  4. jmap -heap
  5. tar
  6. rpm
  7. ps -ef

shell 

 用过的shell工具?

  1. awk  Awk 命令详解 - 简书

    awk是行处理器: 相比较屏幕处理的优点,在处理庞大文件时不会出现内存溢出或是处理缓慢的问题,通常用来格式化文本信息

  2. sort sort 命令详解 - 简书
  3. cut Linux cut 命令详解 - 简书
  4. sed 【现学现忘&Shell编程】— 35.sed命令(一) - 简书

写过哪些脚本

1.启停脚本

     

 2. 单引号、双引号区别  单引号不解析里面变量的值,双引号解析里面变量值

hadoop

入门问题:常用端口号、常用配置

  9870 hdfs访问端口;8088 yarn访问端口;19888JobHistory访问;剩下的是内部通信端口

 HDFS

  1. 读写流程 HDFS的读写流程(面试重点)_简述hdfs的读写流程_你可以自己看的博客-CSDN博客 
  2. 小文件危害 (1)存储  每个文件都必须占用一个NameNode存储元数据。每个NameNode大小150字节。小文件太多,占用空间。 (2)计算 默认的切片原则是每个文件单独切片,即使是1个字节的小文件也需要启动1个对应的maptask处理,每个maptask至少占用1G内存。切片的概念 HDFS的block和切片(split)的区别_贺雨蒙的博客-CSDN博客_hdfs切片
  3. 小文件怎么解决

    (1)har归档 将多个小文件的NamNode进行合并

    (2)CombineTextInputformat 把小文件放在一起切片计算

    (3)JVM重用 启动一个JVM,计算多个文件。节省开启、关闭的开销。

     

MR shuffle 过程

案例举例整个过程 080_大数据第五阶段-Hadoop第三天_shuffle下_哔哩哔哩_bilibili

  1. hdfs中文件是以block块的形式存储,默认block大小为128M,如果电脑磁盘读写速度块,可以配置成246/512M都可以。
  2. 默认一个block对应一个split逻辑分区。可以配置成多个block对应一个split逻辑分区。
  3. split分区的数据按行存储。每行的数据调用自己编写的Map函数的逻辑,对数据进行处理。即图中的Map处理。
  4. map方法处理后的数据写入环形缓冲区。环形缓冲区默认时100M大小的内存,写到80%时异步线程spill溢出到磁盘,写的数据进行向剩下的20%写入。等20%写满时,80%空间基本已经spill结束空间已经空闲可以继续写入,再写满80%,重复spill。因此环形缓冲区可以保证不中断的存储数据。环形缓冲区底层时byte数组。
  5. 环形缓冲区溢出时会 排序、分区,甚至combine操作。
  • 比如reducer为求最大值,那么就可以在此处提前进行combine求出每个分区的最大值。但是如果此时combine会对reduce的计算有影响,那么不进行combine。combine通过在map方法里面指定且溢出文件大于等于3个时才进行。
  • 分区一般是根据对key hash 求模reduceTask数量确定分区位置。

      6.对多个溢出文件进行归并操作。 每个分区排好序。

yarn 

1.yarn工作机制、工作流程

mapreduce yarn流程图_YARN 运行机制分析_投资百晓生的博客-CSDN博客mapreduce yarn流程图_YARN 运行机制分析_投资百晓生的博客-CSDN博客

2.调度器

大数据技术Hadoop——YARN_阳哥赚钱很牛的博客-CSDN博客

  • 公平、容量调度器通常都是默认的1个队列,需要修改 yarn-site.xml中的配置项  yarn.resourcemanager.scheduler.class    
  • 公司一个yarn,此时根据一个部门一个申请一个队列,如果队列任务过多,可以格局任务重要性将不重要的任务降级使用。

kafka 

(1)生产者工作流程 

生产者两个线程:main、sender

  1. 一个main线程,创建kafkaproducer,调用send方法。
  • send方法异步发送,加上send().get()则同步发送。callback回调函数。
  • 拦截器一般不用。
  • 自定义序列化器,之所以不用java自带的序列化器,是因为自带的辅助属性太多浪费空间。常见数据类型kafka已经实现序列化器,自定义类需要自己实现序列化器。
  • 分区器,决定把数据发送到哪个分区?(1)指定分区发送到指定分区 (2)未指定分区,按照key的hash值取余分区数(3)没有指定分区和key,那么按照粘性分区。粘性分区random随机选择分区,直到16k满了或这一批数据发送完再random切换分区。

      2.sender线程  专门用来发送数据

  • 创建networkclient对象和broker通信。默认缓存5个发送数据的请求。比如给leader发送数据的一个请求,没有按时ack,那么发送缓存队列中的下一个请求。
  • 底层发送数据使用selector nio发送数据
  • 将数据发给leader,leader ack应答。如果leader正确收到,那么会删除缓存和分区中的数据,如果没正确收到,会重试,重试次数int最大值。

(2)brokers工作流程

  • 每个broker启动后,会将id主车道zk中。
  • controller 用来选择谁是leader,每个broker服务器都有。才开始是会随机一个broker的controller和zk的controller通信,选举谁是leader。根据lsr里面的ar顺序先后选择leader。并将leader的id记录在zk中。
  • broker 会将topic的每个partition以多个segment存储,默认大小1G。每个segment包括为 .index  .log .timestatmp   。.log存储具体数据,.index稀疏矩阵,没4kb数据存储一个索引 timestamp存储文件创建时间。
  • lsr 记录能和leader正常通信的follow节点 正常通信是40s内有心跳。

消费者组消费流程 

  • 多个消费者根据配置的groupid来确定是一个消费者组。id对默认的分区数50取余的分区,向分区所在的消费者组协调器通信。consumer offset默认50个分区kafka consumer offset机制 - 简书 
  • 消费者全部发送joingroup信息。然后回复信息,随机选择消费者中某个作为leader ,将结果告知协调器。
  • 协调器所有信息发送给消费者的leader,leader根据 range/粘性、roundin消费策略分配每个消费者的消费组。告知协调器,协调器告知所有消费者。
  • 消费者每隔3s和协调器进行一次通信,超过45s没有通信;消费者如果超过5分钟没有再拉取数据,都会认为消费者挂掉,会再平衡。 再平衡会所有数据发送暂停,分配好在发送。  很不好

消费者真正消费数据流程

  • 消费者有networkclient对象,创建时会初始化一些参数。 比如最大一次拉取数据大小50M、最小一次拉取数据1个字节。如果分区数据超过500ms没有凑够50M那么直接数据拉回不等待,防止等待时间太长
  • networkclient调用send方法,有回调函数取回数据,消息队列中按照数据本来分区进行存储。消费者根据确定的分区拉取。拉取回后对数据反序列化、拦截器进行处理。


http://chatgpt.dhexx.cn/article/iCciOyKZ.shtml

相关文章

2023大数据必看面试题

1、请讲述HDFS输入文件的具体步骤? 1、Client向NameNode 提交需要上传文件的申请 2、NameNode返回响应给Client,同意上传文件的请求 3、Client向NameNode 申请子节点DataNode. 4、NameNode 响应给Client它的子节点DataNode 5、Client 向DataNode提交申请建立传…

大数据面试题汇总【持续更新】

前言 本文内容是根据自身对相应知识的浅薄理解,如有错误欢迎指正~ 大数据生态圈 Hadoop架构 HDFS(分布式文件系统) : 解决海量数据的存储问题 NameNode:集群当中的主节点,管理元数据,主要用于管理集群当中…

大数据面试题大全

卡夫卡的消息包括哪些信息 一个卡夫卡的消息由一个固定长度的报头和一个变长的消息体体组成 标题部分由一个字节的魔法(文件格式)和四个字节的CRC32(用于判断身体消息体是否正常)构成。当魔术的值为1的时候,会在魔术…

大数据面试题整理1

Java语言特性 1. static关键字 最主要作用:方便在没有创建对象的情况下来进行调用(方法/变量)。被static关键字修饰的方法或者变量不需要依赖于对象来进行访问,只要类被加载了,就可以通过类名去进行访问。权限&#…

大数据面试题

Hadoop hdfs中小文件的处理 (1)采用har归档方式,将小文件归档 (2)采用Combine TextInputFormat 请列出正常工作的hadoop集群中hadoop都需要启动哪些进程,他们的作用分别是什么? namenode &g…

大数据常见面试题总结,有问必答

这些都是一些笔者不太熟悉的面试题,有问题欢迎评论区留言!看到就会回复,并把题目整理到文章里! 文章目录 1、MapReduce如何选择垃圾回收器?2、如何配置hdfs集群?3、如何搭建yarn集群?4、hdfs存储…

2020大数据面试题真题总结(附答案)

https://my.oschina.net/u/4631230/blog/4533362 版本更新时间更新内容v1.02020-07-01新建v1.12020-06-13朋友面试大数据工程师提供的关于架构及数仓方面的题目v1.22020-08-08朋友面试数据专家提供的数据驱动,spark及flink方面面试题v1.32020-08-22朋友面试数据开发…

面试系列一:精选大数据面试真题10道(混合型)-附答案详细解析

本公众号(五分钟学大数据)将推出大数据面试系列文章—五分钟小面试,此系列文章将会深入研究各大厂笔面试真题,并根据笔面试题扩展相关的知识点,助力大家都能够成功入职大厂! 大数据笔面试系列文章分为两种类…

50个最受欢迎的大数据面试问题

50个最受欢迎的大数据面试问题 大数据时代才刚刚开始。随着越来越多的公司倾向于大数据来运营他们的业务,对人才的需求空前高涨。这对您意味着什么?如果您想在任何大数据岗位上工作,它只会转化为更好的机会。您可以选择成为数据分析师&#…

「面试必背」大数据面试题100道(收藏)

前言 随着 5G 时代的到来,大数据人工智能产业链又一次迎来了井喷式的爆发,随着岗位需求的不断增加,越来越多的人选择大数据课程,但是没有真正从事大数据工作的人面对企业面试有种无从下手的感觉,面对面试说不到技术的…

《大数据面试题》面试大数据这一篇就够了

文章目录 Hadoop 常见面试题1. mr 工作原理 ☆☆☆☆2. split 机制 ☆☆☆☆☆3. namenode,datanode,secondaryNameNode分别是干什么的?☆☆☆☆☆4. mr on yarn 工作原理 ☆☆☆☆☆5. fsimage 和 edits 是干什么的?为什么要使用?☆☆☆☆6.…

android codecs app,MiX Codecs

MiX Codecs app是一款mix插件包,MiX Codecs app整个在线的操作非常的简单,是没有任何的广告和收费问题的,MiX Codecs app适合的类型比较多。 软件介绍 MiX Codecs app是一个平滑的、功能齐全的文件管理应用程序MiXplorer文件管理器的插件工具…

python codecs_python中转换模块codecs的讲解(附示例)

本篇文章给大家带来的内容是关于python中转换模块codecs的讲解(附示例),有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助。 0、编码 编码转换时,通常需要以unicode作为中间编码,…

python codecs_python模块之codecs

python 模块codecs python对多国语言的处理是支持的很好的,它可以处理现在任意编码的字符,这里深入的研究一下python对多种不同语言的处理。 有一点需要清楚的是,当python要做编码转换的时候,会借助于内部的编码,转换…

第六章:文件系统-codecs:字符串编码和解码-Unicode入门

6.10 codecs:字符串编码和解码 codecs模块提供了流接口和文件接口来完成文本数据不同表示之间的转换。通常用于处理Unicode文本,不过也提供了其他编码来满足其他用途。 6.10.1 Unicode入门 CPython 3.x区分了文本(text)和字节(byte)串。byte…

Java中的方法重载

1.方法重载概述 方法重载指同一个类中定义的多个方法之间的关系,满足下列条件的多个方法相互构成重载: 多个方法在同一个类中多个方法具有相同的方法名多个方法的参数不相同,类型不同或者数量不同 2.方法重载特点 重载仅对应方法的定义&a…

java方法命名规范(持续更新)

前言:命名的目的是见名知意。业界目前没有强制的命名规范,但是用过了JPA之类的人,自己新建DAO层的方法的时候,也有一个参考,所以,用hibernate那一套,其实挺好的,维护起来也是很方便。…

java的静态方法

Java中方法分为静态方法和普通方法 所谓静态方法,就是方法前面加上static关键字,调用静态方法时一般用类名.方法名,当然也可以用对象名.方法名; 一般Java中工具类里面的工具方法都用static修饰,作为静态方法&#xff1…

java中方法的调用

1.静态方法调用静态方法: 用静态方法时通过(类名.方法名)的方法进行调用,当调用方法和被调用的方法在同一类中时,类名可省略,直接通过方法名进行调用; 同时也可以通过对象进行调用,但…

Java泛型方法

Java泛型方法 在学习Java泛型方法之前,我希望你们针对于Java泛型类有一定的了解并且可以熟练的使用。若了解并不是很详细。可以观看我写的另一篇文章 (也是我写的) Java泛型类 来了解一下。 呢么我们速度过一下泛型方法。其实泛型方法并不难理解。 我们直接上代码来…