大数据-Hadoop应用

article/2025/9/25 7:19:39

一、初识Hadoop

以一个小故事解释什么是Hadoop:

小明接到一个任务:计算一个100M的文本文件中的单词的个数,这个文本文件有若干行,每行有若干个单词,每行单词与单词之间均以空格键隔开。对于处理这种100M量级数据的计算任务,小明觉得很轻松。他首先把这个100M的文件拷贝到自己的电脑上,然后写了个计算程序在他的计算机上执行并顺利输出了结果。
后来,小明接到了另外一个任务,计算一个1T(1024G)的文本文件中单词个数。再后来,小明又接到一个任务,计算一个1P(1024T)的文本文件中单词的个数…
面对如此大规模的数据,小明的一台计算机已经存储不下,更难以进行计算。机智的小明上网百度了一下:大数据存储和计算怎么办?按下回车键后,出现了有关Hadoop的网页。
经过查询相关资料,小明总结到:Hadoop就是存储海量数据和分析海量数据的工具。

二、什么是Hadoop

Hadoop的定义:Hadoop由java语言编写,是在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架,是一个分布式计算的解决方案,其核心部件是HDFS和MapReduce

HDFS是一个分布式文件系统,为海量数据提供存储:引入存放文件源数据信息的服务器Namenode和实际存放数据的服务器Datanode,对数据进行分布式存储和读取。

MapReduce是一个计算框架,对海量数据进行计算:MapReduce的核心思想是把计算任务分配给集群内的服务器里执行。通过对计算任务的拆分(Map计算/Reduce计算)再根据任务调度器(JobTracker)对任务进行分布式计算。

三、分别介绍HDFS和MapReduce

3.1 HDFS框架

HDFS是Master和Slave的主从结构。主要由NameNode、Secondary NameNode、DataNode构成。
在这里插入图片描述
NameNode:管理HDFS的名称空间和数据块映射存储元数据与文件到数据块映射的地方。
Hadoop可以配置成HA即高可用集群,集群中有两个NameNode节点,一台active主节点,另一台standby备用节点,两者数据时刻保持一致。当主节点不可用时,备用节点马上自动切换,用户感知不到,避免了NameNode的单点问题。

Secondary NameNode:辅助NameNode,分担NameNode工作,紧急情况下可辅助回复NameNode。

DataNode:Slave节点,实际存储数据、执行数据块的读写并汇报存储信息给NameNode。

3.2 MapReduce

MapReduce是一种编程模型,采取了分而治之的思想
MapReduce框架的核心步骤主要分两部分,分别是Map和Reduce。每个文件名片由单独的机器去处理,这是Map方法,将各个机器计算的结果汇总并得到最终结果就是Reduce方法。

四、Hadoop特点

优点
  1. 支持超大文件:HDFS存储的文件可以支持TB和PB级别的数据。
  2. 检测和快速应对硬件故障:数据备份机制,NameNode通过心跳机制来检测DataNode是否还存在。
  3. 高扩展性:可建构在廉价机上,实现线性(横向)扩展,当集群增加新节点之后,NameNode也可感知,将数据分发和备份到相应节点上。
  4. 成熟的生态圈:借助开源的力量,围绕Hadoop衍生的一些小工具。
缺点
  1. 不能做到低延迟:高数据吞吐量做了优化,牺牲了获取数据的延迟。
  2. 不适合大量的小文件存储。
  3. 文件修改效率低:HDFS适合一次写入,多次读取的场景。

五、环境配置

史上最详细的Hadoop环境搭建:
https://blog.csdn.net/hliq5399/article/details/78193113/

六、Hadoop相关工作角色及技能要求

根据大数据的背景和发展方向可以分为:Hadoop开发人员、Hadoop管理员、Hadoop架构师、Hadoop测试人员和大数据分析师

Hadoop分析师

Hadoop分析师的工作职责是分析大量数据,并提供可用于公司改善的见解。

  1. 角色及职责
    · 使用脚本语言从可用数据中开发新见解
    ·根据不同的假设进行A/B测试,以分析不同关键指标影响
  2. 所需技能
    ·掌握Hive,Pig知识
    ·深入Flume知识和SQL命令

参考链接:
数澜社区:https://bbs.dtwave.com/
知乎:https://www.zhihu.com/question/333417513


http://chatgpt.dhexx.cn/article/HESLDKv8.shtml

相关文章

Spark应用场景以及与hadoop的比较

Spark应用场景以及与hadoop的比较 一、大数据的四大特征: a.海量的数据规模(volume) b.快速的数据流转和动态的数据体系(velocity) c.多样的数据类型(variety) d.巨大的数据价值(value) 二.Spark 和 Hadoop的不同 Spark是给予map reduce 算法实现的分布式计算,拥有Ha…

Hadoop、Storm和Spark主流分布式系统特点和应用场景

最初我们来到这个世界,是因为不得不来;最终我们离开这个世界,是因为不得不走。——《余华作品集》 1、概述 大数据现在是业内炙手可热的话题,随着技术的发展,如HDFS,大数据存储技术已经不在是难点&#xff…

Hadoop大数据分析应用场景

J 为了满足日益增长的业务变化,京东的京麦团队在京东大数据平台的基础上,采用了hadoop等热门的开源大数据计算引擎,打造了一款为京东运营和产品提供决策性的数据类产品-北斗平台。 一、Hadoop的应用业务分析 大数据是不能用传统的计算技术处理…

Hadoop:MapReduce应用

文章目录 一、Join多种应用1.1 Reduce Join1.2 Map Join 二、计数器应用三、数据清洗(ETL)四、MapReduce开发总结 一、Join多种应用 1.1 Reduce Join Reduce Join工作原理: Map端的主要工作:为来自不同表(文件)的key/value对打…

大数据分析项目实例:Hadoop数据分析应用场景

对于海量数据价值的挖掘,需要通过大数据分析来实现,而这些数据由于具有不同于传统数据的新特征,传统的数据分析技术和工具都不能高效的进行处理,因而才有了基于大数据技术平台进行大数据分析的需求。今天,我们以Hadoop…

Hadoop常见场景

本篇文章主要列举一些Hadoop常用场景 ​ 主要是以下几种 ​ 高可用集群 ​ 节点新增/减少/拉黑 ​ HDFS数据迁移 ​ 大量小文件存储 ​ 高可用集群 ​ 一句话概括 双namenode消除单点故障 ​ 过程: ​ 对active Namenode进行的任何操作,都会同…

Hadoop的优势及大数据平台系统架构典型行业应用场景

扩容能力强:Hadoop可以部署在数百台并行运行的廉价服务器集群,能提供成百上千TB的数据节点上运行的高度可扩展的存储与计算平台。 成本低:Hadoop可以通过普通廉价的服务器集群分布式处理数据,从而降低成本。 高效率:…

大数据利器:Hadoop的十大应用场景[转]

【IT168 评论】谁在用Hadoop?这是个问题。在大数据背景下,Apache Hadoop已经逐渐成为一种标签性,业界对于这一开源分布式技术的了解也在不断加深。但谁才是Hadoop的最大用户呢?首先想到的当然是它的“发源地”,像Google这样的大型互联网搜索…

金三银四、金九银十 面试宝典 Spring、MyBatis、SpringMVC面试题 超级无敌全的面试题汇总(超万字的面试题,让你的SSM框架无可挑剔)

Spring、MyBatis、SpringMVC 框架 - 面试宝典 又到了 金三银四、金九银十 的时候了,是时候收藏一波面试题了,面试题可以不学,但不能没有!🥁🥁🥁 一个合格的 计算机打工人 ,收藏夹里…

Spring 常见面试题

目录 Spring 基础 1、什么是 Spring 框架? 2、Spring 包含的模块有哪些? 3、Spring,Spring MVC,Spring Boot 之间什么关系? Spring IoC 4、谈谈自己对于 Spring IoC 的了解 5、什么是 Spring Bean? 6、将一个类声明为 Bean 的注解有哪些? 7、…

Spring框架常见面试题

1. 你对Spring框架的理解(特点)? Spring框架有哪些模块 ? Spring,一种用来简化企业应用级开发的一种开源框架。简化开发:它对常用的API做了封装,比如对JDBC的封装,使用Spring JDBC访问数据库,就…

【面试】Spring面试题

文章目录 Spring概述什么是spring?Spring的俩大核心概念Spring框架的设计目标,设计理念,和核心是什么Spring的优缺点是什么?Spring有哪些应用场景Spring由哪些模块组成?Spring 框架中都用到了哪些设计模式?详细讲解一…

Spring框架面试精华知识

咳咳,这里整理一些关于WEB框架的一些知识点,来帮助更多的人进行面试,主要的还是讲解一些关于目前企业用得比较流行的框架,还有就是一些比较前沿的框架,比如阿里开源的Dubbo框架及其开源框架Zookeeper等等,都…

Spring框架-面试题核心概念

目录 1.Spring框架的作用是什么? 2. 什么是DI? 3.什么是AOP? 4.Spring常用注解 5.Spring中的设计模式 6.Spring支持的几种bean的作用域 7.Spring中Bean的生命周期? 8.Spring中的事务管理 9.Spring中的依赖注入方式有几种 10.Sprin…

MyBatis+Spring+SpringMVC框架面试题整理(一)

目录 SpringMVC 的工作原理 谈谈你对SpringMVC的理解 SpringMVC 常用注解都有哪些? Spring 的常用注解 如何开启注解处理器和适配器? 如何解决 get 和 post 乱码问题? 谈谈你对 Spring 的理解 Spring 中的设计模式(解释) 简单介绍一下 Spring bean 的生命周期&…

面试官:看你简历上写熟悉Spring框架,谈谈对Spring的理解

今天只谈一下我们在面试中的如果面试官问到Spring,你应该怎么去回答,来获取面试官的青睐。在我的印象中,Spring框架可以说是Java世界里面最为成功的框架了,在企业的实际的应用里面,大部分的企业架构都是基于Spring框架…

说实话,面试这么问Spring框架的问题,我快扛不住了

面试官:Spring Framework有用过吧? 小小白:用过(有些心虚,因为Spring框架中内容太多了)。 面试官:在applicationgContext.xml文件中定义了一个bean,id为authService,通过ApplicationContext实例对象的getB…

【java面试】框架篇之Spring

1.你如何理解Spring? 具体来说Spring是一个轻量级的容器,用于管理业务相关对象的。核心功能主要为:IOC,AOP,MVC。 IOD:控制反转,将对象的创建过程交给容器,让容器管理对象的生命周期如创建,初始化&#…

spring框架-如何面试(四)

回顾: spring框架-认识spring框架(一) spring框架-认识IOC(二) spring框架-认识AOP(三) 面试官关于spring最喜欢、也是概率最大的提问 谈谈你对spring的理解 spring的官方定义:…

Spring框架面试题总结(面试必备)

1. spring 概述部分 1.1 什么是spring? 1.2 spring框架的核心? 1.3 spring框架的优缺点 1.4 spring5 的主要模块构成 1.5 Spring 框架中都用到了哪些设计模式? 1.6 讲解一下核心容器(spring context应用上下文) 模块 2. spring的控制反转&#xff08…