大数据技术原理与应用----大数据处理架构Hadoop

article/2025/10/3 13:41:13

一、Hadoop简介及其应用现状

1、Hadoop简介

        Hadoop(是大数据技术的集合体,一整套解决方案的统称)是由Java开发的,支持多种编程语言。

2、Hadoop的理论基础

(1)Hadoop的两大核心

        ①分布式文件系统(HDFS);

        ②分布式并行编程框架(MapReduce);

(2)Hadoop的特性

        ①高可靠性;

        ②高效性;

        ③高可扩展性;

        ④高容错性;

        ⑤成本低;

        ⑥运行在Linux上;

        ⑦支持多种编程语言;

3、Hadoop的应用现状

(1)Hadoop应用现状图

(2)hadoop的各种版本评价 

      ①评价图: 

         开源的Apache应用性很差,性能也是最差的。其他的都是商业化版本(做了后期优化)。

        ②获取本地支持的版本:

二、Hadoop的项目结构 

1、基本项目结构介绍

        (1)HDFS:分布式文件存储;

        (2)YARN:底层的资源调度管理;

        (3)MapReduce:离线计算,基于磁盘(一般不用于实时计算);

        (4)Tez:用于把MapReduce的很多作业优化构建一个有向无环图,保证获得最好的处理;

        (5)Spark:基于内存计算,性能比MapReduce高一个等级;

        (6)Hive:数据仓库,提供企业决策依据,用于企业数据分析;

        (7)Pig:轻量级分析,流数据处理;

        ​​​​ 

        (8)Oozie:作业调度系统;

        (9)Zookeeper:分布式协调一致式服务;

        (10)HBase:超大型数据库;随机读写;列族数据库,支持实时应用; 

        (11)Flume:日志收集;

        

         (12)Sqoop:数据的导入和导出,用于在Hadoop与传统数据库(关系型数据库)之间进行数据传递。 

        

         (13)Ambari:

        

2、Linux以及Hadoop的安装配置

        请参考我前面发布的这篇文章,里面有详细的手把手教程:

   Linux和Hadoop安装配置教程

三、Hadoop集群的核心简介 

1、核心组件及其作用以及内容

(1)核心组件

        ①HDFS;

        ②MapReduce;

(2)HDFS核心组件介绍

        NameNode:类似于一个目录服务器,存放的是元数据(日志文件editsfile和镜像文件fsimage,edits文件记录hadoop所有写操作,fsimage保存文件所在目录和文件idnode序列化信息,又称为元数据,每次重启hadoop集群,都会重新读入fsimage保证信息为最新的数据),负责接收客户端的请求信息,也负责接收DataNode上报的信息,给DN分配任务(维护副本的数量);

        NameNode总结:

                ①接收客户端的读写请求;

                ②管理元数据信息;

                ③接收DataNode的心跳(信息)报告;

                ④使各个节点负载均衡;

                ⑤负责数据块的副本的存储结点的分配。

        DataNode:存放的是块数据,不同结点的DataNode是平等的。

        DataNode总结:

                ①处理客户端的读写请求;

                ②真正进行数据块的存储;

                ③向NameNode发送心跳(信息状态)报告;

                ④进行副本的复制;

        SecondaryNameNode:

                ①帮助NameNode备份元数据信息(冷备份,即NameNode绷不住了,它并不能直接顶          上来),查看备份的元数据是否是最新的,有一定的数据延时,可能造成数据丢失;

                ②帮助NameNode进行元数据合并,减轻NameNode的压力;

(3)MapReduce核心组件介绍

        JobTracker:负责资源管理(掌握各机器当前可用内存、可用CPU等情况),任务调度(根据可用资源,进行计算任务的分配,也就是向哪一个DataNode移动);

        TaskTracker:管理被分到DataNode的计算任务、资源汇报(TaskTracker与JobTracker之间维持心跳,实时汇报当前DataNode资源所剩的情况);

        JobTracker与TaskTracker之间也是主从结构,前者给后者布置任务。


http://chatgpt.dhexx.cn/article/OqoFCUfM.shtml

相关文章

浅析大数据分析技术

随着大数据时代的到来,在大数据观念不断提出的今天,加强数据大数据挖掘及时的应用已成为大势所趋。大数据分析处理是对纷繁复杂的海量数据价值的提炼,而其中最有价值的地方在于预测性分析,即可以通过数据可视化、统计模式识别、数…

大数据系统及分析技术

大数据 IDC将大数据技术定义为:“为更经济地从高频率的、大容量的、不同结构和类型的数据中获取价值而设计的新一代架构和技术。” 大数据的关键在于种类繁多、数量庞大、使用传统的数据分析工具无法在可容忍的时间内处理相应的数据。大数据分析主要涉及两个不同的领…

【大数据处理技术】实验6

目录 1. 安装pig大数据分析工具 1.1 pig介绍 1.1.1 Pig简介 1.1.2 Apache Pig 与 MapReduce 1.1.3 Apache Pig 与 SQL 1.1.4 Apache Pig 与 Hive 1.1.5 Apache Pig的应用 1.2 pig下载及安装 1.3 配置环境变量 1.4 pig启动 2. pig工具使用方法 2.1 pig工具简单解析 …

【大数据处理技术】实验3

一、安装Eclipse 1.下载Eclipse(我使用Xftp传输的,大家可以直接在虚拟机中下载) 下载链接:https://www.eclipse.org/downloads/package 2.解压Eclipse 3.桌面显示Eclipse图标 在终端输入:cd /usr/share/application…

处理大数据需要哪些技术

大数据之所以能够从概念走向落地,说到底还是因为大数据处理技术的成熟,面对海量的数据,在有限的硬件条件下,以低成本满足大数据处理的各种实际需求。那么具体处理大数据需要哪些技术,今天我们来简单介绍一下大数据核心…

干货 | 大数据处理技术的总结与分析

一 、数据分析处理需求分类 1、事务型处理 在我们实际生活中,事务型数据处理需求非常常见,例如:淘宝网站交易系统、12306网站火车票交易系统、超市POS系统等都属于事务型数据处理系统。 这类系统数据处理特点包括以下几点: 一是事…

大数据技术介绍

为了方便大家梳理清楚大数据学习路线,本文从以下四个方面来介绍大数据技术: 大数据技术栈 大数据发展史 大数据应用 大数据开发岗位 一、大数据技术栈 之前有同事问我怎么转大数据开发,他在网上搜了一堆大数据相关的技术,但是不…

大数据时代:大数据处理技术及采集方法

在大数据时代,传统的大数据处理技术还管用吗? 大数据处理环节下的需求 大数据环节下的数据来源是非常多,而且类型也很多花样,存储和数据处理的需求量很大,对于数据展现也非常的高,并且很看重数据处理的高效性和可用…

大数据处理的关键技术有哪些?

数据关键技术涵盖数据存储、处理、应用等多方面的技术,根据大数据的处理过程,可将其分为大数据采集、大数据预处理、大数据存储及管理、大数据处理、大数据分析及挖掘、大数据展示等。 1、大数据采集技术 大数据采集技术是指通过 RFID 数据、传感器数据…

大数据处理关键技术主要有五种,具体指的是什么?

大数据技术 ,就是从各种类型的数据中快速获得有价值信息的技术。 大数据 领域已经涌现出了大量新的技术,它们成为大数据采集、存储、处理和呈现的有力武器。大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用…

数据分析|SQL面试题集锦

https://zhuanlan.zhihu.com/p/136619982 https://www.cnblogs.com/diffrent/p/8854995.html 1.用一条SQL 语句 查询出每门课都大于80 分的学生姓名 name kecheng fenshu 张三 语文 81 张三 数学 75 李四 语文 76 李四 数学 90 王…

Sql面试50题 详解 持续更新

Sql面试50题 前言:此文章是根据【数据分析】- SQL面试50题 - 跟我一起打怪升级 一起成为数据科学家 学习整理而来,仅供复习参考。 建表与插入数据 --建立学生表 CREATE TABLE Student( s_id VARCHAR(20), s_name VARCHAR(20) NOT NULL DEFAULT , s_bi…

大厂SQL面试题,连续时间问题

今天分享一个非常常考,同时也不太容易的sql题目类型,求连续时间问题。 这类题的核心是:分组排序,用时间减去排序,如果连续的话他们的差会是相同值 记住下面的表,按照提供的三步思路理清楚里面的数据逻辑&a…

经典Hive-SQL面试题及答案

目录 第一题 求分区累加值 第二题 UV和每个店铺访问量top3信息 Hive sql解答 第一题 求分区累加值 我们有如下的用户访问数据 userId visitDate visitCount u01 2017/1/21 5 u02 2017/1/23 6 u03 2017/1/22 8 u04 2017/1/20 3 u01 2017/1/23 6 u01 2017/2/21 8 U02 2017/1/…

吊打面试官之SQL面试题30问及答案

经典SQL30问一: 编写查询,查找表中的行总数。编写查询,消除表结果中的重复记录。编写查询,获取t_employee表中designation字段前3个字符。查询t_employee表,合并输出Designation和Department两个字段的内容。如果使用union和union all合并4条SQL子查询,union会有多少次被用来去…

pl sql面试题_PL SQL面试问答

pl sql面试题 If you have worked on Oracle database and going for an interview, you should go through PL SQL interview questions and answers. 如果您曾经在Oracle数据库上工作过并且要进行面试,则应该阅读PL SQL面试问题和答案。 PLSQL stands for Procedural Langu…

常见的sql面试题

本章是SQL面试题的汇总,之后还会不断更新,文章的思维导图如下: 1.SQL初级查询 单表查询 -- 查询学生表中有几名学生的信息.显示学号 select distinct 学号 from student;查询条件 -- 查询学生表中性别为女的学生所有信息 SELECT * FROM student WHERE 性别女;结果排序 -- …

美团/得物sql面试题

解题思路: 1.找出uid不同的但是买过pro_id相同的商品的用户 [自连接] selecta.uid,b.pro_id fromtb_order ajoin tb_order bon a.pro_id b.pro_id where a.uid <> b.uid -- 找出uid不同的但是pro_id相同的商品2.对uid和pro_id进行分组 selecta.uid,a.pro_id fromtb…

Spark SQL面试题

1.RDD DataFrame DataSet的区别 &#xff08;1&#xff09; 三者之间的关系 DataFrame是特殊的RDD(它相当于RDDschema&#xff0c;即RDD表信息)&#xff0c;可以将他看成数据库中的一张数据表&#xff0c;但是只知道这个"表"中的各个字段&#xff0c;不知道各个字段…

SQL常见面试题

SQL常见面试题关系型数据库&#xff08;SQL&#xff09;非关系型数据库&#xff08;NoSQL&#xff09;数据库三大范式主键与外键CHAR与VRCHAR数据类型临时表数据库函数、触发过程与存储器 SQL语句SQL语言分类DROP、TRUNCATE、DELETE的区别sum、count(\*)、count(1)、count(colu…