一、Hadoop简介及其应用现状

1、Hadoop简介

Hadoop（是大数据技术的集合体，一整套解决方案的统称）是由Java开发的，支持多种编程语言。

2、Hadoop的理论基础

（1）Hadoop的两大核心

①分布式文件系统（HDFS）；

②分布式并行编程框架（MapReduce）；

（2）Hadoop的特性

①高可靠性；

②高效性；

③高可扩展性；

④高容错性；

⑤成本低；

⑥运行在Linux上；

⑦支持多种编程语言；

3、Hadoop的应用现状

（1）Hadoop应用现状图

（2）hadoop的各种版本评价

①评价图：

开源的Apache应用性很差，性能也是最差的。其他的都是商业化版本（做了后期优化）。

②获取本地支持的版本：

二、Hadoop的项目结构

1、基本项目结构介绍

（1）HDFS：分布式文件存储；

（2）YARN：底层的资源调度管理；

（3）MapReduce：离线计算，基于磁盘（一般不用于实时计算）；

（4）Tez：用于把MapReduce的很多作业优化构建一个有向无环图，保证获得最好的处理；

（5）Spark：基于内存计算，性能比MapReduce高一个等级；

（6）Hive：数据仓库，提供企业决策依据，用于企业数据分析；

（7）Pig：轻量级分析，流数据处理；

（8）Oozie：作业调度系统；

（9）Zookeeper：分布式协调一致式服务；

（10）HBase：超大型数据库；随机读写；列族数据库，支持实时应用；

（11）Flume：日志收集；

（12）Sqoop：数据的导入和导出，用于在Hadoop与传统数据库（关系型数据库）之间进行数据传递。

（13）Ambari：

2、Linux以及Hadoop的安装配置

请参考我前面发布的这篇文章，里面有详细的手把手教程：

Linux和Hadoop安装配置教程

三、Hadoop集群的核心简介

1、核心组件及其作用以及内容

（1）核心组件

①HDFS；

②MapReduce；

（2）HDFS核心组件介绍

NameNode：类似于一个目录服务器，存放的是元数据（日志文件editsfile和镜像文件fsimage，edits文件记录hadoop所有写操作，fsimage保存文件所在目录和文件idnode的序列化信息，又称为元数据，每次重启hadoop集群，都会重新读入fsimage保证信息为最新的数据），负责接收客户端的请求信息，也负责接收DataNode上报的信息，给DN分配任务（维护副本的数量）；