大数据分析-第二章 大数据平台

article/2025/6/22 21:33:05

Lecture2-大数据平台

1. Hadoop

1.1. Hadoop计算过程

1.2. Hadoop发展简史

  1. Hadoop起源于Apache Nutch,后者是一个开源的网络搜索擎,本身也是由Lucene项目的一部分。
  2. Nutch项目开始于2002年,一个可工作的抓取工具和搜索系统很快浮出水面。
  3. 2004年,Google发表了论文,向全世界介绍了MapReduce。
  4. 2005年初,Nutch的开发者在Nutch上有了一个可工作的MapReduce应用,到当年年中,所有主要的Nutch算法被移植到使用MapReduce和NDFS来运行。Nutch中的NDFS和MapReduce实现的应用远不只是搜索领域。
  5. 在2006年2月,他们从Nutch转移出来成为一个独立的Lucene子项目,成为Hadoop。
  6. 在2008年2月,雅虎宣布其搜索引擎产品部署在一个拥有1万个内核的Hadoop集群上。
  7. 2008年4月,Hadoop打破世界纪录,成为最快排序1TB数据的系统。运行在一个910节点的群集,Hadoop在209秒内排序了1TB的数据(还不到三分半钟),击败了前一年的297秒冠军。同年11月,谷歌在报告中生成,它的MapReduce实现执行1TB数据的排序只用了68秒。在2009年5月,有报道宣称Yahoo的团队使用Hadoop对1TB的数据进行排序只花了62秒时间。

1.3. Hadoop的作用与功能

  1. Hadoop采用了分布式存储方式,提高了读写速度,并扩大了存储容量。采用MapReduce来整合分布式文件系统上的数据,可保证分析和处理数据的高效。与此同时,Hadoop还采用存储冗余数据的方式保证了数据的安全性。
  2. Hadoop中HDFS的高容错特性,以及它是基于Java语言开发的,这使得Hadoop可以部署在低廉的计算机集群中,同时不限于某个操作系统。Hadoop中HDFS的数据管理能力,MapReduce处理任务时的高效率,以及它的开源特性,使其在同类的分布式系统中大放异彩,并在众多行业和科研领域中被广泛采用。

1.4. MapReduce和传统关系型数据库的比较

1.5. Hadoop结论

二者互相融合是一种趋势

传统RDBMSMapReduce
效率低(通过排序和合并来重建数据库)高(更新大部分数据库数据的效率高于B树的更新)
数据集特点持续更新数据被一次写入,多次读取
数据格式结构化数据非结构化或半结构化数据(避免规范化带来的非本地读问题)
应用领域点查询、更新批处理

1.6. Hadoop的优点

Hadoop 是一个能够对大量数据进行分布式处理的软件框架,并且是以一种可靠、高效、可伸缩的方式进行处理的,具有以下优点:

  1. Hadoop是可靠的:因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。
  2. Hadoop是高效的:因为它以并行的方式工作,通过并行处理加快处理速度。
  3. Hadoop是可伸缩的:能够处理PB级数据。
  4. Hadoop成本低:依赖于廉价服务器:因此它的成本比较低,任何人都可以使用。
  5. 运行在Linux平台上:Hadoop带有用Java语言编写的框架,因此运行在Linux生产平台上是非常理想的。
  6. 支持多种编程语言:Hadoop上的应用程序也可以使用其他语言编写,比如C++。

1.7. Hadoop的生态圈

组件描述
ZooKeeper调度管理组件
Oozie堆栈
Pig对MapReduce进行抽象,可以理解为接口,被其他生态成员调用
Hive类型于SQL的高级语言,直接在Hadoop上进行查询
Sqoop迁移工具,主要进行迁移,数据集成
FlumeFlume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
Mahout提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序

1.8. Hadoop体系结构

1.9. Hadoop开发流程

1.10. Hadoop与分布式开发

  1. MapReduce计算模型非常适合在大量计算机组成的大规模集群上并行运行。每一个map任务和每一个reduce任务均可以同时运行于一个单独的计算节点上,可想而知,其运算效率是很高的。
  2. 并行计算过程:
    1. 数据分布存储
    2. 分布式并行计算
    3. 本地计算:是一种减少带宽消耗的方法
    4. 任务粒度:粒度下降,大的数据切分成小的数据,一个单位的数据尽量小于一个Block的大小,在一个节点上。
    5. 数据分割(Partition)
    6. 数据合并(Combine):可以理解成为是和Reducer一致的东西
    7. Reduce
    8. 任务管道

2. GFS与HDFS

  1. GFS:谷歌第一架马车
  2. name node在Hadoop 1.0中进程崩溃会导致系统整个崩溃

2.1. HDFS上的数据存储操作

  1. 适合大量的大文件
  2. 平均单个文件超过500M
  3. 一次写入,多次读出
  4. 单个文件的内容不能被修改,除非在文件
  5. 末尾添加新的数据
  6. 可以做什么?
    1. 创建新文件
    2. 向文件末尾增加内容
    3. 删除一个文件
    4. 修改文件名
    5. 修改文件属性(如:拥有者)

2.2. HDFS架构

  1. 使用了主从数据库
  2. Client是用户访问数据的接口

2.3. HDFS的冗余存储

2.4. HDFS基本操作

  1. hadoop fs -ls /user/:显示hdfs指定路径下的文件和文件夹
  2. hadoop fs -putmy_file /data/:将本地文件上传到hdfs
  3. hadoop fs -get /tmp/data/my_file:将hdfs_上的文件下载到本地
  4. hadoop fs -cat /tmp/data/my_file:查着dfs中的文本文件内容
  5. hadoop fs -text /tmp/data/my_sequence_file:查着dfs中的sequence文件内容
  6. hadoop fs -rm /tmp/data/my_file:将hdfs,上的文件删除

3. MapReduce

操作

  1. Map
  2. Reduce

4. 数据流

按照管道的方式对数据流进程处理,将Mapper和Reducer放到单一节点上提高计算效率


http://chatgpt.dhexx.cn/article/SrXHKrdN.shtml

相关文章

大数据-02

xsync放在家目录的bin下,其他脚本文件也放在该目录下 HDFS架构概述: 1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以…

大数据概述(二)

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明 大数据概述 传统数据处理介绍 目标: 了解大数据到来之前,传统数据的通用处理模式 数据来源: 1、企业内部管理系统 ,如员工考勤(打卡)记录。 2、客户管理系统(CRM) 数据…

大数据2--hive--hive介绍

第一章 Hive介绍 1.1hive概述 1.1.1 hive的简介 HIve是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQK查询功能。其本质是将SQL转换为MapReduce/Spark的任务进行运算,底层由HDFS来提供数据的存储&…

【大数据实验2】hadoop配置、测试和实例

hadoop配置、测试和实例 0 环境1 配置网络2 卸载和安装JDK4 配置hadoop4.1 前提4.2 修改配置文件4.3 配置环境4.4 初始化HDFS4.5 启动hadoop4.6 登录 5 测试hadoop6 hadoop实例:统计单词频数6.1 编程实现6.1.1 安装eclipse6.1.2 JAVA编程6.1.3 上传文件6.1.4 运行程…

大数据1

cd sysconfig(目录名) 进目录 ll(listlist) 查看所有的目录 cat 看目录里的内容打开文件 ~当前目录的用户主体目录 cd / 根路径 pwd 当前路径 vi 修改文件 敲I 才可以编辑 然后更改BOOTPROTO"STATIC" IPADDRIP地址19…

大数据2 Hadoop

Hadoop是Apache软件基金会下的顶级开源项目,用以提供: • 分布式数据存储 • 分布式数据计算 • 分布式资源调度 为一体的整体解决方案。 Apache Hadoop是典型的分布式软件框架,可以部署在1台乃至成千上万台服务器节点上协同工作。 个人或企…

数分-理论-大数据2-Hadoop

数分-理论-大数据2-Hadoop (数据分析系列) 文章目录 数分-理论-大数据2-Hadoop1知识点2具体内容2.1发展2.2简介2.3项目架构2.4安装应用 参考 1知识点 发展简介项目架构安装应用 2具体内容 2.1发展 Lucene:文本搜索的函数库,全文检索引擎Nutch&…

大数据2

机器学习和数据挖掘的区别 数据挖掘是一个比较大的概念,由许多学科综合而成,其包括机器学习、统计学习、数据库、领域知识及模式识别等领域。数据挖掘与机器学习可以看成是一种相交关系,两者都是依靠规律分析来预测数据趋势的,但不…

大数据行业部署实战2:环境大数据统计

实验二、环境大数据(必须基于实验一验证通过的环境) 一、实验目的二、实验要求三、实验原理四、实验步骤1、 分析数据文件2、 将数据文件上传至HDFS3 、编写月平均气温统计程序4 、查看月平均气温统计结果5、 编写每日空气质量统计程序6、 查看每日空气…

大数据(2)--Hadoop

目录标题 1.初识大数据1.1 大数据相关技术1.2 日志流量分析系统1.2.1 项目设计1.2.2 日志的捕获1.2.3 离线分析1.2.4 实时分析 1.3 系统搭建 2.Hadoop2.1 Hadoop概述2.1.1 历史2.1.2 作用 2.2 Hadoop的安装2.2.1 Hadoop版本介绍2.2.2 Hadoop 的安装有三种方式2.2.3 Hadoop伪分布…

《大数据时代》书评及书摘

三天的零碎时间把这本书读完了,内容本身其实很简单,也谈不上特别精彩,五分制的话我只能打三分。 我的理解,数据一生应该是包含了三个阶段:收集,分析,最后是预测。我们总能根据现有的数据&#x…

Python 与SQL sever数据库 图形化智能停车场管理系统

这个是我的一次课程设计,写了236行代码,都是最简单的函数和图形化界面。特别简单。首先你应该确保你的SQL数据库可以在Pycham中连接成功。不会SQL连接的的可以去其他博客写看一看。在Pycham中需要安装 Tkinter win32com.client 第三方库。 序言界面截…

asp毕业设计——基于asp+sqlserver的WEB车辆管理系统设计与实现(毕业论文+程序源码)——车辆管理系统

基于aspsqlserver的WEB车辆管理系统设计与实现(毕业论文程序源码) 大家好,今天给大家介绍基于aspsqlserver的WEB车辆管理系统设计与实现,文章末尾附有本毕业设计的论文和源码下载地址哦。需要下载开题报告PPT模板及论文答辩PPT模…

基于Java+控制台实现车辆信息管理系统

基于Java控制台实现车辆信息管理系统 一、系统介绍二、功能展示1.主要功能2.查看所有车辆信息3.车辆信息添加4.车辆信息查询5.车辆信息删除 三、系统实现1.car.java 四、其它1.其他系统实现 五、源码下载 一、系统介绍 该系统实现了简单的增删查改、采用面对对象(O…

qt 汽车管理系统

界面设计 运行后界面 数据库表: connection.h文件 #ifndef CONNECTION_H #define CONNECTION_H #include<Qtsql> #include<QDebug> #include<qdom.h> #include<QDebug> #include <QSqlQuery> static bool createConnection() { // "O…

计算机毕业设计-基于SSM的汽车维修管理系统

项目背景 随着计算机技术的高速发展&#xff0c;现代计算机系统已经从以计算为中心向以信息化处理为中心的方向发展。而汽车维修&#xff0c;不仅需要在硬件上为现代社会的人们提供一个汽车维修的平台&#xff0c;获取汽车知识的环境&#xff0c;更要在软件上为车辆提供汽车维…

ASP.NET+C#+Sql Server 1125数据库 汽车租赁系统的设计与实现+讲解视频

绪论 随着汽车行业的快速发展&#xff0c;汽车租赁行业交易的数量也随之增加&#xff0c;自2000年起&#xff0c;我国汽车租赁交易量开始进入一个快速发展的状态&#xff0c;也是汽车行业市场经济发展的重要一部分&#xff0c;近几年&#xff0c;越来越多汽车租赁公司进军当前…

Java项目:springBoot+Vue汽车销售管理系统

作者主页&#xff1a;夜未央5788 简介&#xff1a;Java领域优质创作者、Java项目、学习资料、技术互助 文末获取源码 项目介绍 本项目基于spring boot以及Vue开发&#xff0c;为前后端分离的项目。针对汽车销售提供客户信息、车辆信息、订单信息、销售人员管理、财务报表等功能…

基于JSP的物流公司信息管理系统设计与实现

目 录 第一章 绪论 1 1.1 研究背景 1 1.2课题研究意义 1 1.3 国内外的研究状况 2 第二章 相关技术分析 3 2.1技术简介 3 2.2 工作原理 3 2.3体系结构 3 2.4编程语言的特点 3 2.5 数据库 4 第三章 需求分析 5 3.1 可行性分析 5 3.1.1 经济可行性 5 3.1.2 技术可行性 5 3.1.3 运…

C#毕业设计——基于C#+asp.net+sqlserver的汽车销售管理系统设计与实现(毕业论文+程序源码)——汽车销售管理系统

基于C#asp.netsqlserver的汽车销售管理系统设计与实现&#xff08;毕业论文程序源码&#xff09; 大家好&#xff0c;今天给大家介绍基于C#asp.netsqlserver的汽车销售管理系统设计与实现&#xff0c;文章末尾附有本毕业设计的论文和源码下载地址哦。需要下载开题报告PPT模板及…