《大数据原理与应用》林子雨:一. 大数据基础
思维导图
PS:边学边记
重点: 理解大数据的概念及其处理架构Hadoop
难点: 掌握大数据处理架构Hadoop的安装与使用方法
第1章 大数据概述
1.1 大数据时代
1.1.1 三次信息化浪潮IBM前首席执行官郭士纳的观点:IT领域每隔15年就会迎来一次重大变革**第一次浪潮**
时间:1980年左右
标志:个人计算机
解决问题:信息处理
代表企业:intel,AMD,IBM,苹果,微软,联想,戴尔,惠普等**第二次浪潮**
时间:1995年左右
标志:互联网
解决问题:信息传输
代表企业:雅虎,谷歌,阿里巴巴,百度,腾讯等**第三次浪潮**
时间:2010年左右
标志:物联网,云计算,大数据
解决问题:信息爆炸
代表企业:亚马逊,谷歌,IBM,VMWare,Palantir,Hortonworks,Cloudera,阿里云等
1.1.2 信息科技为大数据时代提供技术支撑
信息科技需要解决的三个核心问题: **信息存储、信息传输、信息处理**
存储设备容量不断增加
CPU处理能力大幅提升
网络带宽不断增加
1.1.3 数据产生方式的变革促成大数据时代的来临
数据是构成信息的基本单位,比如:数字、文字、图像、声音等,被称为“未来的石油”1、运营式系统阶段;2、用户原创内容阶段;3、感知式系统阶段
1.1.4 大数据的发展历程
1.2大数据的概念
什么是大数据?
4V:数据量大(volume)、数据类型繁多(variety)、处理速度快(velocity)、价值密度低(value)
1.3大数据的影响
**科学研究:**
科研范式:实验、理论、计算、数据(第四范式)
**思维方式:**
大数据的三大显著特征:全样而非抽样、效率而非精确、相关而非因果
**社会发展:**
新的决策方式:大数据决策
**就业市场:**
数据科学家——热门人才
**人才培养:**
改变我国高校信息技术相关专业现有科研及教学体制
1.4大数据的应用
互联网
生物医学
物流等
1.5大数据的关键技术
数据采集
数据储存与管理
数据处理与分析
数据隐私与安全
1.6大数据计算模式
批处理计算
流计算
图计算
查询分析计算
1.7大数据产业
IT基础设施层
数据源层
数据管理层
数据分析层
数据平台层
数据应用层
1.8大数据与云计算、物联网
云计算
物联网
三者的联系
第2章 大数据处理架构Hadoop
Hadoop概述
Hadoop生态系统
Hadoop的安装与使用
实验1:Hadoop安装