大数据big data指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新
处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大量数据资源为解决以前不可能解决的问题带来了可能性。
1大数据不一定存储于固定的数据库,而是分布在不同的网络空间
2大数据以半结构化或非结构化数据为主,具有较高的复杂性
3大数据注重的是全量样本数据而不是局部数据,注重相关性而不是因果关系,通过分析和数据挖掘将其转化为知识,再由知识提炼成智慧以获取洞察。
大数据的4个特点,数据量大Volume、数据类型繁多Variety、速度快Velocity和价值密度低Value
大数据技术是发现大规模数据中的规律,通过对数据的分析、发现,从而实现对决策层决策提供支持,实现商业价值,所以大数据发展的最终目标还是挖掘其应用价值,没有价值或者没有发现其价值的大数据从某种意义上讲是一种冗余和负担。
1存储设备容量不断增加
单位存储空间价格不断降低,开始倾向于将更多的数据保存下来
数据量单位:字节B KB MB兆 GB吉 TB太 PB拍 EB艾 ZB泽
2CPU处理能力大幅提升
摩尔定律:CPU性能大约每隔18个月提高一倍,价格下降一半
3网络带宽不断增加
4G(100Mbps)---5G(1Gbps)
大数据的一般流程:数据采集接入---数据清洗---数据融合---数据分析挖掘---数据可视化---运营维护
大数据相关的技术从执行流程上可以大致分为数据收集、数据存储、资源管理、计算框架、数据分析和数据展示6个方面。
数据产生的方式
1运营式系统阶段:数据库技术的出现,数据的产生方式是被动的,实际业务产生则生成数据
2用户原创内容阶段:web2.0技术的发展,自服务为主,用户本身就是内容的生成者
3感知式系统阶段:物联网技术的发展
大数据应用场景
1物流仓库:大数据分析系统助理商家精细化运营、提升质量、节约成本
2零售:分析用户习惯,为用户购买商品提供方便,从而提供商品销量。经典案例:纸尿裤+啤酒
3旅游:深度结合大数据能力与旅游行业需求,共建旅游行业智慧管理、智慧服务和智慧营销的未来
4商品广告推荐:给用户推荐可能喜欢的商品。案例:用户买了一本书,又推荐了若干本书
个人信息保护法草案三审。草案进一步完善个人信息处理规则,特别是对应用程序APP过度收
集个人信息、“大数据杀熟”等作出有针对性规范
5房产:大数据全面助力房地产行业,打造精准投策与营销,选出更合适的地,建造更合适的楼,卖给更合适的人
6保险:海量数据挖掘及风险预测,助力保险行业精准营销,提升精细化定价能力
7金融:多维度体现用户特征,帮助金融机构推荐优质客户,防范欺诈风险
8人工智能
大数据开发总体架构
大数据产业是指一切与支撑大数据组织管理和价值发现相关的企业经济活动的集合。大数据产业包括IT
基础设施层、数据源层、数据管理层、数据分析层、数据平台层和数据应用层
1、数据来源层。MySQL数据库、文件日志半结构化数据、视频PPT非结构化数据
2、数据传输层。Flume数据采集、Sqoop数据迁移、Kafka消息队列
3、数据存储层。ElasticSearch全文检索、HBase非关系型书库、HDFS文件存储
4、资源管理层。YARN资源管理
5、数据计算层。MapReduce离线计算、Flink Core内存计算
6、任务调度层。Crontab定时任务和Oozie任务调度
7、业务模型层。数据可视化和业务逻辑处理
大数据部门组织结构
大数据架构设计用来处理对传统数据库系统而言太大或太复杂的数据的引入、处理和分析。组织进入大数据领域的门槛各不相同,具体取决于用户的权限及其工具的功能。对某些组织来说,大数据可能意味着数百个GB的数据,而对另一些组织来说,大数据则意味着数百个TB的数据。随着处理大数据集的工具的发展,大数据的涵义也在不断地变化。