大数据概论

article/2025/10/24 5:11:13

大数据big data指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新
处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大量数据资源为解决以前不可能解决的问题带来了可能性。
1大数据不一定存储于固定的数据库,而是分布在不同的网络空间
2大数据以半结构化或非结构化数据为主,具有较高的复杂性
3大数据注重的是全量样本数据而不是局部数据,注重相关性而不是因果关系,通过分析和数据挖掘将其转化为知识,再由知识提炼成智慧以获取洞察。

大数据的4个特点,数据量大Volume、数据类型繁多Variety、速度快Velocity和价值密度低Value

 大数据技术是发现大规模数据中的规律,通过对数据的分析、发现,从而实现对决策层决策提供支持,实现商业价值,所以大数据发展的最终目标还是挖掘其应用价值,没有价值或者没有发现其价值的大数据从某种意义上讲是一种冗余和负担。

1存储设备容量不断增加

单位存储空间价格不断降低,开始倾向于将更多的数据保存下来
数据量单位:字节B KB MB兆 GB吉 TB太 PB拍 EB艾 ZB泽

2CPU处理能力大幅提升

摩尔定律:CPU性能大约每隔18个月提高一倍,价格下降一半

3网络带宽不断增加

4G(100Mbps)---5G(1Gbps)

大数据的一般流程:数据采集接入---数据清洗---数据融合---数据分析挖掘---数据可视化---运营维护
大数据相关的技术从执行流程上可以大致分为数据收集、数据存储、资源管理、计算框架、数据分析和数据展示6个方面。

数据产生的方式

1运营式系统阶段:数据库技术的出现,数据的产生方式是被动的,实际业务产生则生成数据
2用户原创内容阶段:web2.0技术的发展,自服务为主,用户本身就是内容的生成者
3感知式系统阶段:物联网技术的发展

大数据应用场景

1物流仓库:大数据分析系统助理商家精细化运营、提升质量、节约成本
2零售:分析用户习惯,为用户购买商品提供方便,从而提供商品销量。经典案例:纸尿裤+啤酒
3旅游:深度结合大数据能力与旅游行业需求,共建旅游行业智慧管理、智慧服务和智慧营销的未来
4商品广告推荐:给用户推荐可能喜欢的商品。案例:用户买了一本书,又推荐了若干本书
个人信息保护法草案三审。草案进一步完善个人信息处理规则,特别是对应用程序APP过度收
集个人信息、“大数据杀熟”等作出有针对性规范
5房产:大数据全面助力房地产行业,打造精准投策与营销,选出更合适的地,建造更合适的楼,卖给更合适的人
6保险:海量数据挖掘及风险预测,助力保险行业精准营销,提升精细化定价能力
7金融:多维度体现用户特征,帮助金融机构推荐优质客户,防范欺诈风险
8人工智能

大数据开发总体架构

大数据产业是指一切与支撑大数据组织管理和价值发现相关的企业经济活动的集合。大数据产业包括IT
基础设施层、数据源层、数据管理层、数据分析层、数据平台层和数据应用层
1、数据来源层。MySQL数据库、文件日志半结构化数据、视频PPT非结构化数据
2、数据传输层。Flume数据采集、Sqoop数据迁移、Kafka消息队列
3、数据存储层。ElasticSearch全文检索、HBase非关系型书库、HDFS文件存储
4、资源管理层。YARN资源管理
5、数据计算层。MapReduce离线计算、Flink Core内存计算
6、任务调度层。Crontab定时任务和Oozie任务调度
7、业务模型层。数据可视化和业务逻辑处理

大数据部门组织结构

大数据架构设计用来处理对传统数据库系统而言太大或太复杂的数据的引入、处理和分析。组织进入大数据领域的门槛各不相同,具体取决于用户的权限及其工具的功能。对某些组织来说,大数据可能意味着数百个GB的数据,而对另一些组织来说,大数据则意味着数百个TB的数据。随着处理大数据集的工具的发展,大数据的涵义也在不断地变化。

 


http://chatgpt.dhexx.cn/article/e4ce2669.shtml

相关文章

大数据技术概论

大数据技术概论 大数据技术的产生 大数据的基本概念 ●大数据简介: 大数据是规模非常巨大和复杂的数据集,传统数据库管理工具处理起来面临很多问题,比如说获取、存储、检索、共享、分析和可视化,数据量达到PB、EB或ZB的级别。 大数据有三个V: 一是数据量(Volume),数据量是持续…

2【源码】数据可视化:基于 Echarts + Java SpringBoot 实现的动态实时大屏范例-物流大数据

数据可视化大屏的出现,掀起一番又一番的浪潮,众多企业纷纷想要打造属于自己的“酷炫吊炸天”的霸道总裁大屏驾驶舱。 之前小伙伴们建议我出一些视频课程来学习Echarts,这样可以更快上手,所以我就追星赶月的录制了《Echarts - 0基…

客快物流大数据项目(九十一):ClickHouse的数据库引擎

​​​​​​​ 文章目录 ClickHouse的数据库引擎 一、MySQL引擎 ClickHouse的数据库引擎 ClickHouse提供了本机、M

客快物流大数据项目(九十二):ClickHouse的MergeTree系列引擎介绍和MergeTree深入了解

文章目录 ClickHouse的MergeTree系列引擎介绍和MergeTree深入了解 一、MergeTree系列引擎介绍

客快物流大数据项目(三十二):安装CDH-6.2.1和初始化CDH服务所需的MySQL库

安装CDH-6.2.1和初始化CDH服务所需的MySQL库 一、安装CDH-6.2.1 yum install cloudera-manager-daemons cloudera-manager-agent cloudera-manager-server 二、初始化CDH服务所需的MySQL库 在MySQL中依次创建监控数据库、Hive数据库、Hue数据库 操作步骤 说明 1

大数据实时+离线项目架构----智慧物流大数据平台(超流行框架!)

智慧物流大数据平台 文章目录 智慧物流大数据平台一、项目背景二、逻辑架构三、解决方案技术亮点: 数据流转四、项目的技术选型4.1流式处理平台4.2 分布式计算平台4.3 海量数据存储 框架软件版本 一、项目背景 本项目基于一家大型物流公司研发的智慧物流大数据平台。该物流公司…

visio中不使用带箭头的线条

在visio中每次都需要用带箭头的连接线,但有时候,确需要不用带箭头的连接线,找了好半天,每次使用每次找,这次特此写博客结论一下。 2.设置线条的格式

visio画箭头时,如何去掉箭头的自动连接连接点(吸附)功能?

1.以Visio2013版为例,在visio顶部操作菜单中,视图-视觉帮助-找到右下小箭头。 2.点击小箭头,在如下弹出框中,取消如下两项的勾选,即可。

如何用Visio画出总线(空心的箭头)

在visio中可以首先画出一个空白的箭头,在下图中找到。 画出一个箭头 然后可以在这个箭头后面拼接长方体,如图 然后,选择开发工具中的操作的联合 得到的效果如下 这样,就画出了总线。

如何用viso画波浪线、以及带箭头的波浪线。

如何用viso画波浪线、带箭头的波浪线!!! 搜索过来搜索过去,还是没有找到一个令自己满意的答案,就自己写一个过程了。 首先我使用的是visio 2013版本。方法一: 打开visio,新建一个基本框图找到…

visio指向插图任意位置和任意改变箭头形状

开发环境: win7,visio 2016 proffessional 问题1 最近在用visio作图时发现用箭头连接两个插图时只能连接到插图上指定位置的点。如下图所示: 比如我想画一条上图中手画的箭头,就没办法连接,只能是连接长方形的上边中…

visio图多树枝直角加箭头 避免箭头过多

集美们,visio图遇到一个指向多个的箭头,利用“连接线”不方便(①箭头容易对不齐;②箭头会躲避文本框,不容易控制),就需要使用多树枝直角形状。 连接符的调用位置 ↑ 里面就有多树枝直角工具了 …

VISIO取消箭头自动吸附及粘连

Visio打开或取消箭头的自动吸附和自动连接 在用Visio画图时Visio的自动对齐、自动连接、自动吸附功能确实能带了很多便利。但在画连接线时,Visio总是自动连接箭头与图形的固定节点,想要微调一下连接位置,就显得很不方便,需要关闭…

visio如何使箭头指向图中的任意位置

visio如何使箭头指向图中的任意位置 会疯真的会被visio搞疯,因为没有系统的学过visio,就是哪里有问题然后去搜大佬博客。 在画流程图的时候,【判断】或【循环】的反馈线的标准画法是反馈指向【流程线】,而不是某一模块。 解决方…

300集ps视频从零基础入门到精通

目前来说,PS是一项很基本的工作技能了。并且Photoshop一直都被纳入大学计算机等级考试中,photoshop已经像Word,Excel,PPT那么普及了。相信同学们在写简历的时候也会写上去。 其实,Photoshop目前也是全球最流行、使用最…

Redis从入门到精通

Redis简介 什么是实时系统: 瞬时可以实现某些数据的统计或者是功能的实现 *_Redis由来: *_什么是redis? 由C语言实现的直接操作内存的开源的高性能的数据库软件 *_redis应用场景 缓存(数据查询,短连接,新闻内容、商品内容等等&#xf…

TCP协议从入门到精通

文章目录 TCP协议TCP头部信息TCP头部信息清单16位端口号(port number)32位序号(sequence number)32位确认号(acknowledgement number)4位头部长度(header length)6位标志位16位窗口大…

PHP从入门到精通

【原】PHP从入门到精通2小时【图文并茂】 主要内容: 搭建PHP开发环境第一个helloworld程序变量全局变量循环结构函数数组面向对象编程继承接口多态日志文件的读写时间格式和时区创建图形从远程获取图形生成二维码php与数据库mysql的连接mysql数据库面向对象编程coo…

Rust 从入门到精通10-所有权

在介绍rust 所有权时,我们先介绍内存管理的一些基础概念。 1、堆和栈 一个进程在执行的时候,它所占用的内存虚拟空间一般被分割为好几个区域,我们称为”段“(Segment)。常见的几个段如下: ①、代码段&am…