大数据技术概论

article/2025/10/23 12:49:13

大数据技术概论

大数据技术的产生
大数据的基本概念
●大数据简介:
大数据是规模非常巨大和复杂的数据集,传统数据库管理工具处理起来面临很多问题,比如说获取、存储、检索、共享、分析和可视化,数据量达到PB、EB或ZB的级别。
大数据有三个V:
一是数据量(Volume),数据量是持续快速增加的;
二是高速(Velocity)的数据;三是多样化(Variety)数据类型和来源。
随着云时代的来临,大数(Big data)也吸引了越来越多的关注。支撑大数据以及云计算的底层原则是一样的,即规模化、自动化、资源配置、自愈性。
●大数据的处理流程
数据采集数据统计分析数据挖掘
1.数据采集:
利用多种轻型数据库来接收发自客户端的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作,具有并发性高的特点。经常使用的产品有:MySQL,Oracle,HBase,RedisMongoDB和等,并且这些产品的特点各不相同
2.统计分析:
将海量的来自前端的数据快速导入到一个集中的大型分布式数据库或者分布式存储集群,利用分布式技术来对存储于其内的集中的海量数据进行普通的查询和分类汇总等,以此满足大多数常见的分析需求。会面临:导入数据量大,查询涉及的数据量大,查询请求多的挑战。
3数据挖掘
基于前面的查询数据进行数括挖掘,来满足高级别的数据分析需求:这一步面临算法复杂,并且计算涉及的数据量和计算量都大的难题。一般使用R/SAS等统计软件。
●大数据在各个领的应用
咨询业:BM对50000名咨询顾问的档案建立了数学模型,从而计算机可以对不同的项目自动挑选出最合适的团队。广告业:硅谷的最优边界公司对网上广告提供了优化服务,对每一条网上广告都可以计算出反应率和投资收益率市场营业:
UMBRIA公司通过数值计算选择博客网站上应该跳出来的广告产品,通过向量数学,可以确认汉堡王的广告的确对年轻人的目标客户最有效媒体业:
纽约的 INFORM公司运用几何学原理将文章根据单词和词组进行转换,存入虚图书馆,然后根据读者档案挑选出最适合读者阅读的文章提供给读者社交网络:
社交网络产生了海量用户以及实时和完整的数据,同时社交网络也记录了用户群体的情绪,通过深入挖握这些数据来了解用户,然后将这些分析后的数据信息推给需要的品牌商家或是微博营销公司。
●IBM的大数据战略
基于“3A5步”动态路线图,IBM提出了“大数
据平台”架构。该平台的四大核心能力包括
Hadoop系统、流计算
(StreamComputing)、数据仓库(DataWarehouse)和信息整合与治理(InformationIntegration and Governance)。在这里插入图片描述
大数据产生的原因
1,互联网的发展,产生海量可获得的非结构化数据。
2,传统数据库在处理非结构化数据出现瓶颈。
3,分布式技术和搜索技术的发展。
大数据概念的提出
1、“大数据的名称来自于未来学家托夫勒所著的《第三次浪潮》尽管“大数据”这个词直到最近才受到人们的高度关注,但早在1980年,茗名未来学家托夫勒在其所著的《第三次浪潮》中就热情地将“大数据”称颂为“第三次浪潮的华彩乐章”。《自然》杂志在2008年月推出了名为大数据”的封面专栏。从2009年开始“大数据”才成为互联网技术行业中的热门词汇。
2、最早应用大数据的是麦肯锡公司(McKinsey)对“大数据”进行收集和分析的设想,来自于世界著名的管理咨询公司麦肯锡公司。麦肯锡公司右到了各种网络平台记录的个人淘备潜在的商业价值,于是投入大量人力秘密进行调研,在2011年6月发布了关于大数据”的报告:该报告对“大数据”的影响、关键技术和应用领域等都进行了详尽的分析。麦肯锡的报告得到了金融界的高度重视,而后逐渐受到了各行各业关注。
3、“大数据的特点由维克托迈尔恩伯格和肯尼斯库克耶在大数据时代》中提出过维克托迈尔舍恩怕格和肯尼克耶编写的大数据时代中提出:“大数据的4V特点: volume(数据量大)、 Velocity入和处理速度快)、 Variely(数据多样性)、 Value(价值密度低)。这些特点基本上得到了大家的认可,凡提到“大数据特点的文章,基本上采用了这4个特点。
4、在云计算出现之后大数据才凸显其真正价值自从有了云计算服务器,“大数据”才有了可以运行的轨道,才可以实现其真正的价值有人就形象地将种“大数据的应用比作一辆辆汽车”,支撑起这些“汽车”运行的“公路“就是云计算,最名的实例就是Google搜索引擎面对海量Weh数据:Google于2006年首先提出云计算的概念。支撑Gogl内部各种“大数据应用的,正是 Gougle公司自行研发的云计算服务器。
“大数据”的基本判断标准
什么样的数据才是“大数据”?透过层层的迷雾和众说纷纭,可以讲:有了云计算服务器才有了“大数据”应用的价值。维克托曾说过:“假设你要测量一个葡萄园的温度,但是整个葡萄园只有一个温度测量仪,那你就必须确保这个测试仪是精确的而且能够一直工作。反过来,如果每100棵葡萄树就有一个测量仪,有些测试的数据可能会是错误的,也可能会更加混乱,但众多的读数合起来就可以提供一个更加准确的结果。因为这里面包含了更多的数据,而它提供的价值不仅能抵消掉错误数据造成的影响,还能提供更多的额外价值。现在想想增加读数频率的这个事情。如果每隔一分钟就测量一下温度,十次甚至百次的话,不仅读数可能出错,连时间先后都可能搞混。试想,如果信息在网络中流动,那么一条记录很可能在传输过程中被延迟,在其到达的时候已经没有意义了,甚至干脆在奔涌的信息洪流中彻底迷失。虽然得到的信息不再准确,但收集到的数量庞大的信息让我们放弃严格精确的选择变得更为划算为了高频率而放弃了精确性,结果观察到了一些本可能被错过的变化。虽然如果能够下足够多的工夫,这些错误是可以避免的,但在很多情况下,与致力于避免错误相比,对错误的包容会带来更多好处。为了规模的扩大,我们接受适量错误的存在。”其中描述葡萄园测量仪采集的数据就是大数据。大数据实质上是全面、混杂的并且具有数据量大、输入和处理速度快、数据多样性、价值密度低特点的数据。
第四范式——大数据对科学研究产生的影响
吉姆·格雷是一个传奇人物。他是1998年图灵奖得主,著名的计算机科学家。2007年1月28日,他在自己酷爱的航海运动中驾驶帆船失踪于茫茫大海之上。短短17天之前,1月11日,他在加州山景城召开的NRC-CSTB(National Research Council-Computer Science and Telecommunications Board)上,发表了他的著名演讲:科学方法的一次革命。在这篇演讲中,吉姆·格雷将科学研究的范式分为四类——除了之前的实验范式、理论范式、仿真范式之外


http://chatgpt.dhexx.cn/article/Km5HR4gm.shtml

相关文章

2【源码】数据可视化:基于 Echarts + Java SpringBoot 实现的动态实时大屏范例-物流大数据

数据可视化大屏的出现,掀起一番又一番的浪潮,众多企业纷纷想要打造属于自己的“酷炫吊炸天”的霸道总裁大屏驾驶舱。 之前小伙伴们建议我出一些视频课程来学习Echarts,这样可以更快上手,所以我就追星赶月的录制了《Echarts - 0基…

客快物流大数据项目(九十一):ClickHouse的数据库引擎

​​​​​​​ 文章目录 ClickHouse的数据库引擎 一、MySQL引擎 ClickHouse的数据库引擎 ClickHouse提供了本机、M

客快物流大数据项目(九十二):ClickHouse的MergeTree系列引擎介绍和MergeTree深入了解

文章目录 ClickHouse的MergeTree系列引擎介绍和MergeTree深入了解 一、MergeTree系列引擎介绍

客快物流大数据项目(三十二):安装CDH-6.2.1和初始化CDH服务所需的MySQL库

安装CDH-6.2.1和初始化CDH服务所需的MySQL库 一、安装CDH-6.2.1 yum install cloudera-manager-daemons cloudera-manager-agent cloudera-manager-server 二、初始化CDH服务所需的MySQL库 在MySQL中依次创建监控数据库、Hive数据库、Hue数据库 操作步骤 说明 1

大数据实时+离线项目架构----智慧物流大数据平台(超流行框架!)

智慧物流大数据平台 文章目录 智慧物流大数据平台一、项目背景二、逻辑架构三、解决方案技术亮点: 数据流转四、项目的技术选型4.1流式处理平台4.2 分布式计算平台4.3 海量数据存储 框架软件版本 一、项目背景 本项目基于一家大型物流公司研发的智慧物流大数据平台。该物流公司…

visio中不使用带箭头的线条

在visio中每次都需要用带箭头的连接线,但有时候,确需要不用带箭头的连接线,找了好半天,每次使用每次找,这次特此写博客结论一下。 2.设置线条的格式

visio画箭头时,如何去掉箭头的自动连接连接点(吸附)功能?

1.以Visio2013版为例,在visio顶部操作菜单中,视图-视觉帮助-找到右下小箭头。 2.点击小箭头,在如下弹出框中,取消如下两项的勾选,即可。

如何用Visio画出总线(空心的箭头)

在visio中可以首先画出一个空白的箭头,在下图中找到。 画出一个箭头 然后可以在这个箭头后面拼接长方体,如图 然后,选择开发工具中的操作的联合 得到的效果如下 这样,就画出了总线。

如何用viso画波浪线、以及带箭头的波浪线。

如何用viso画波浪线、带箭头的波浪线!!! 搜索过来搜索过去,还是没有找到一个令自己满意的答案,就自己写一个过程了。 首先我使用的是visio 2013版本。方法一: 打开visio,新建一个基本框图找到…

visio指向插图任意位置和任意改变箭头形状

开发环境: win7,visio 2016 proffessional 问题1 最近在用visio作图时发现用箭头连接两个插图时只能连接到插图上指定位置的点。如下图所示: 比如我想画一条上图中手画的箭头,就没办法连接,只能是连接长方形的上边中…

visio图多树枝直角加箭头 避免箭头过多

集美们,visio图遇到一个指向多个的箭头,利用“连接线”不方便(①箭头容易对不齐;②箭头会躲避文本框,不容易控制),就需要使用多树枝直角形状。 连接符的调用位置 ↑ 里面就有多树枝直角工具了 …

VISIO取消箭头自动吸附及粘连

Visio打开或取消箭头的自动吸附和自动连接 在用Visio画图时Visio的自动对齐、自动连接、自动吸附功能确实能带了很多便利。但在画连接线时,Visio总是自动连接箭头与图形的固定节点,想要微调一下连接位置,就显得很不方便,需要关闭…

visio如何使箭头指向图中的任意位置

visio如何使箭头指向图中的任意位置 会疯真的会被visio搞疯,因为没有系统的学过visio,就是哪里有问题然后去搜大佬博客。 在画流程图的时候,【判断】或【循环】的反馈线的标准画法是反馈指向【流程线】,而不是某一模块。 解决方…

300集ps视频从零基础入门到精通

目前来说,PS是一项很基本的工作技能了。并且Photoshop一直都被纳入大学计算机等级考试中,photoshop已经像Word,Excel,PPT那么普及了。相信同学们在写简历的时候也会写上去。 其实,Photoshop目前也是全球最流行、使用最…

Redis从入门到精通

Redis简介 什么是实时系统: 瞬时可以实现某些数据的统计或者是功能的实现 *_Redis由来: *_什么是redis? 由C语言实现的直接操作内存的开源的高性能的数据库软件 *_redis应用场景 缓存(数据查询,短连接,新闻内容、商品内容等等&#xf…

TCP协议从入门到精通

文章目录 TCP协议TCP头部信息TCP头部信息清单16位端口号(port number)32位序号(sequence number)32位确认号(acknowledgement number)4位头部长度(header length)6位标志位16位窗口大…

PHP从入门到精通

【原】PHP从入门到精通2小时【图文并茂】 主要内容: 搭建PHP开发环境第一个helloworld程序变量全局变量循环结构函数数组面向对象编程继承接口多态日志文件的读写时间格式和时区创建图形从远程获取图形生成二维码php与数据库mysql的连接mysql数据库面向对象编程coo…

Rust 从入门到精通10-所有权

在介绍rust 所有权时,我们先介绍内存管理的一些基础概念。 1、堆和栈 一个进程在执行的时候,它所占用的内存虚拟空间一般被分割为好几个区域,我们称为”段“(Segment)。常见的几个段如下: ①、代码段&am…

Elasticsearch从入门到精通

1、Elasticsearch简介 Elasticsearch是一个基于Apache Lucene(TM)的开源搜索引擎,无论在开源还是专有领域,Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。 但是,Lucene只是一个库。想要发挥其强大的作用&#xff0…