大数据分析要学什么

article/2025/9/21 17:28:16

  很多初入大数据领域或者转行进入大数据领域的朋友,需要了解的第一件事不是说各种组件框架生态相关的东西,也不是各种编程语言基础。

  而是,了解清楚以下几个问题:

  1)大数据领域到底包含了哪些东西,解决了哪些问题?

  2)自己的实际基础是什么,如何结合自己的基础以及兴趣爱好,在整个大数据领域链路中,找到最好的切入点。只有解决了上面两个问题,才能给自己最精确的定位,找准方向深入下去。

  第一个问题,大数据领域的范围。

  现在一说起大数据分析,简单起来就是一个词,但其实这个方向已经可以形成一个技术领域了,包含了方方面面的技术点,也提供了各种不同的技术岗位。所以,不同的岗位,对应的需求,工作内容都是不同的。

  我们可以根据数据从下到上,从无到有,到产生价值整个数据业务流程来拆解,并且与此同时,来看看每个环节我们需要的技术储备以及能做的事有哪些。大数据分析的几大基本业务流程:

  收集 -> 传输 -> 转换/清洗 ->存储 -> 再加工 -> 挖掘/统计 -> 上层应用输出

  

 

  总的来说,可以分以下几个大块。

  第一环:数据的收集

  在收集阶段,我们来看看数据主要有哪几种存在方式:

  1)第三方开放数据集

  2)业务数据

  3)服务日志

  4)行为上报数据

  

数据采集

 

  首先针对于第三方开放数据,目前爬取第三方开放数据的形式已经逐渐被认可,并且将会越来越多的人以及企业从互联网开放数据集中获取原始数据。所以,针对于开放数据的获取,爬虫已经可以单独形成一个体系了,包括不同的爬虫框架,以及近年来对于分布式爬虫的技术需求等,在语言方面主要还是python以及java为主,辅助其他相关脚本知识。

  如果数据是业务数据,那么通常在传统的路子中,业务数据一般存储在传统的数据库中,那么,对于传统数据库相关的技术知识不可避免的需要有所了解。

  我们需要对数据进行统一化处理,又不可避免的涉及到数据的迁移,即从传统数据存储介质中迁移到诸如hadoop生态中,那么涉及的迁移框架诸如sqoop之类的,又是不能不懂一些。在语言以及基础要求上,对SQL相关的知识需要补充,以及linux操作,简单的python需要掌握。

  最后,如果是数据上报的形式,你需要对整个数据上报的流程熟悉,怎么进行埋点、怎么收集上报的数据,上报过来怎么进行传输接受落地,这里就不多说,最终这种上报过来的数据反倒相对规整。

  第二环:数据的传输

  数据的传输到底在什么时候会涉及到呢?诸如上面说到的数据上报,在大数据模式下,通常上报过来的数据我们都不会马上进行落地的,因为涉及到不同部分其效率不一样,在峰值波动的情况下,直接落地十有八九都会导致系统宕机。

  

数据传输

 

  所以,数据的传输在大数据领域中有着不可替代的左右,会出现在各种系统耦合之间,一方面用作数据的传输,另一方面用作数据的缓冲、系统解耦。在hadoop生态中,最有名的莫过于kafka与flume的组合搭配了,收集数据,并进行数据传输,此外还有不少类似的消息队列存在,诸如ActiveMQ、阿里的RocketMQ等等。

  第三环:数据的存储

  生态中最最核心的存储组件莫过于HDFS了,这是支撑hadoop能够做大批量数据处理的基础支撑,便捷而强悍的横向扩展能力。还有各种基于此之上不同形式的数据存储方式,诸如hive、HBase、甚至ES、Solr勉强都算,以及不可忽略的传统类型的SQL存储方式。

  

数据存储

 

  我们需要理解的是,不同的存储方式应对于实际的应用场景是不同的,HDFS作为最基础的分布式文件系统,我们就不多说。如Hive其更作用更多用于类传统式的SQL查询操作,其对于效应效率要求并不高,但对于数据规模的支撑性良好;而HBase则更偏向于即席查询,要求有更高的响应效率,但对于查询的复杂性支持上则相对较弱。

  而我们说诸如ES、Solr都也勉强算是一种数据存储的组织方式,其实也是有一定道理的,因为他们本身也支持这种分布式的数据存储,只不过他们是为了应对于自己框架的检索需求而设计的数据存储组织。如Redis,也算是目前大数据生态中不可缺少的数据存储方式之一,基于内容,应对于高效的数据存储与读取,在很多的实际应用场景中都用的到。

  第四环:数据的再加工

  其实这一层主要要说就是基于Hadoop的MR框架以及Spark,当然,也有其他的一些分布式数据处理框架。

  大规模的数据清洗转换、再加工,都离不开分布式处理框架的支持。我们需要对杂乱的数据进行标准化、对残缺的数据进行补全、对原始的数据进行深度加工提取高级属性等等。简单的,我们可以通过一些处理脚本来做,但针对于大规模的数据量级,我们依然需要依赖MR或者spark这种框架来处理。而针对于一些实时的场景,我们也不可避免的需要掌握诸如storm以及spark streaming之类的实时框架。所以,在这一环,我们不止需要了解不同的大数据处理框架,我们还需要在基于框架的基础上,做数据应用开发,进行数据处理。

  最后一环:数据应用价值输出

  前面我们做了很多事,包括数据的收集、传输、处理、存储等等,但这些都是手段,都不是我们的目的。我们的目的是让数据产生价值,这也是企业做大数据的核心目的。

  我们可以用数据来做什么:

  1)基于统计分析、数据预测,做数据化运营、决策,提升效率、效果,这是最常见的应用场景。

  2)做推荐,在主体之外产生衍生价值,提升单位价值转换。

  3)画像体系,至于说画像能做什么,只要能做的准,能做的事可多了。

  4)基于数据化、智能化的搜索。

  5)实现业务的数据化、自动化、智能化。

 

摘自:https://www.aaa-cg.com.cn/data/1767.html


http://chatgpt.dhexx.cn/article/7yfQ0qdc.shtml

相关文章

大数据专业学什么?学完可以干什么?

大数据领域三个大的技术方向,这些不同的技术方向,对应企业的哪些招聘岗位? Hadoop大数据开发方向 市场需求旺盛,大数据培训的主体,我们培训的重点 对应岗位:大数据开发工程师 爬虫工程师 数据分析师 等 数…

大数据需要学习哪些内容

Python 已成利器 在大数据领域中大放异彩 Python,成为职场人追求效率的利器,因为不管什么工作,数据都会是工作的一部分,有数据的地方,就有Python! 我们知道,随着互联网的发展,线上…

什么是大数据分析?大数据分析要学什么?

大数据分析概念  大数据分析是指对规模巨大的数据进行分析。大数据可以概括为5个V, 数据量大(Volume)、速度快(Velocity)、类型多(Variety)、价值(Value)、真实性(Veracity)。  大数据作为时下最火热的IT行业的词汇,随之而来…

大数据到底应该如何学?

写在前面:博主是一只经过实战开发历练后投身培训事业的“小山猪”,昵称取自动画片《狮子王》中的“彭彭”,总是以乐观、积极的心态对待周边的事物。本人的技术路线从Java全栈工程师一路奔向大数据开发、数据挖掘领域,如今终有小成…

大数据都要学什么

本文是转载的别人的。 那大数据处理技术怎么学习呢?首先我们要学习Java语言和Linux操作系统,这两个是学习大数据的基 础,学习的顺序不分前后。 Java:大家都知道Java的方向有JavaSE、JavaEE、JavaME,学习大数据要学习那个方向呢…

大数据需要学习哪些技术?

大数据是对海量数据进行存储、计算、统计、分析处理的一系列处理手段,处理的数据量通常是TB级,甚至是PB或EB级的数据,这是传统数据处理手段所无法完成的,其涉及的技术有分布式计算、高并发处理、高可用处理、集群、实时性计算等,汇集了当前IT领域热门流行的IT技术。 想要学…

大数据工程师需要学习哪些?

2019独角兽企业重金招聘Python工程师标准>>> 大数据学习涉及技术: 1、数据采集:ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中&…

无线承载网络“组或资源的状态不是执行请求操作的正确状态”解决方法

在使用win 7 无线承载网络时,启动该服务时,有时会提示:组或资源的状态不是执行请求操作的正确状态。 网上有文章指出,解决这个问题的方法是在设备管理器中启动“Microsoft托管网络虚拟适配器”,见 http://jingyan.baid…

web端服务器返回状态码总结

web端服务返回状态吗总结 一些常见的状态码为: 200 - 服务器成功返回网页 304 - 为提升用户浏览体验,执行缓存机制,而未执行本文件 404 - 请求的网页不存在 503 - 服务器超时 ***********************************************************…

Charles模拟网络请求返回状态

一、Http请求返回状态码 1、2XX——成功请求 返回信息为2开头的状态码时,所代表的意思是: 状态码描述200 OK请求成功201 Created请求被创建完成,同时新的资源被创建202 Accepted服务器已接受请求,但尚未处理 203 No-Authoritat…

请求状态码(Http常见状态码总结)

1XX (信息性状态码)接收的请求正在处理 201-206(成功状态码)服务器成功处理了请求,说明网页可以正常访问。 300-307(重定向状态码)要完成请求,需要进一步进行操作。通常&#xff0c…

HTTP请求格式、状态码及常用请求方法

常用的HTTP请求方法,按照RFC2616标准(HTTP1.1)来看,通常有以下8种方法:get、post、put、delete、head、trace、connect、options。 HTTP请求格式 当浏览器向Web服务器发出请求时,它向服务器传递了一个数据…

在使用win 7 无线承载网络时,启动该服务时,有时会提示:组或资源的状态不是执行请求操作的正确状态。 网上有文章指出,解决这个问题的方法是在设备管理器中启动“Microsoft托管网络虚拟适配

在使用win 7 无线承载网络时,启动该服务时,有时会提示:组或资源的状态不是执行请求操作的正确状态。 网上有文章指出,解决这个问题的方法是在设备管理器中启动“Microsoft托管网络虚拟适配器”,见 http://jingyan.baid…

无法启动承载网络。 组或资源的状态不是执行请求操作的正确状态,解决办法。(转)...

摘自:http://www.lihuoqing.cn/other/172.html 以前用的好好的,这段时间就出现以下情况: C:\windows\system32>netsh wlan start hostednetwork 无法启动承载网络。 组或资源的状态不是执行请求操作的正确状态。 问题截图为以下图片的第一个红色框&am…

win10 更新之后,无法开启wifi,“组或资源的状态不是执行请求操作的正确状态”...

netsh wlan set hostednetwork modeallow ssidwifi_Tr key00147258 netsh wlan start hostednetwork 请参考最新博客:http://www.cnblogs.com/tanrong/p/8184325.html 已尝试解决办法: 1. http://jingyan.baidu.com/article/af9f5a2d2ad52943150a457f.h…

无线承载网络 组或资源的状态不是执行请求操作的正确状态 解决方法

在使用win 7 无线承载网络时,启动该服务时,有时会提示:组或资源的状态不是执行请求操作的正确状态。 网上有文章指出,解决这个问题的方法是在设备管理器中启动“Microsoft托管网络虚拟适配器”,见 http://jingyan.baidu.com/article/3a2f7c2e4f9a6326afd61132.html 经过实…

cmd中执行netsh wlan start hostednetwork 无法启动承载网络。 组或资源的状态不是执行请求操作的正确状态。

cmd中执行netsh wlan start hostednetwork 无法启动承载网络。 组或资源的状态不是执行请求操作的正确状态。 解决办法: 1、打开网络共享中心,点击“更改适配器”,如果没有看到“无线网络连接2”的网络连接,请尝试以下步骤&#…

JavaIO:使用封装好的工具类CommonsIO

1.首先需要在Apache的官网上下载工具类的jar 包 2.导入jar包:打开文件——项目结构——依赖 3.CommonsIO核心操作:FileUtils类 1.得到文件的大小: long len FileUtils.sizeOf(new File("sc.png")); 2.列出目录下所有文件&#…

java递归获取文件树目录列表

直接上代码: public static List<FileTreeNode> getFileTree(File file) {List<FileTreeNode> baseTreeNodes new ArrayList<>();File[] childFiles file.listFiles();if (childFiles ! null) {for (File listFile : childFiles) {FileTreeNode baseTreeN…

FileFilter过滤器的使用方法

过滤器原理 public static void main(String[] args) {File f1 new File("D:\\FA\\JAVAspace\\FightingLangOwner\\Demo\\src\\DemoFile");getFileName(f1);}public static void getFileName(File f1){File[] arrFile f1.listFiles(new FileFilterImp());for (Fil…