java到大数据学习路线

article/2025/9/15 16:18:50
  1. 计算机网络

  2. 操作系统

  3. 数据结构

  4. 计算机组成原理

    可重点学习如下知识点   
    计算机网络(重点看 OSI七层模型 或 TCP/IP五层模型 理解每层含义
    数据结构(重点看 数组、栈、队列、链表、树
    算法(重点看 各种 排序算法、查找算法、去重算法,最优解算法,多去 LeetCode 刷算法题)
    操作系统(重点看 进程、线程、IO、调度、内存管理

 数据仓库分为离线数仓实时数仓,但是企业在招聘时大多要求两者都会,进入公司之后可能会专注于离线或实时其中之一。

不管离线还是实时,重中之重就是SQL

SQL 语法及调优一定要掌握,这里说的 SQL 包括 mysql 中的 sql,hive中的 hive sql,spark 中的 spark sql,flink 中 的 flink sql。

在企业招聘的笔记及面试中,一般问的关于 sql 的问题主要是以 hive sql 为主,所以请重点关注!

  1. 实时数仓需要重点掌握的技能:

    • Hadoop(这是大数据基础,不管离线和实时都必须掌握)

    • Kafka(重点,大数据领域中算是唯一的消息队列)

    • Flink(重中之重,这个不用说了,实时计算框架中绝对王者)

    • HBase(会使用,了解底层原理)

    • Druid(会用,了解底层原理)

    • 实时数仓架构(两种数仓架构:Lambda架构和Kappa架构)

    • Hadoop(HDFS,MapReduce,YARN)

    • Hive(重点,包括hive底层原理,hive SQL及调优)

    • Spark(Spark 会用及了解底层原理)

    • Oozie(调度工具,会用即可)

    • 离线数仓建设(搭建数仓,数仓建模规范)

    • 维度建模(建模方式常用的有范式建模和维度建模,重点关注维度建模)

大数据开发分两类,第一类是编写Hadoop、Spark、Flink 的应用程序,第二类是对大数据处理系统本身进行开发,如对开源框架的扩展开发,数据中台的开发等!

  • 语言:Java 和 Scala(语言以这两种为主,需要重点掌握)

  • Linux(需要对Linux有一定的理解)

  • Hadoop(需理解底层,能看懂源码)

  • Hive(会使用,能进行二次开发)

  • Spark(能进行开发。对源码有了解)

  • Kafka(会使用,理解底层原理)

  • Flink(能进行开发。对源码有了解)

  • HBase(理解底层原理)

MySQL需要学习 sql 语法,范式,事务等。

hadoop -> zookeeper -> hive -> flume && sqoop -> azkaban && oozie -> 数仓建模理论+实践 -> hbase -> redis -> kafka -> elk -> scala -> spark -> kylin -> flink -> 实时数仓项目

学完以上技能后,有时间还需要学习比较流行的 OLAP 查询引擎

Impala 、 Presto、Druid 、 Kudu 、 ClickHouse 、 Doris

如果还有时间,可以学习数据治理相关的内容,如元数据管理,数据湖等

Atlas 、 Hudi

我作的这幅图把Hadoop放在了核心位置,旁边都是围着它的组件,说明了Hadoop的重要性,需要重点学习,后面的一切都是以Hadoop为基础的。

从图中能看出这些组件的图标大多是动物,而左下角的 zookeeper 的图标是人,为动物园管理者,所以从图标中我们也能猜出zookeeper是用来管理这些大数据框架的。

再来看下 Hive,大象头,蜜蜂的身体,大象是Hadoop,蜜蜂是采蜜的,所以我们猜测Hive作为数据仓库和Hadoop密不可分的,并且收集数据的。

HBase作为数据库,图标是鲸鱼,鲸鱼是世界上最大的动物,代表HBase是存储巨量的数据

Impala是一个OLAP查询分析引擎,图标是一个斑羚羊,斑羚羊的特点就是跑的特别快,所以Impala是查询速度特别快的一个交互式查询分析引擎。

Flink是一个松鼠,松鼠的特点就是快速和灵巧,和Flink的理念相吻合。


http://chatgpt.dhexx.cn/article/XtPIZQCv.shtml

相关文章

Java大数据文件处理方法

前言 Java大数据文件处理是一种使用Java编写的大型数据处理技术,特别适用于处理大型数据文件。在这篇文章中,我们将了解什么是Java大数据文件处理,为什么它很重要以及Java大数据文件处理的方法和技术。 一、什么是Java大数据文件处理&#…

大数据必学Java基础(一):Java体系结构、特性和优势

文章目录 Java体系结构、特性和优势 一、JAVA简史 【1】SUN公司 【2】Java为什么被发明

如果通过Java来完成大数据开发,需要学习哪些内容

首先,当前大数据领域的开发岗位确实比较多,近两年有不少大数据方向的研究生也会从事大数据开发岗位,而Java语言则是大数据开发人员的常用工具,所以如果要从事大数据开发岗位,可以重点学习一下Java语言。 大数据开发有…

Java大数据开发做什么?Java大数据开发成长路线

Java开发是IT行业的经典岗位,行业当中存在普遍的需求,Web开发、Android开发、游戏开发等岗位,基本上Java语言是主力队伍。而进入大数据时代,Java又在大数据方向上有了用武之地。今天我们主要来讲讲Java大数据开发做什么&#xff0…

23个java大数据处理框架

本文转自:https://www.cnblogs.com/stm32stm32/p/6413557.html 目前,编程人员面对的最大挑战就是复杂性,硬件越来越复杂,OS越来越复杂,编程语言和API越来越复杂,我们构建的应用也越来越复杂。根据外媒的一…

大数据开发要学Java框架吗?

大数据开发要学Java框架吗?学习大数据要去学习Java而且还要精通,不仅要掌握Java基础知识还要掌握一些核心的Java架构。从java基础开始,学习大数据开发过程中必备的离线数据分析、实时数据分析和内存数据计算等,掌握大数据体系中几乎所有的核心…

java 大数据以及Hadoop相关概念介绍

一、大数据的基本概念 1.1、什么是大数据 大数据指的就是要处理的数据是TB级别以上的数据。大数据是以TB级别起步的。在计算机当中,存放到硬盘上面的文件都会占用一定的存储空间,例如: 文件占用的存储空间代表的就是该文件的大小&#xff0…

JAVA开发搞了一年多大数据的总结

2021年7月份加入了当前项目组,以一个原汁原味的Java开发工程师的身份进来的,来了没多久,项目组唯一一名大数据开发工程师要离职了,一时间一大堆的数据需求急需人来接手,此刻又招不来新的数据开发。没辙,我和…

Java和Java大数据有什么区别?

分别提起Java或者大数据,很多人对此都一目了然,但对于Java大数据这样一个新鲜名词,多少有些疑惑。那Java和Java大数据学习的内容是一样的吗?两者有什么区别呢?今天就从Java和Java大数据的以下方面谈谈两者的区别。 1.…

svn安装、配置及使用文档

SVN安装、配置及使用 SVN服务器安装 1) 下载地址:https://www.visualsvn.com/server/changes/ (此处以5.0.0版本为例) 2) 安装路径:D:\SVNserver 代码库路径:D:\SVNserver\Repositories 备份路…

小乌龟SVN安装和使用

TortoiseSVN的安装与应用 1、安装 1.1、下载TortoiseSVN 点击下载TortoiseSvn 1.2、下载汉化包。上面的页面中,找到Chinese, simplified汉化包,点击32位或者64位的Setup,下载汉化包。 1.3、安装TortoiseSVN。在选择安装路径页面时要记…

CICD详解(五)——SVN安装与配置

今天继续给大家介绍Linux运维相关知识,本文主要内容是SVN的安装与配置。 一、SVN安装与建库 SVN可以使用yum的方式进行安装,安装命令如下: yum install -y subversion安装完成后,我们建立一个SVN的文件目录,在该文件…

SVN安装不成功卸载不干净后如何重装SVN和右键显示SVN

SVN安装不成功卸载不干净后如何重装SVN和右键显示SVN CHECKOUT 十分好用!!! 1.我当时是下载了SVN最新版本然后在安装SVN时安装长期没有响应,显示安装失败; 2.再次安装显示还有残留的SVN,也就意味着我原来…

IDEA---SVN安装及配置

一.安装SVN SVN下载:提取码xcwx 所有步骤都下一步即可,注意两个步骤如果电脑上本身下过SVN会出现图1,如果本身第一次安装时如图2第二个已经选择了will be这个选项就可以跳过安装,没有的话选图1Modify把图2勾选上,进行…

关于SVN安装目录下,没有svn.exe程序的解决

关于SVN安装目录下,没有svn.exe程序的解决 原因: 产生这个问题的原因是由于我们在安装svn时,默认缺少一项导致的,我们只需要再重新安装一下即可(不需要卸载) 双击安装文件后,选择Modify 2.勾选command line client tools项,选择第一个(默认是最后一个) 3.选择完成后,我们直…

SVN安装和使用详细教程

一、SVN 服务器和客户端安装 1、安装服务器程序:VisualSVN-Server-1.6.4.msi。 2、安装客户端程序TortoiseSVN:TortoiseSVN-1.6.4.16808-win32-svn-1.6.4.msi,完成安装后,重新启动机器。 3、安装客户端语言包:Languag…

SVN安装与使用教程

为什么要使用SVN? 程序员在编写程序的过程中,每个程序员都会生成很多不同的版本,这就需要程序员有效的管理代码,在需要的时候可以迅速,准确取出相应的版本。 SVN的安装(可参考SVN服务器搭建(一) - Yanky …

【SVN】windows SVN安装使用教程(服务器4.3.4版本/客户端1.11.0版本)

介绍 这里是小编成长之路的历程,也是小编的学习之路。希望和各位大佬们一起成长! 以下为小编最喜欢的两句话: 要有最朴素的生活和最遥远的梦想,即使明天天寒地冻,山高水远,路远马亡。 一个人为什么要努力&a…

SVN安装步骤及在IDEA中配置

SVN安装步骤及在IDEA中配置 1、下载 首先进入官网:https://www.visualsvn.com/visualsvn/ 其次 找到Download 按钮 然后找到Prerequisite Software: TortoiseSVN,在右边找到对应的版本进行下载。 2、安装 svn的安装比较简单,可以直接一路next安装,但是也需要注…

linux之SVN安装

什么是SVN SVNSVN是subversion的缩写,,用于多个人共同开发同一个项目,实现共享资源,是全球应用最广泛的集中式管理工具。 1.通过yum命令安装svnserve yum -y install subversion 2.进入/var目录,创建SVN目录 mkdir…