开源项目_springboot的答题系统+spark大数据实时分析

article/2025/9/15 8:47:43

一、项目展示

       在这里,主要展示大数据图表分析的几个页面。更多精彩由您自己发掘!

图1 饼状图
图2 堆叠图
图3 柱状图

二、项目介绍

本项目分为两个模块,第一个为java语言基于springboot实现的答题模块,另一个为scala语言基于spark开发的日志分析模块

1、答题模块

       基于SSM框架实现,具体使用的技术有:spring,springMVC,mybatis,redis等,使用的数据库为:mysql数据库。
       用户输入学号、姓名等相关信息即可完成登陆(未注册自动注册),然后进入答题界面参与答题,答题结束后显示成绩,然后引导跳转到大数据实时展示页面。上述这些操作都将被日志文件记录下来,保存在日志文件内。
       当有新的数据插入或者更新mysql的时候,本模块的websocket能在100ms内把最新的数据广播给当前左右在线的浏览器,反之如果数据库没有新数据插入,那么短时间内则不会自动广播。

2、scala数据分析模块

       基于spark实现,具体使用的技术由,kafka,flume,spark,redis,zookeeper等,使用的数据库为mysql。
       首先flume负责采集日志文件中的日志信息,转交给kafka,再由spark程序来消费,清洗、分类、分析聚合后写入数据库。
       当有新数据写入mysql的时候,本模块会利用redis引导答题模块用websocket技术实时往当前在线浏览器推送最新数据。从访问到浏览器刷新,整个流程延迟在1-2秒左右。

三、项目说明

1、源代码下载地址

       下载链接:https://pan.baidu.com/s/188VaxHtI7eFsIbJHnrrvbA 提取码:5jsp

2、开发环境

       虚拟机版本:centos8
       编译器:idea 2020.1.3
       数据库:mysql 5.7
       答题模块:见pom.xml文件
       kafka版本:kafka_2.12-2.5.0.tgz
       flume版本:apache-flume-1.9.0-bin.tar.gz
       spark版本:spark-3.0.0-bin-hadoop3.2.tgz
       zookeeper版本:apache-zookeeper-3.6.1-bin.tar.gz

3、项目运行流程

准备工作:
       ①导入mysql.sql文件,将数据库和表建好。
       ②修改两个模块的数据库连接四要素,以及redis的连接密码等信息。
       ③将两个模块的代码打包发到linux操作系统。
       ④启动zookeeper集群和kafka集群

启动项目:
①进入kafka根目录创建kafka主题(需对中间参数做必要修改)
       bin/kafka-topics.sh --create --zookeeper hadoop1:2181 --replication-factor 1 --partitions 1 --topic solvingProblem
注意:若要修改topic,记得整个项目都全部改。

②启动kafka消费数据
       bin/kafka-console-consumer.sh --bootstrap-server hadoop:9092 --topic solvingProblem

③进入flume根目录启动flume采集日志文件
       bin/flume-ng agent -n a1 -c conf/ -f ./flume.conf

④启动答题模块的springboot项目
       nohup java -jar solvingProblem.jar >/root/log/run.log 2>/root/log/error.log &
日志文件保存在/root/log/run.log内,错误日志保存在/root/log/error.log内。若要改路径,记得把flume.conf中的路径也一起改了。

⑤进入spark根目录启动spark,对日志文件进行实时分析
       bin/spark-submit --class com.hut.anli.Solving --master local[*] /root/Anli.jar

项目预览:
       当你成功的完成了上述步骤之后,你就可以在浏览器输入你虚拟机的IP加8080端口,即可访问该项目了。

四、项目后记

       学大数据已经有3个来月了,一直没有写过能解决实际问题的项目。直到上周,一个社团的负责人找到我说,让我帮忙写个网页答题系统,用于社团在12月13日国家公祭日,铭记历史告慰亡灵的一次活动。因为上半年我刚好完java后端这一块,这对于我来说基本没啥问题,并且我也曾经是该社团的负责人之一,于是我就答应了。

       他只跟我说了要做一个网页答题系统,其他的信息让我自己构思与设计。于是我想了想,网上答题怕是有至少一两千人参加吧,并发量会不会很高啥的,我有想过借用朋友的服务器和我自己的服务器搞一个集群部署,防止服务器扛不住压力而宕机,还有啥校园内网、公网相结合部署的方式顿时出现在了我的脑海中…

       一想到这些我还是很慌的,因为我从来都没有做过如此大规模的项目,集群部署我只看过、学过但并没有自己亲手操作过,当时我没顾那么多,走一步看一步的心态写下去了。后面当我写前端页面的时候,我跟他们要了一份活动策划书参考点文案,当我拿到活动策划书的时候,我顿时松了口气,活动人数就300,害,人这么少压根不需要集群部署啊,一台机器就够了,于是我花了两天的时间把答题系统写完,然后进行了基础的bug测试,目测可以上线使用了。

图4 项目首页图1
图5 项目首页图2
图6 答题返回页面
       然后写完后,我总觉得我最近这两三个月学的hadoop和spark这两个生态圈的相关技术可以运用上来,我构思了大概半个小时,于是我决定使用scala语言写一个实时处理日志文件的系统出来,用于实时展示答题系统的各项指标。

       由于我是第一次开发大数据综合项目,然后对前面学的的知识记得不是很清楚,又要对多个组件进行整合,这个模块花了我大概5天的时间才完成,下面详细说说这几天开发的内容。

       皮这一下很开心,哈哈哈哈嗝!!!
在这里插入图片描述
       首先就是配置flume的相关参数,因为从文本中获取数据,所以这里使用sources的类型是exec;然后就是对channel的选择,由于是做实时统计系统,追求低延迟,又加上数据量不是特别大,所以这里我选择的是memory channel;对于最后的sink无意就是kafka sink了。sources、channel和sink,他们三个的类型都特别多,因此根据实际的需求使用相对更合适的类型就显得尤为重要了。

       接着是处理kafka,这一步工作量比较少,创建一个solvingProblem的topic,再开启kafka控制台消费即可,其实你不开也没关系,但是你开了,能在控制台看到程序运行的状态,比如报错等信息,你能立马发现。

       后面在系统正式交给社团使用的时候,当时是晚上将近23点了,由于我实时盯着kafka在console输出的信息,当我发现了异常后,及时通知正在答题的同学让他们停止答题,将系统下线进行bug调试修改,经过半个小时的紧急修复,才避免了当时正在作答的同学的信息丢失问题。
在这里插入图片描述
       再然后是编写scala程序,利用kafka的API开发,数据生产在虚拟机上,将获取到的数据进行清洗、分类,这个过程需要非常细心并且如何选择转换算子去转换,在大数据中也大有讲究,这一步骤写的好坏,将直接影响写出来的程序的执行效率问题。写好之后,打成jar包发到Linux备用。在这个过程中,你需要知道转换算子和执行算子的工作方式,以及他们的特性。并且,在什么时候,什么地方,使用哪个算子将分析好的数据插入数据库,以及什么时间点修改redis中的变量的值,好让答题模块直到你改数据了,好及时往前端广播最新的数据,这些都大有讲究!

在这里插入图片描述

       最后就是对他们进行一连串的整合了,回顾一下,数据的来源以及数据的走向,中间的组件启动命令什么,这些我都要记住,记不住就写在本子上,防止慌慌张张忘了就尴尬了。按照上面的步骤把系统启动之后,系统答题的功能,基本就实现了。但你的项目部署在Linux虚拟机上,想让学校内网中的其他同学访问还是不行的,因此我在我宿主机上装了个nginx请求转发,这里涉及到http和websocket两种请求的转发,把宿主机上nginx启动之后,才真正的把项目做好。

       在项目运行之后,我电脑内存已经达到85%左右了,但我还是顶着内存爆炸的风险,使用jmeter做了一次服务器压力测试,结果还算比较乐观,1000个线程在1秒内循环发送5个请求服务器运行正常,到此本系统就算开发完成。并且我也在今天中午14点成功的完成对本系统的维护,将数据库收集到的数据教导社团负责人手中,认真负责的完成了开发人员和维护人员的任务。

       最后,谢谢你的浏览。如果你觉得我写的好的话,可以关注一下我,我近期还会更新一些关于大数据分析的开源项目。


http://chatgpt.dhexx.cn/article/Qg4KLiWB.shtml

相关文章

Spark大数据开发技术简介

Spark大数据开发技术简介 轻量级的内存集群计算平台 文章目录 Spark大数据开发技术简介历史沿革Spark的优点对比Apache Spark堆栈中的不同组件基本原理架构组成部署和体系结构Spark运行模式 页面 历史沿革 Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架最…

【大数据】【Spark】Spark概述

由于Spark程序的编写最好使用Scala语言,可参照博主以下Scala入门文章 链接:https://blog.csdn.net/treesorshining/article/details/124697102 文章目录 1.Spark概念2.Spark与Hadoop的关系1.从时间节点上来看2.从功能上来看 3.Spark与Hadoop的比较4.Spar…

Spark大数据系列教程持续更新

Spark大数据系列教程 想学习大数据的福利来了,由于近期工作繁忙,本人已将自己学习大数据的过程陆续开始更新: Spark大数据系列:一、RDD详解Spark大数据系列 二、Spark入门程序WordCount详解(Scala版本)Spark大数据系列&#xff…

大数据面试题——spark

文章目录 讲一下spark 的运行架构一个spark程序的执行流程讲一下宽依赖和窄依赖spark的stage是如何划分的Spark的 RDD容错机制。checkpoint 检查点机制?RDD、DAG、 Stage、 Task 、 Job Spark的shuffle介绍Spark为什么快,Spark SQL 一定比 Hive 快吗Spar…

引爆Spark大数据引擎的七大工具

原文名称:7 tools to fire up Sparks big data engine Spark正在数据处理领域卷起一场风暴。让我们通过本篇文章,看看为Spark的大数据平台起到推波助澜的几个重要工具。 Spark生态系统众生相 Apache Spark不仅仅让大数据处理起来更快,还让大…

大数据面试题Spark篇(1)

目录 1.spark数据倾斜 2.Spark为什么比mapreduce快? 3.hadoop和spark使用场景? 4.spark宕机怎么迅速恢复? 5. RDD持久化原理? 6.checkpoint检查点机制 7.checkpoint和持久化的区别 8.说一下RDD的血缘 9.宽依赖函数&#…

大数据_Spark常见组件

Spark 是一个分布式数据处理引擎,其各种组件在一个集群上协同工作,下面是各个组件之间的关系图。 Spark驱动器 作为 Spark 应用中负责初始化 SparkSession 的部分,Spark 驱动器扮演着多个角色:它与集群管理器打交道;它…

大数据Spark框架

Spark 是一种基于内存快速、通用、可扩展的大数据分析计算引擎。 Spark 优势: Spark核心单元RDD适合并行计算和重复使用;RDD模型丰富,使用灵活;多个任务之间基于内存相互通信(除了shuffle会把数据写入磁盘&#xff0…

Windows下的Spark环境配置(含IDEA创建工程--《Spark大数据技术与应用》第九章-菜品推荐项目)

文章目录 前言一、下载资源二、本地配置步骤1.解压2.引入本地环境3.启动HADOOP文件4.进行Spark测试 三、IDEA引入Spark项目1.idea按照scala插件2.新建scala项目3.配置项目4.新建scala类 前言 本文适用于《Spark大数据技术与应用》第九章-菜品推荐项目环境配置: 跟…

Spark开发:Spark大数据开发编程示例

大数据开发人员,根据企业大数据处理的需求,进行大数据平台系统的搭建,比如说Hadoop,比如说Spark,而不同的大数据处理框架,采取不同的编程语言和编程模型,这就需要技术开发人员要掌握相关的技术。…

《Spark大数据技术与应用》肖芳 张良均著——课后习题

目录 教材知识汇总课后习题第一章 Spark概述Spark的特点Spark生态圈Spark应用场景 第二章 Scala基础匿名函数SetMapmapflatMapgroupBy课后习题 第三章 Spark编程教材52页任务3.2及之后的任务 重点复习sortBy排序collect查询distinct去重zip实训题实训1实训2选择题编程题 第四章…

Spark大数据技术与应用 第一章Spark简介与运行原理

Spark大数据技术与应用 第一章Spark简介与运行原理 1.Spark是2009年由马泰扎哈里亚在美国加州大学伯克利分校的AMPLab实验室开发的子项目,经过开源后捐赠给Aspache软件基金会,成为了Apache Spark。由Scala语言实现的专门为大规模数据处理而设计的快速通用…

大数据之Spark:Spark 基础

目录 1、Spark 发展史2、Spark 为什么会流行3、Spark 特点4、Spark 运行模式 1、Spark 发展史 2009 年诞生于美国加州大学伯克利分校 AMP 实验室; 2014 年 2 月,Spark 成为 Apache 的顶级项目; Spark 成功构建起了一体化、多元化的大数据处…

大数据之spark详解

目录 什么是spark: 功能历史上和hadoop的区别: spark的五大核心模块: ➢ Spark Core 什么是spark: 简单一点Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。属于mapreduce的加强版本,结合了其优点…

09.大数据技术之Spark

文章目录 一、Spark概述1、概述2、Spark特点 二、Spark角色介绍及运行模式1、集群角色2、运行模式 三、Spark集群安装1.Local模式1.下载文件2.解压缩3、修改配置文件4.配置环境变量5.启动服务6.启动客户端 2.Standalone模式1.停止服务2.修改配置文件spark-env.sh3.修改配置文件…

大数据框架之Spark详解

目录 1 Spark概述1.1 Spark是什么?1.2 Spark内置模块1.3 Spark 特点 2 RDD概述2.1 什么是RDD?2.2 RDD的属性2.3 RDD特点2.4 弹性体现在哪?2.5 分区2.6 分区2.7 依赖2.8 缓存2.9 CheckPoint 1 Spark概述 1.1 Spark是什么? Spark是…

大数据学习 之 Spark 概述

文章目录 一、Spark简介Spark与Hadoop的区别部署模式 二、 Spark架构1.Driver2.Executor3.Master & Worker4.Cluster manager5.ApplicationMaster补充点:Stage执行过程 三、Shuffle机制shuffle介绍Shuffle的影响导致Shuffle的操作 四、RDD(弹性分布式…

大数据技术---Spark

一、Spark简介 1、Spark概述 Spark:由美国加州伯克利大学的AMP实验室于2009年开发,基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。 三大分布式计算系统开源项目:Hadoop、Spark、Storm。 Spark的…

KB、MB、GB等和KiB、MiB、GiB等的区别

今天装系统RHEL7.7,在分区时发现单位变成MiB、GiB了,有点奇怪就查了查。 区别: KB、MB、GB等单位以10为底数的指数 KiB、MiB、GiB等单位是以2为底数的指数 如:1KB10^31000, 1MB10^610000001000KB,1GB10^910000000001000MB,而 …

asset size limit: The following asset(s) exceed the recommended size limit (244 KiB).

webpack打包提示文件体积过大导致: The following asset(s) exceed the recommended size limit (244 KiB). This can impact web performance. entrypoint size limit: The following entrypoint(s) combined asset size exceeds the recommended limit (244 Ki…