2019疫情海量数据挖掘分析与可视化实战(源码数据见附件)

article/2025/9/29 15:30:07

海量数据挖掘分析与可视化实报告

课程名称:海量数据挖掘分析与可视化实战

实训学期  2021-2022学年第二学期      

实训时间:        第16周               

专    业    数据科学与大数据技术      

    级:     19大数据四班             

实验目的和与要求

  • 掌握数据预处理技术过程
  • 掌握数据综合性分析流程
  • 掌握数据挖掘分析流程
  • 掌握数据可视化技术方法

实验总体要求如下:

所有流程附上处理代码和处理完成截图

    

  • 数据预处理与导入

1、2019_nCoV_data.csv是2020年1月-3月世界新冠疫情的数据,要求对2019_nCoV_data.csv进行数据预处理做以下操作,要求

1.Sno编号列没有用,需要删除

2.部分国家对应的地区为NAN,需要填充为空白字符串

3.部分国家/地区,受感染人数为0,也被列在表格中,需要删去

4.查看受影响的国家/地区的数量,Country一列中将'Mainland China', 'Hong Kong' , 'Macau',  'Taiwan' 等统一修正为'China';另外需将'Korea, South'改为'South Korea'。

2.对于DXYArea.csv也需要进行数据预处理,要求做以下操作

1.由于数据国内省级行政区中香港、澳门、台湾的数据都是按省统计的,因此需要将这三个地区的province_confirmedCount、province_suspectedCount、province_curedCount、province_deadCount的数据赋值到city_confirmedCount、city_suspectedCount、city_curedCount、city_deadCount。

2.countryEnglishName一列中将 'HongKong' , 'Macao'等统一修正为'China' 

3.将updateTime转换成date格式(输出为该数据的新列updateTime1,也就是只保留日期部分)。

4.因为大部分城市都没有加“市”字,所以要把直辖市的下属区的“区”字去掉;还有一些没有变化规律的城市名字,可以通过city_rename的字典进行修改。

3、观察处理后的2019_nCoV_data.csv发现,这个原始表格每天会把最新的数据更新在表格最后,而且并不是每天每个国家都会更新数据,所以需要筛选出每个国家的最新数据

(1)将Date转化为datetime格式,方便操作后面进行时间的比较。

  1. 按国家+城市字段分组,方便进行时间上的筛选。

4、通过以上处理,经查看后又发现一个问题,比如Australia,一开始是以国家为单位报数据,之后又分成小区域报数据,会导致计算重复,所以要删除这部分数据;但也不能直接删,因为不知道有多少国家的数据有这个问题。

(3)筛选出国家对应的城市字符串为空,且该国家下的城市(包括空字符串)数量大于一 的数据,删除这些数据。

5、对预处理后的DXYArea.csv数据也需要进行最新数据提取工作

  • 二、数据分析与挖掘阶段

1.普通数据分析

1.根据2019_nCoV_data.csv预处理后的数据,查看2020年1月-3月最新数据中,除中国外世界各国总感染数据,找出前top10的国家

2.根据处理后的DXYArea.csv查看全国各省确诊病例数量,统计相关信息。

 

3.根据处理后的DXYArea.csv统计全国总体累计趋势。

4.根据处理后的DXYArea.csv,找出你关注的几座城市统计各城市总体累计趋势。

5.根据处理后的DXYArea.csv,自选我国的一个省,查看该省内各市的确诊比例。

6.根据处理后的DXYArea.csv,筛选除湖北省外其他各地区确诊病例数量,找出前top10的城市,统计相关信息。

7.筛选除湖北省外其他各省确诊病例数量,找出前top10的省份,统计相关信息。

2.数据挖掘阶段

8.请预测2020年6月份哪些国家的确诊人数最多、死亡人数最多,分别是多少。

 

  • 三、疫情数据可视化大屏制作

(1)选取6个及以上分析指标数据进行疫情数据可视化大屏制作;

(2)利用Javaweb或Flask/Django框架等+Echarts实现以上可视化。

 

(实验中出现的问题及解决方法)本次实验数据预处理部分做着较为吃力,时间过长遗忘知识点太多,通过复习课本和在网上查阅资料等途径边学边用解决了数据处理难等问题,攻克了一个又一个的知识盲点,扫平了一个又一个的知识盲区,在可视化大屏制作中我也学到了很多有用的知识,巩固了课本知识点,锻炼了自己的动手能力,丰富了自己的学识,帮助自己在大数据的学习中更上一层楼。


http://chatgpt.dhexx.cn/article/8KZAIdvy.shtml

相关文章

数字MIC(es7202 PDM协议)MIC录音声音较小

问题:我司有个项目,android 11 rk3566 的项目,该项目带audio 模块,项目MIC 使用的es7202(ADC),该芯片是一个编码芯片,没有解码功能,该模块的录音的增益已经调到最大,但录入的MIC音量…

麦克风MIC 工作原理以及灵敏度调整

1、先看MIC电路连接 这是个差分输入的例子,MICP2和MICN2是一对差分信号,经过C156的滤波,输入到MIC两端 MIC两引脚分别是到地和供电,上图的R177参数就关系到MIC输入的灵敏度 2、电阻R177影响灵敏度分析 MICBIAS是提供MIC的偏置电压…

WO Mic -免费话筒

原文:https://wolicheng.com/womic/ WO Mic -免费话筒 一、特点 WO Mic 可以把你的手机变成电脑的麦克风。您无需支付一分钱即可购买任何小工具。如果您选择无线传输,它就是移动的。数以百万计的人安装了它,并且每天都在使用它进行通话、录…

麦克风测试指标术语

麦克风测试指标术语 1. dB 2. 谐波 3. THD 4. 灵敏度 5. 频率响应 6. 本底噪音 7. 持续中。。。 1,dB 多数的麦克风技术指标里最基础的就是dB 的单位。分贝是一个相对数,等同于人耳在声音的压力下感到的变化曲线。此外,分贝的变化是很…

浅析硬件“好声音”:麦克风技术指标及选型指南

如今大多数IoT类设备都具有语音唤醒和声控的功能,如天猫精灵、百度音箱等。 这类设备中都集成了麦克风和喇叭等电声器件,其中麦克风用于识别用户的声音,喇叭用于播放设备对用户指令的反应。麦克风的性能是影响语音唤醒率高低的重要因数&…

麦克风概述

麦克风可以将声音的变化通过特定的机制转换为电压或者电流的变化,再交给电路系统进行处理。声音的强度,通过声压表示,对应电压或电流的幅值;声音变化的快慢,则对应电信号的频率。 声压级和距离的关系:其中…

硬件参数 调整 麦克风MIC灵敏度 原理

1、先看MIC电路连接 这是个差分输入的例子,MICP2和MICN2是一对差分信号,经过C156的滤波,输入到MIC两端 MIC两引脚分别是到地和供电,上图的R177参数就关系到MIC输入的灵敏度 2、电阻R177影响灵敏度分析 MICBIAS是提供MIC的偏置电…

浏览器检测麦克风音量

开发直播类的Web应用时在开播前通常需要检测设备是否正常,本文就来介绍一下如果如何做麦克风音量的可视化。 AudioWorklet出现的背景 做这个功能需要用到 Chrome 的 AudioWorklet。 Web Audio API 中的音频处理运行在一个单独的线程,这样才会比较流畅。…

最大信息系数(MIC)

童鞋们觉得文章不错,就麻烦点一下下面人工智能的教程链接吧,然后随便翻阅一下 https://www.captainbed.net/qtlyx MIC(Maximal information coefficient)一个很神奇的东西,源自于2011年发在sicence上的一个论文。 学…

麦克风基础参数

麦克风由Microphone读音翻译的,正确的翻译为微音器,或者称拾音器,传声器。我们的咪芯其实就是一只麦克风,只不过属于半成品。给它加网罩,手柄,开关,导线就成了一支完整的麦克风了。 我们生产的…

mic的灵敏度和声音的大小

今天查看麦克风的一些资料,发现这个博客写得很好,不知道这样转载是否可以。 mic的灵敏度和声音的大小 我对于mic的灵敏度一直无法说出其准确定义的表述。我看过mic的sepc上面都是标注的负的多少dB,比如-42dB。所以我一直认为-30dB的mic的灵…

MIC(最大信息系数)

MIC 我在论文使用MIC来衡量两个基因之间的关联程度,线性或非线性关系,相较于Mutual Information(MI)互信息而言有更高的准确度巴拉巴拉的,按作者的话说总之比其他的方式好。 原文参照: Detecting Novel As…

MIC相关基础知识

一、mic及声音的指标: (1)声音的分贝(dB) 分贝 Decibel 分贝(dB)是一个对数单位(logarithmic unit), 它和很多常见的单位如“米”,“秒”或者“千克”等物理单…

MIC - 最大信息系数

MIC 文章目录 MIC前言MIC介绍MIC库Python实例MIC缺陷参考文章 前言 皮尔逊相关系数即我们通常说的(线性)相关系数,是用来反映两个变量线性相关程度的统计量,变化范围为-1到1。 系数的值为1意味着X和Y可以很好的由直线方程来进行描述,所有的…

MIC:最大信息系数

目录 1. 概念 1.1 MIC 1.2 互信息 2. MIC的优点 3. 算法原理 3.1 MIC公式原理 3.2 MIC计算步骤 (1)计算最大互信息值 (2)对最大的互信息值进行归一化 (3)选择不同尺度下互信息的最大值作为MIC值…

MIC 的指标解读

MIC 的指标解读 1.Sensitivity 灵敏度 麦克风是支持以声压信号为输入,最后转换为电信号的传感器。sensitivity是microphone 能够capture的最小声压信号,声压信号的单位为dBSPL.sensitivity 是ratio ,是模拟输出电压或者数字输出值对于输入的…

MIC一般参数指标

SNR>68dB&#xff0c; 灵敏度>-34dB&#xff0c;频响范围&#xff1a;/-3dB &#xff08;300Hz-3kHz&#xff09;&#xff1b;失真度&#xff1a;<3% 麦克风的灵敏度高好还是低&#xff0c;要根据你使用的条件来选择。如果声源离麦克风较远&#xff0c;需用灵敏度高的…

Maximal Information Coefficient (MIC)最大互信息系数

MIC 我在论文使用MIC来衡量两个基因之间的关联程度&#xff0c;线性或非线性关系&#xff0c;相较于Mutual Information&#xff08;MI&#xff09;互信息而言有更高的准确度巴拉巴拉的&#xff0c;按作者的话说总之比其他的方式好。 原文参照&#xff1a; Detecting Novel A…

R+树

考虑R树的性能&#xff0c;其中覆盖(coverage)和重叠(overlap)两个概念很重要&#xff0c;因为R树查询是根据给定区域与当前MBR是否有交叉来判断, 因此覆盖和重叠都应当尽量小 覆盖小即MBR要小&#xff0c;最好刚好包围其中的数据点 (对于叶节点)或子MBR (对于非叶节点) 重叠…

R树及其应用场景

地理围栏&#xff08;Geo-fencing&#xff09;是LBS的一种应用&#xff0c;就是用一个虚拟的栅栏围出一个虚拟地理边界&#xff0c;当手机进入、离开某个特定地理区域&#xff0c;或在该区域内活动时&#xff0c;手机可以接收自动通知和警告。如下图所示&#xff0c;假设地图上…