14个开源数据分析项目,附数据集下载链接!

article/2025/9/27 0:39:53

对于那些对数据,数据分析或数据科学感兴趣的人,提供一份可以利用业余时间完成的数据科学项目清单,一共14个!

项目分为三种类型:

  • 可视化项目

  • 探索性数据分析(EDA)项目

  • 预测建模

可视化项目

最容易上手的就是数据可视化, 以下3个数据集可以用于创建一些有意思的的可视化效果并加到你的简历中。

1. 新冠病毒可视化

学习如何使用Plotly构建动态可视化数据,展示冠状病毒是如何在全球范围内传播的。Plotly很好用,它可以做动态可视化,好看且操作简单。

难易程度:

数据集:

https://www.kaggle.com/sudalairajkumar/novel-corona-virus-2019-dataset

教程:

https://towardsdatascience.com/visualizing-the-coronavirus-pandemic-with-choropleth-maps-7f30fccaecf5

2. 澳洲大火数据可视化

2019-2020年的丛林大火季,也称为黑色夏天,由2019年6月开始的几场极端野火组成的。据维基百科统计,这场大火烧毁了约1,860万公顷的土地和5,900多座建筑物。

这是一个有趣的项目,可以利用Plotly或Matplotlib数据可视化工具来可视化野火的规模和对地理的影响。

难易程度:

数据集:

https://www.kaggle.com/carlosparadis/fires-from-space-australia-and-new-zeland

3. 地表温度可视化

你是否怀疑过全球变暖的观点?创建一些数据可视化效果,显示地球表面温度如何随时间变化,并可以通过创建折线图或其他动画的Choropleth贴图来实现!也可以创建一个预测模型来预测未来五十年内地球的温度。

难易程度:⭐⭐

数据集:

https://www.kaggle.com/berkeleyearth/climate-change-earth-surface-temperature-data/kernels

探索性数据分析项目

探索性数据分析(EDA),也称为数据挖掘,意思是数据分析过程中使用了多种技术来更好理解数据。

1. 纽约Airbnb数据挖掘

自2008年以来,Airbnb使游客和房东出行更方便,提出更多个性化的体验世界的方式。该数据集包含有关2019年纽约出租的信息以及包含其地理信息,价格,评论数量等。

可以分析的一些角度如下:

  • 哪些区域生意最好,为什么?

  • 哪些区域的流量比其他区域大,为什么?

  • 价格,评论数量和预订天数之间是否存在一些关系?

难易程度:⭐⭐⭐

数据集:

https://www.kaggle.com/dgomonov/new-york-city-airbnb-open-data

2. 哪些因素与员工离职和绩效有关

IBM公开了一个综合数据集,可以使用它来了解各种因素如何影响员工的流失率和满意度。一些变量包括教育程度,工作相关性,绩效评估和工作生活平衡程度等。

分析此数据集,找到任何确实影响员工满意度的变量,另外,还可以看看是否可以对变量进行重要程度排名。

难易程度:

数据集:

https://www.kaggle.com/pavansubhasht/ibm-hr-analytics-attrition-dataset

3. 世界大学排名

你认为你的国家拥有世界上最好的大学吗?成为“最好”大学的衡量标准是什么?该数据集包含三个全球大学排名方式。使用此数据,你是否可以回答以下问题:

  • 顶尖的大学都在哪些国家?

  • 决定世界排名的主要因素是什么?

难易程度:

数据集:

https://www.kaggle.com/mylesoneill/world-university-rankings

4. 饮酒与在校表现

喝酒会影响学生的成绩吗?如果不会,那有什么别的影响吗?这个数据是从中学数学和葡萄牙语课程的学生进行的一项调查中获得的。它包含几个变量,例如饮酒量,家庭人数,参与课外活动。

利用这些数据,挖掘学校成绩与各种因素之间的关系。另外,看看是否可以根据其他变量来预测学生的成绩!

难易程度:

数据集:

https://www.kaggle.com/uciml/student-alcohol-consumption

5. 宠物小精灵数据挖掘

对所有游戏玩家来说,这是一个包含来自七代802个 Pokemon的信息数据集。试着回答以下几个问题!

  • 哪一代宠物小精灵最强?哪代最弱?

  • 哪种类型神奇宝贝最强?哪种最弱?

  • 能否建立分类器来识别神奇宝贝?

  • 身体特征与力量状态(进攻,防守,速度等)之间是否有相关性?

难易程度:

数据集:

https://www.kaggle.com/rounakbanik/pokemon

6. 探索影响预期寿命的因素

世卫组织建立了一段时间内所有国家健康状况的数据集,其中包括预期寿命,成人死亡率等方面的统计数据。使用此数据集,探索各种变量之间的关系,预测对预期寿命的最大影响因素是什么?

请尝试回答以下问题:

  • 最初选择的各种预测因素是否真的影响预期寿命?实际影响预期寿命的预测变量有哪些?

  • 预期寿命值低于(<65)的国家是否应该增加其医疗保健支出以改善其平均寿命?

  • 婴儿和成人死亡率如何影响预期寿命?

  • 预期寿命与饮食习惯,生活方式,运动,吸烟,饮酒等是正相关还是负相关?

  • 是否接受教育对人类寿命有何影响?

  • 预期寿命与饮酒是正相关还是负相关?

  • 人口稠密的国家的预期寿命是否有降低的趋势?

  • 免疫覆盖率对预期寿命有什么影响?

难易程度:

数据集:

https://www.kaggle.com/kumarajarshi/life-expectancy-who

预测模型

1. 能源消耗的时间序列预测

该数据集由美国区域传输组织PJM网站上的功耗数据组成,使用此数据集,查看是否可以构建时间序列模型来预测能耗。除此之外,还可以查看是否可以找到一天中每个小时的趋势,假日用电量以及长期趋势!

难易程度:⭐⭐⭐⭐

数据集:

https://www.kaggle.com/robikscube/hourly-energy-consumption

2. 贷款预测

该数据集取自Analytics Vidhya,包括 615行和13列有关已批准和尚未批准的历史贷款信息。你是否可以创建一个模型来预测贷款是否会获批。

难易程度:

数据集:

https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/

3. 二手车价格计算器

Craigslist是全球最大的二手车经销商,该数据集由Craigslist的抓取数据组成,每隔几个月更新一次。使用此数据集,查看是否可以创建一个数据集来预测一辆汽车价格是否被高估或低估了。

难易程度:⭐⭐⭐

数据集:

https://www.kaggle.com/austinreese/craigslist-carstrucks-data

4. 信用卡欺诈检测

  

该数据集显示了两天内发生的交易,其中284,807笔交易中有492笔欺诈。数据高度正态分布,欺诈占所有交易的0.172%。学习如何使用不正态的数据集并建立信用卡欺诈检测模型。

易程度:⭐⭐⭐⭐

数据集:

https://www.kaggle.com/janiobachmann/credit-fraud-dealing-with-imbalanced-datasets

5. 皮肤癌图像检测

通过10,000多张图像来构建神经网络来检测皮肤癌。这绝对是最难的项目,需要有关神经网络和图像识别的储备知识。

难易程度:⭐⭐⭐⭐⭐

数据集:

https://www.kaggle.com/kmader/skin-cancer-mnist-ham10000

End.

编译:张大笔茹、夏雅薇

来源:medium

大数据文摘出品


http://chatgpt.dhexx.cn/article/uvdU4q91.shtml

相关文章

GIS数据在哪里下载

根据数据的不同类型&#xff0c;本次数据合集将数据分为七个部分&#xff0c;包括空间地理数据、自然灾害数据、天气气候数据、人口统计数据、海洋环境数据、生态环境数据和战争统计数据。 闲话不多说&#xff0c;开始我们的网站合集&#xff01; 1 空间地理数据 名称&#…

数据库的下载

MySQL数据库的下载 MySQL官方提供了两个不同的版本&#xff1a; 1、社区版 &#xff08;MySQL Commimity Server&#xff09;免费&#xff0c;MySQL不提供任何技术支持&#xff08;本文操作选用社区版&#xff09; 2、商业版&#xff08;MySQL Enterprise Edition&#xff09;…

Harvard Dataverse 数据批量下载

最近看论文&#xff0c;看到了自己需要的数据&#xff0c;就想着下载下来&#xff0c;结果发现这个东西并不好下载&#xff0c;也可能是自己的知识存储不够&#xff0c;捣鼓了一天&#xff0c;终于下载下来了。这里记录一下&#xff0c;方便以后查阅。 Harvard Dataverse 数据批…

NASA全球GPM免费降雨数据下载(2021年11月更新)

文章目录 前言一、申请注册NASA Earth Data账户二、查找数据三、开始下载0.下载前言1.站点管理2.添加Edge浏览器代理 总结 前言 NASA提供的免费地学数据简直是造福社会和广大科研工作者&#xff0c;不得不说这些方面我们仍需努力。 回归正题&#xff0c;提到高精度的历史降水数…

Landsat数据下载(批量下载)

隶属于美国地质调查局&#xff08;USGS&#xff09;的Landsat卫星&#xff0c;从20世纪70年代开始&#xff0c;提供了大量的卫星遥感数据。目前仍然在轨运行的Landsat系列卫星为Landsat-8和Landsat-9。 数据下载网站为&#xff1a;https://earthexplorer.usgs.gov/ 在该网站&a…

气象数据下载网站(存档)

https://www.cnblogs.com/icydengyw/p/12664027.html 1、http://weather.uwyo.edu/upperair/seasia.html 需要提前查明站点ID 2、https://rp5.ru/ 3、http://www.meteomanz.com/ 2005年至今&#xff0c;包含原始报文&#xff0c;数据十分详细 4、http://data.cma.cn/ 中…

全球地震数据下载方法

美国地质调查局地震数据 这份数据是美国 1977 年设立USGS 地震灾害计划&#xff0c;由美国地质调查局及其合作伙伴监测和报告地震&#xff0c;评估地震影响和危害&#xff0c;并对地震的成因和影响进行研究。 数据下载网址如下&#xff0c;访问该网站需要魔法 https://earthqua…

GEO数据下载方法

方法一&#xff1a;直接从官网下载&#xff0c;手动 GEO&#xff08;GENE EXPRESSION OMNIBUS&#xff09;&#xff0c;https://www.ncbi.nlm.nih.gov/geo/&#xff0c;由美国国立生物技术信息中心NCBI创建维护的&#xff0c;是个公开的基因数据库&#xff0c;包含了测序和芯片…

Landsat数据下载

Landsat数据下载步骤 0 Landsat数据介绍1 下载地址2 下载步骤2.1 检索数据2.1.1 设置地点&#xff0c;有多种方法2.1.2 选择时间范围2.1.3 在Data Sets界面选择传感器&#xff08;卫星或者传感器的名称&#xff09; 2.2 限定云量2.3 下载数据 这是个老生常谈的话题了&#xff0…

Earthdata(NASA)网站数据使用IDM(Internet Download Manager)下载器批量下载方法(MERRA-2为例)

最近给亲近的人写了教程&#xff0c;想着也给大家分享一下。 MERRA-2 网址&#xff1a; GES DISC 这个网址是下载MERRA-2 instM_3d_asm_Np类型的数据文件&#xff0c;具体各部分字母代表什么&#xff0c;看下载列表中的MERRA2.README.pdf。 1. 打开网址&#xff0c;注册账号。…

下载数据

下载数据 如今的社会的信息已经不能用氢弹大爆炸来形容了&#xff0c;信息的海量&#xff0c;多的难以置信&#xff0c;且大多未经过仔细检查&#xff0c;所以就需要对信息进行分析。 接下来我们将可视化两种常见格式存储的数据&#xff1a;CSV和JSON。 将使用Python模块csv来…

常见目标跟踪数据集下载链接整理(更新中)

搜罗一下&#xff0c;感觉没人把常见的目标跟踪数据集下载链接汇总整理的&#xff0c;这里就整理一下&#xff0c;因为有些网址很难打开&#xff0c;这里也是想方便之后大家获取&#xff0c;来看看吧&#xff01;我就从大佬图中来找几个吧&#xff01;因为不是全接触过&#xf…

数据集下载

1、直接下载pytorch官方现成的数据集&#xff1a; #数据集下载,训练集 trainset torchvision.datasets.name(root./data,trainTrue,downloadTrue,transformtransformer) #数据集导入 trainloader torch.utils.data.DataLoader(trainset,batch_size36,shuffleTrue,num_worker…

NHANES数据库数据下载

今天跟大家分享一下如何用R包nhanesA下载NHANES数据 以一个简单的研究目的为例&#xff1a;使用NHANES数据库中的数据构建一个舒张压的预测模型。 根据该研究目的&#xff0c;整理纳入分析的周期和变量&#xff1a; ①研究周期&#xff1a;2013-2014年&#xff1b; ②因变量…

常用数据下载网站汇总

AI最重要的几大要素&#xff1a;数据、算法、算力。其中最基础也是很重要的一个内容就是数据&#xff0c;一个数据的好坏往往决定了你的模型的性能、效果、泛化能力。但是准备、完善、标注数据的过程往往是耗时耗力&#xff0c;所以如何知道更多的经典数据集&#xff0c;能够快…

SRA数据下载方法总结

SRA数据常用的下载方法 研究生了&#xff0c;对以往的知识进行一个复习和总结吧。 SRA数据库存储了现在主要高通量测序平台的原始测序数据和和比对信息&#xff0c;包括了SRA、EBI、DDBJ、JGI等数据库的信息。&#xff08;这里分享一个小的知识点&#xff0c;现在可以不只依赖…

maxcompute-入门-数据下载

maxcompute数据下载的三种方式 maxcoumpute下载数据有三种方式&#xff1a; 1、直接通过dataworks云端下载&#xff0c;但是这个只能下载小于1万行的数据&#xff1b; 2、通过odpscmd客户端下载&#xff0c;有两种方式&#xff1a;分区下载只能下一天数据&#xff1b;或者先运行…

IBM Websphere MQ 基础4:Channel通道与MQ间消息传输

概念 WebSphere MQ uses two different types of channels: A message channel, which is a unidirectional communications link between two queue managers. WebSphere MQ uses message channels to transfer messages between the queue managers. To send messages in b…

MQ - 如何保证消息不丢失?处理重复消息?消息堆积处理?

什么是消息队列 在百度百科中&#xff0c;消息队列是这么解释的&#xff1a;“消息队列”是在消息的传输过程中保存消息的容器。 消息队列全称为英文 Message Queue 简称&#xff08;MQ&#xff09;是一种应用程序对应用程序的通信方法。MQ 是消费-生产者模型的一个典型的代表…

IBM MQ通道常用知识列举(一)

MQ的几个基本组件&#xff1a; 1. 什么是通道 通道是分布式队列管理器在IBM MQ MQI 客户端和IBM MQ服务器之间或两个IBM MQ服务器之间使用的逻辑通信链路。通道用于将消息从一个队列管理器移动到另一个队列管理器。 2, 启动通道 对发送方、服务器和请求方通道使用 MQSC 命令…