机器学习经典开源数据集盘点

article/2025/7/16 19:52:09

在机器学习任务实施前,如何快速寻找到可用数据集,是令每一位研究人员最头痛的事情。本文为大家列举了八大主流数据集来源,不仅包含大量的数据集信息,而且包含了描述、用法以及一些实施案例等。

01 Kaggle数据集

Kaggle数据集地址
https://www.kaggle.com/datasets

e9ee698a253580fe5d8e657c067a8947.png

这是我最喜欢的数据集之一,每个数据集都对应于一个小型社区,你可以在其中讨论数据、查找公共代码,或者在其中创建自己的项目。这里包含了大量不同类型、不同结构的数据集内容。同时,还可以在其中获取到与每个数据集关联的资料,其中包含了许多数据科学家们提供的数据集分析笔记等。

02 Amazon数据集

AWS开放数据地址
https://registry.opendata.aws/

cff568e8e649ab07e667389807648eb6.png

这个数据集中包含了不同领域的数据内容,例如:公共交通、生态资源、卫星图像等。同时提供了搜索功能,以帮助用户找到所需的数据集,还有各种数据集的描述信息以及用例,非常易于使用。

数据集存储在Amazon Web Services(AWS)资源中,对于使用AWS构建自己机器学习实验的用户来说,传输速度将非常块。

03 UCI机器学习数据集

UCI数据集地址:
https://archive.ics.uci.edu/ml/datasets.html

d8f325ff7bef69142bfdb016b1e77c8b.png

这个数据集来自于加州大学信息与计算机科学学院,其中包含了100多个数据集。根据机器学习问题的类型对数据集进行分类,可找到单变量或多变量时间序列数据集,以及分类、回归或推荐系统的数据集。

04 Google  
数据集搜索引擎

Google数据集搜索引擎
https://toolbox.google.com/datasetsearch

8548ce62b79deb46b140f73fd7e8a5c0.png

在2018年末,Google推出了数据集搜索服务。这是一个可以按名称搜索数据集的搜索引擎,目标是为数万个不同数据集存储库提供统一搜索入口,非常好用。

05 微软数据集

在2018年7月,微软与外界研究社区一起,发布了微软研究开发数据。

微软数据集地址:
https://msropendata.com/

ce9739561d7f04362b993f58e2a5333d.png

它包含了云服务器中的数据存储库,致力于促进全球研究社区的协作,并在其中提供了一系列用于已发表研究的数据集内容。

06 Awesome  开放数据集收藏列表

Awesom Public Datasets
https://github.com/awesomedata/awesome-public-datasets

本数据集列表中,按主题整理了大量的数据集内容,例如:生物学、经济学、教育等。其中列出的大多数数据集都是免费的,但在使用任何数据集之前,均需检查数据集的许可要求。

07 政府数据集

许多国家均在网络上提供了多种公众可用的政府数据集内容,例如:

欧洲政府数据集
https://data.europa.eu/euodp/data/dataset

美国政府数据集
https://www.data.gov/

新西兰政府数据集
https://catalogue.data.govt.nz/dataset

印度政府数据集
https://data.gov.in/

北爱尔兰公共数据集
https://www.opendatani.gov.uk/

08 VisualData数据集

VisualData数据集
https://www.visualdata.io/

视觉数据包含了一些用于构建计算机视觉模型的优秀数据集,用户可通过某个CV主题查询,例如语义分割、图像标题、图像生成、自动驾驶汽车等内容。

总之,从目前观察到的现象看,似乎存在一个全球性的方向,即向研究与机器学习社区提供越来越多的数据。这些新数据集的社区将继续发展并使数据更加易用,以便众包与计算机科学界能够继续快速创新,并为未来生活带来更多创造性的方案。

原文链接:
https://medium.com/datadriveninvestor/top-8-sources-for-machine-learning-and-analytics-datasets-5d2d94ada8ab 

仅供学术分享,侵删

推荐阅读:

我的2022届互联网校招分享

我的2021总结

浅谈算法岗和开发岗的区别

互联网校招研发薪资汇总

2022届互联网求职现状,金9银10快变成铜9铁10!!

公众号:AI蜗牛车

保持谦逊、保持自律、保持进步

3d4c7237be49fbc13871406c94b03a39.png

发送【蜗牛】获取一份《手把手AI项目》(AI蜗牛车著)

发送【1222】获取一份不错的leetcode刷题笔记

发送【AI四大名著】获取四本经典AI电子书


http://chatgpt.dhexx.cn/article/Vdw8M8XH.shtml

相关文章

免费的机器学习数据集网站(6300+数据集)

今天给大家分享一个免费获取机器学习数据集网站: Machine Learning Datasets | Papers With Code 有想法但没有数据集的同学的福音,网站届满很简洁,及本本上提供的了一般可用的各类数据集,我们可以进行各类影像、评论和点云等数…

学习机器学习算法过程中的常用数据集

文章目录 【数据集1】forge:小型模拟分类问题数据集【数据集2】wave:小型模拟回归问题数据集【数据集3】cancer:中型实际分类问题数据集【数据集4】boston:中型实际回归问题数据集 以下数据集为学习机器学习算法时,经常…

虚拟机系统iso镜像下载_如何下载正版系统镜像

许多网友想装系统,可是不会装(后期会推装系统的文章),而且网上的系统有的装有全家桶,有的又有捆绑软件,严重的还有病毒。那么,在哪里去下载正版,安全的系统镜像呢 "MSDN,我告诉你"这个…

Win7下安装xp虚拟机

在win7下安装Oracle VM VirtualBox虚拟机,然后在安装xp程序。 准备工作: 1. Oracle VM VirtualBox虚拟机 2. 一张xp安装版的镜像盘(这里一定是安装版而不是Ghost版,如果想知道ghost版的会出现什么问题,不妨自己试试。&…

虚拟机系统iso镜像下载_[原版镜像]macOS Mojave 10.14.1 原版 iso 镜像- 虚拟机专用

[原版镜像]macOS Mojave 10.14.1 原版 iso 镜像- 虚拟机专用 Notes: 1. 此镜像仅供用于虚拟机安装, 不能制作启动 u 盘. 2. 此镜像和专栏文章: macOS Mojave 10.14.2 原版镜像 皆可用于虚拟机安装 macOS. 另: 此镜像为苹果官方免费 macOS 镜像和工具制作而成, 没有任何第三方内…

微软官方提供的免费正版 Windows 8.1/Win10/7/XP/Vista 操作系统虚拟机镜像下载

微软官方提供的免费正版 Windows 8.1/Win10/7/XP/Vista 操作系统虚拟机镜像下载 https://developer.microsoft.com/en-us/microsoft-edge/tools/vms/ 相信做过网页开发/前端的同学都知道,测试各个浏览器的兼容性是最麻烦的事情之一,单单 IE 就有 N 个版…

基于snap7在vs上通信

这是个已有的snap7通信示例: 首先你得有visual studio,然后 1.在snap7官网上下载文件snap7-full-1.4.2 2.打开snap7-full-1.4.2\examples\dot.net\WinForm\CSharp\CSharp.sln 3.直接编译,它会报错 具体正确的解决方法不太懂,我就…

Snap7 西门子S7系列PLC的通信库 简介

目录 简介参考Snap7 简介Snap7 用途适用系统支持语言西门子S7通信介绍Snap7 组件Sanp7 API源码、手册、样例下载 简介 最近在开发一个项目,作为技术帝,已经完成工艺、机械设计的设计,项目过多,也是为了让自己更加?叉&#xff0c…

通过Snap7与 LOGO!8PLC通信

前言 因一项目需要web控制LOGO! PLC,利用西门子自带的免费LOGO!8.2 Web Editor工具可以很完美的做web页面开发。可以参考视频教程。此外西门子还提供数据导出到excel工具——LOGO8.2 Access Tool。 上面两款工具虽然使用起来非常便捷,但还是想结合Snap…

python使用Snap7读写西门子S7系列PLC

python使用Snap7读写西门子S7系列PLC 1.简介 Snap7 Snap7是一个基于s7通信协议的开源软件包,作者是Davide Nardella,该软件包封装了S7通信的底层协议,可使用普通电脑通过编程与西门子S7系列PLC进行通信 Snap7三大对象组件:客户…

jetson nano上编译与使用西门子PLC通讯库snap7

文章目录 一.西门子snap7介绍二.西门子S7通讯介绍三.jetson nano编译snap7库四.Qt Cmake导入snap7库五.snap7主要函数说明1.与PLC建立连接2.读写PA区变量3.读写MK区变量 六.通讯程序示例 一.西门子snap7介绍 官网:https://snap7.sourceforge.net/ Snap7 是一个基于…

Python-snap7 安装和测试

本文章记录Python-snap7零基础的安装和测试过程。 1 部件和软件 硬件: 1)S7-1500 CUP 1511-1 PN(6ES7511-1AK02-0AB0) 2)SD存储卡 4M(6ES7 954-8LC03-0AA0) 3)220V AC 转 24V DC 电…

SNAP7 C++ 通讯

静态调用的dll的一个实例 2017年11月17日 09:49:18 净无邪 阅读数:334 版权声明:本文为博主原创文章,欢迎各位朋友转载。转载时,保留链接地址! https://blog.csdn.net/naibozhuan3744/article/details/78557761 本实…

Qt5调用Snap7

Snap7是一个与西门子PLC通信的开源库, 在网上下载了一个例子, 研究了一天终于通信成功了, 在此记录一下 项目文件 win32:LIBS C:\Qt\Qt5.7.0\Tools\mingw530_32\i686-w64-mingw32\lib\libws2_32.a win32:LIBS C:\Qt\Qt5.7.0\Tools\mingw530_32\i686-w64-mingw32\lib\libwin…

python snap7 plc_Python-Snap7获取西门子PLC 300数值

说明 在一次数采项目中,对现场PLC300进行取数。本人小白,在网上搜罗了大量信息,终于找到解决方法。 准备事项 1. 操作系统 2.Python环境(本次使用Python3.6.6) 3.Snap7 connect connect(192.168.0.1, rack=0,slot=1) 三个参数分别为:IP 地址,机架,插槽 read_ar…

python-snap7的安装记录

python-snap7的安装记录-windows(仅供个人备忘) 首先 pip install python-snap7其次安装包再然后是环境变量最后是测试 网上其他人的资料尝试上去总感觉不靠谱,很多内容不是一篇网上的文章就能解决(不是这里不对就是那里看不懂&am…

snap7

The Snap7 theatre (剧场、讲堂) The purpose of Snap7 is to fully integrate your PC station into a PLC network, without anybody sees the difference. To allow this, the Snap7 theater must be the same as the Siemens and contain the same actors. Snap7 library…

Python基于Snap7与PLC建立连接并读写数据

最近偶尔在网上看到可以用Python通过snap7与PLC建立连接并读写数据,好多小伙伴没有现成的PLC,这里介绍一个电脑模拟PLC与python通讯。效果与实际情况一样的。这里是以SIEMENS的PLC为例,通过Pycharm与TIA V17建立连接,对其DB块、M区、Q区、I区…

snap7通过NetToPLCsim工具接入模拟西门子PLC S7-1200步骤简介

概述 本文主要是设备通过S7协议接入西门子PLC S7-XXXX系列的开发使用文档,主要包括西门子PLC组态工具博途V15,PLC模拟工具S7-PLCSIM,IP地址映射工具NetToPLCsim等使用使用说明,S7协议的编译及使用说明等; 1 开发工具之间的关系 仿…

基于Snap7实现与西门子PLC通信

​如果你对西门子PLC通信或者上位机开发稍微有一点研究的话,应该对Snap7有所耳闻。 Snap7是一个基于以太网与西门子S7系列PLC通信的开源库,在世界领域应用很广。但也许是因为资料比较少,而且很多都是纯英文,在国内反而没有大规模…