常用数据下载网站汇总

article/2025/9/27 2:39:59

AI最重要的几大要素:数据、算法、算力。其中最基础也是很重要的一个内容就是数据,一个数据的好坏往往决定了你的模型的性能、效果、泛化能力。但是准备、完善、标注数据的过程往往是耗时耗力,所以如何知道更多的经典数据集,能够快速获取自己需要的资源是非常重要的。

本篇主要的目的是网罗汇总个人认知范围内的所有比较好的数据集及其链接地址、相关信息、以及链接地址等。以便于大家使用的时候可以尽快下载,尽快找到足量数据,所以事无巨细全都汇总在一起。主要包括以下几个来源:

(1)学术上已经公布发表,或者成为业界检测某种算法性能的知名数据集

(2)已知的别人已经整理过的、公开的数据整理数据集序列表

(3)数据量丰富的,可以免费下载的常用网站

前言

汇总几个下载一般数据集的常用网站。

不仅包含用于实验的大型数据集,还附带对数据集的描述以及使用示例。有的还包含用于解决与该数据集相关机器学习问题的算法代码。

5.1、Kaggle数据集

数据集地址:https://www.kaggle.com/datasets

5.2、Amazon数据集

数据集地址:https://registry.opendata.aws/

该数据源包含多个不同领域的数据集,如:公共交通、生态资源、卫星图像等。

网页中也有一个搜索框来帮助用户寻找想要的数据集,还有所有数据集的描述和使用示例,这些数据集信息丰富且易于使用!

数据集存储在Amazon Web Services (AWS)资源中,比如Amazon S3——云中的一个高度可伸缩的对象存储服务。

如果用户正在使用AWS进行机器学习实验和开发,这将非常方便,由于它是AWS网络的本地数据,因此数据集的传输将非常快。

5.3、UCI机器学习资源库

数据集地址:

https://archive.ics.uci.edu/ml/datasets.html

另一个来自加州大学信息与计算机科学学院的大型资源库,包含100多个数据集。

用户可以找到单变量和多变量时间序列数据集,分类、回归或推荐系统的数据集。

有些UCI的数据集已经是被清洗过的。

5.4、谷歌数据集搜索引擎

数据集地址:

https://toolbox.google.com/datasetsearch

在2018年末,谷歌做了他们最擅长的事情,推出了另一项伟大的服务——它是一个可以按名称搜索数据集的工具箱。

他们的目标是统一成千上万个不同的数据集存储库,使这些数据能够且易被发现。

5.5、微软数据集

数据集地址:https://msropendata.com/

2018年7月,微软与外部研究社区共同宣布推出“Microsoft Research Open Data”。

它在云中包含一个数据存储库,用于促进全球研究社区之间的协作。它提供了一系列用于已发表研究的、经过处理的数据集。

5.6、Awesome Public Datasets Collection

数据集地址:

https://github.com/awesomedata/awesome-public-datasets

这是一个按“主题”组织的数据集,比如生物学、经济学、教育学等。

这里列出的大多数数据集都是免费的,但是在使用任何数据集之前,用户需要检查一下许可要求。

5.7、政府数据集

政府相关数据集也很容易找到的。

许多国家为了提高透明度,向公众分享了各种数据集。以下是一些例子:

欧盟开放数据门户:欧洲政府数据集。

数据集地址:

https://data.europa.eu/euodp/data/dataset

美国政府数据:目前由于一些非政治性原因,暂时无法访问。

数据集地址:https://www.data.gov/

新西兰政府数据集:

数据集地址:

https://catalogue.data.govt.nz/dataset

印度政府数据集:

数据集地址:https://data.gov.in/

5.8、计算机视觉数据集

数据集地址:https://www.visualdata.io/

Visual Data包含一些可以用来构建计算机视觉(CV)模型的大型数据集。

用户可以通过特定的CV主题查找特定的数据集,如语义分割、图像标题、图像生成,甚至可以通过解决方案(自动驾驶汽车数据集)查找特定的数据集。

5.9 阿里天池

数据集地址:https://tianchi.aliyun.com/dataset?spm=5176.12282016.0.0.29536d92P3ZKjo

5.10 格物钛

在CV等计算机领域中,好的数据,对模型训练至关重要。自己做数据,即昂贵又费时费力;但是,使用现成的数据集,即不好找又不好下载及使用。直到最近,找到一个数据集获取神器 Graviti Open Dataset。

- 简单点说,Graviti 是一个提供公开数据集的平台,你可以很方便的搜索你想要的数据,可在线预览样例数据、标注、标签,对于国外的数据不需要“梯子”、可高速免费下载。

- Graviti 收录了 400 多个高质量 CV 类数据集,覆盖无人驾驶、智慧零售、机器人等多种 AI 应用领域。

- 不仅种类多,还方便搜索,可以按应用行业 , 标注类型进行筛选!查找简单操作。

- 除了整合数据集信息以外,在线可视化也是亮点!无需下载直接可以浏览样例数据,标注、标签同样可以轻松在线查看。

甚至,提供了数据分布:

官方地址:https://www.graviti.cn/open-datasets

—— E N D ——


http://chatgpt.dhexx.cn/article/XHytEPdH.shtml

相关文章

SRA数据下载方法总结

SRA数据常用的下载方法 研究生了,对以往的知识进行一个复习和总结吧。 SRA数据库存储了现在主要高通量测序平台的原始测序数据和和比对信息,包括了SRA、EBI、DDBJ、JGI等数据库的信息。(这里分享一个小的知识点,现在可以不只依赖…

maxcompute-入门-数据下载

maxcompute数据下载的三种方式 maxcoumpute下载数据有三种方式: 1、直接通过dataworks云端下载,但是这个只能下载小于1万行的数据; 2、通过odpscmd客户端下载,有两种方式:分区下载只能下一天数据;或者先运行…

IBM Websphere MQ 基础4:Channel通道与MQ间消息传输

概念 WebSphere MQ uses two different types of channels: A message channel, which is a unidirectional communications link between two queue managers. WebSphere MQ uses message channels to transfer messages between the queue managers. To send messages in b…

MQ - 如何保证消息不丢失?处理重复消息?消息堆积处理?

什么是消息队列 在百度百科中,消息队列是这么解释的:“消息队列”是在消息的传输过程中保存消息的容器。 消息队列全称为英文 Message Queue 简称(MQ)是一种应用程序对应用程序的通信方法。MQ 是消费-生产者模型的一个典型的代表…

IBM MQ通道常用知识列举(一)

MQ的几个基本组件: 1. 什么是通道 通道是分布式队列管理器在IBM MQ MQI 客户端和IBM MQ服务器之间或两个IBM MQ服务器之间使用的逻辑通信链路。通道用于将消息从一个队列管理器移动到另一个队列管理器。 2, 启动通道 对发送方、服务器和请求方通道使用 MQSC 命令…

微服务 消息中间件MQ

微服务 消息中间件MQ 1. MQ的定义2. MQ的作用3. MQ的特点4. MQ消费方式5. 常用MQ对比分析 1. MQ的定义 MQ就是消息中间件。面向消息的中间件(message-oriented middleware)MOM能够很好的解决以上问题。是指利用高效可靠的消息传递机制与平台无关的数据交…

MQ消息队列

MQ MQ全称Message Queue(消息队列), 实在消息传输过程中保存消息的容器。多用于分布式系统之间进行通信两种 通信方式: MQ优势 消息到达MQ后直接给出响应,然后服务去消费相应的消息,用户体验极好 应用解耦:提高系…

IBMMQ linux版命令创建队列管理器、队列、通道、window连接(六)

1. 队列、通道介绍 1.1 本地队列 本地队列又分为普通本地队列和传输队列,普通本地队列是应用程序通过API对其进行读写操作的队列;传输队列可以理解为存储-转发队列,比如:我们将某个消 息交给MQ系统发送到远程主机,而此…

IBM MQ 通道

一,定义 通道是分布式队列管理器在IBM MQ MQI 客户端和IBM MQ服务器之间或两个IBM MQ服务器之间使用的逻辑通信链接。 通道是提供从一个队列管理器到另一个队列管理器的通信路径的对象。通道在分布式队列中用于将消息从一个队列管理器移动到另一个队列管理器&#x…

MQ135

这里写自定义目录标题 以MQ135为例 原文链接 首先声明,公式不是官方给定的,而且有很多的局限性。 这篇文章是个人对MQ系列传感器电压与浓度转换的公式进行一个探索。 以MQ135为例 在氨气曲线上采点,得 x(ppm)[10,2…

MQ简介以及架构图

一、什么是MQ Message Query(MQ),消息队列中间件,很多初学者认为,MQ通过消息的发送和接受来实现程序的异步和解耦,mq主要用于异步操作,这个不是mq的真正目的,只不过是mq的应用&…

IBMMQ java远程访问(四)

当应用程序和MQ不在同一台主机上的时候,我们将要通过通道去访问; 1.创建队列管理器时勾选创建服务器链接通道; 2.创建一个本地队列 命名为Q1 3.创建通道 右击通道->新建->服务器链接通道 命名为SERVERQM2 4.代码示例调用 package com.i…

MQ理论介绍与主流MQ对比

1、什么是MQ? MQ(Message Queue)消息队列,是基础数据结构中“先进先出”的一种数据结构。指把要传输的数据(消息)放在队列中,用队列机制来实现消息传递——生产者产生消息并把消息放入队列,然…

什么是MQ

MQ概述 MQ全称 Message Queue(消息队列),是在消息的传输过程中保存消息的容器。多用于分布式系统之间进 行通信。 分布式系统之间进行通信: 远程调用:各系统间直接通过远程调用的方式; 借助第三方完成系统…

MQ的概念和RabbitMQ知识点(无代码)

目录 1. MQ的基本概念 1.1 MQ概述 1.2 MQ的优势 1. 应用解耦 2. 异步提速 3. 削峰填谷 1.3 MQ的劣势以及可能引发的问题 1.4 常见的MQ产品 2. RabbitMQ的知识点 2.1 RabbitMQ的工作模式 1. 简单模式 2. 工作队列模式 Work Queue 3. 发布订阅模式 Publish/subscri…

MQ简介

一、何为MQ? MQ全称为Message Queue, 消息队列(MQ)是一种应用程序对应用程序的通信方法。应用程序通过读写出入队列的消息(针对应用程序的数据)来通信,而无需专用连接来链接它们。消息传递指的是程序之间通…

【MQ基本概念 MQ的工作原理】

一、 MQ 基本概念 1 、 MQ 概述 MQ 全称 Message Queue (消息队列),是在消息的传输过程中保存 消息的容器。多用于分布式系统之间进 行通信。 小结 MQ ,消息 队列,存储消息的中间件 分布式系统通信两种方式&…

mq的基本介绍和基本用法

一 、什么是MQ,有什么用 MQ 是message queue ,消息队列,也叫消息中间件,遵守JMS(java message service)规范的一种软件。(同时还有另一个叫AMQP的应用层协议,语言无关性不受产品 语言等限制,r…

MQ(Message Queue)简介

一、何为MQ? MQ全称为Message Queue, 消息队列(MQ)是一种应用程序对应用程序的通信方法。应用程序通过读写出入队列的消息(针对应用程序的数据)来通信,而无需专用连接来链接它们。消息传递指的是程序之间通…

MQ消息队列详解、四大MQ的优缺点分析

MQ消息队列详解、四大MQ的优缺点分析 前言面试题切入面试官心理分析面试题剖析①为什么要使用MQ系统解耦异步调用流量削峰消息队列的优缺点四大主流MQ(kafka、ActiveMQ、RabbitMQ、RocketMQ)各自的优缺点 前言 近期有了想跳槽的打算,所以自己…