【ML】机器学习数据集:sklearn中回归数据集介绍

article/2025/8/9 9:52:37

目录

  • 1. Boston房价预测数据集
  • 2. California房价预测数据集
  • 3. 糖尿病预测数据集

在机器学习的教程中,我们会看到很多的demo,这些demo都是基于python中自带的数据集。今天我们将介绍三个用于回归预测的数据集。

1. Boston房价预测数据集

该数据集将在scikit-learn 1.2版本移除,也就是说,scikit-learn1.2版本及以后,该数据集将不存在,且用且珍惜吧。

数据集加载代码:

# boston房价预测数据集
from sklearn.datasets import load_bostonhousing_boston = load_boston()
X = housing_boston.data     # data
y = housing_boston.target   # label

为了便于方便查看加载的数据集,我们可以使用jupyter notebook或者spyder编辑器。我们以spyder编辑器为例:

运行加载数据集的代码,右侧会出现变量;

在这里插入图片描述

其中X就是输入模型的数据:

在这里插入图片描述

y是数据对应的标签:

在这里插入图片描述

双击点开变量“housing_boston”:

在这里插入图片描述

data: 506条数据,每条数据13维,即每条数据13个特征,这13个特征的名称存储在feature_names变量中,分别为[‘CRIM’, ‘ZN’, ‘INDUS’, ‘CHAS’, ‘NOX’, ‘RM’, ‘AGE’, ‘DIS’, ‘RAD’,
‘TAX’, ‘PTRATIO’, ‘B’, ‘LSTAT’]

CRIM: 各城镇的人均犯罪率
ZN: 超过25,000平方英尺的住宅用地比例
INDUS: 城镇非零售业态面积比例
CHAS: Charles River虚拟变量
NOX: 一氧化氮浓度(千万分之一)
RM: 每套住宅的平均房间数
AGE: 1940年以前建造的自住单位的比例
DIS: 到五个波士顿就业中心的加权距离
RAD: 径向公路可达性指数
TAX: 每1万美元的全值财产税税率
PTRATIO: 按城镇划分的学生教师比例
B: 城镇中黑人的比例
LSTAT: 人口地位下降率

2. California房价预测数据集

该数据集是Boston房价预测数据集替代数据集,随着scikit-learn版本的更新,以后我们将使用该数据集进行回归预测任务的练习。

数据集加载代码:

# california房价预测数据集
from sklearn.datasets import fetch_california_housinghousing_california = fetch_california_housing()
X = housing_california.data    # data
y = housing_california.target   # label

为了便于方便查看加载的数据集,我们可以使用jupyter notebook或者spyder编辑器。我们以spyder编辑器为例:

在这里插入图片描述

其中X就是输入模型的数据:

在这里插入图片描述

y是数据对应的标签:

在这里插入图片描述

双击点开变量“housing_california”:

在这里插入图片描述

feature_names变量中,分别为[‘MedInc’, ‘HouseAge’, ‘AveRooms’, ‘AveBedrms’, ‘Population’, ‘AveOccup’, ‘Latitude’, ‘Longitude’]

MedInc: 街区组收入中位数
HouseAge: 街区组房屋年龄中位数
AveRooms: 每户平均房间数
AveBedrms: 每户平均卧室数量
Population: 人口数量
AveOccup: 家庭成员的平均人数
Latitude: 纬度
Longitude: 经度

3. 糖尿病预测数据集

该数据集是sklearn中自带的一个用于预测1年后糖尿病进展的定量测量(换句话说,一个连续变量的预测)。

数据集加载代码:

# 糖尿病数据集
from sklearn.datasets import load_diabetes
diabetes = load_diabetes()X = diabetes.data           # data
y = diabetes.target         # label

为了便于方便查看加载的数据集,我们可以使用jupyter notebook或者spyder编辑器。我们以spyder编辑器为例:

运行加载数据集的代码,右侧会出现变量;

在这里插入图片描述

其中X就是输入模型的数据:

在这里插入图片描述

y是数据对应的标签:

在这里插入图片描述

双击点开变量“diabetes”:

在这里插入图片描述

data: 442条数据,每条数据10维,即每条数据10个特征,这10个特征的名称存储在feature_names变量中,分别为[‘age’, ‘sex’, ‘bmi’, ‘bp’, ‘s1’, ‘s2’, ‘s3’, ‘s4’, ‘s5’, ‘s6’]

age: 年龄
sex: 性别
bmi: 身体质量指数
bp: 平均血压
s1: 血清总胆固醇
s2: 低密度脂蛋白
s3: 高密度脂蛋白
s4: 总胆固醇/高密度脂蛋白
s5: 血清甘油三酯水平的对数
s6: 血糖水平

参考
https://scikit-learn.org/stable/modules/classes.html#module-sklearn.datasets


http://chatgpt.dhexx.cn/article/b7thJdmo.shtml

相关文章

浅谈机器学习之数据集构建

浅谈机器学习之数据集构建 ​ 正如大家现在知道的,深度学习模型(DL)和机器学习模型(ML)是数据驱动型任务,在近乎完美的数据集面前,模型间的细微差异可以忽略。但要获得覆盖目标场景所有特征的样本,不仅要耗费巨大的人力物力&…

机器学习经典开源数据集盘点

在机器学习任务实施前,如何快速寻找到可用数据集,是令每一位研究人员最头痛的事情。本文为大家列举了八大主流数据集来源,不仅包含大量的数据集信息,而且包含了描述、用法以及一些实施案例等。 01 Kaggle数据集 Kaggle数据集地址h…

免费的机器学习数据集网站(6300+数据集)

今天给大家分享一个免费获取机器学习数据集网站: Machine Learning Datasets | Papers With Code 有想法但没有数据集的同学的福音,网站届满很简洁,及本本上提供的了一般可用的各类数据集,我们可以进行各类影像、评论和点云等数…

学习机器学习算法过程中的常用数据集

文章目录 【数据集1】forge:小型模拟分类问题数据集【数据集2】wave:小型模拟回归问题数据集【数据集3】cancer:中型实际分类问题数据集【数据集4】boston:中型实际回归问题数据集 以下数据集为学习机器学习算法时,经常…

虚拟机系统iso镜像下载_如何下载正版系统镜像

许多网友想装系统,可是不会装(后期会推装系统的文章),而且网上的系统有的装有全家桶,有的又有捆绑软件,严重的还有病毒。那么,在哪里去下载正版,安全的系统镜像呢 "MSDN,我告诉你"这个…

Win7下安装xp虚拟机

在win7下安装Oracle VM VirtualBox虚拟机,然后在安装xp程序。 准备工作: 1. Oracle VM VirtualBox虚拟机 2. 一张xp安装版的镜像盘(这里一定是安装版而不是Ghost版,如果想知道ghost版的会出现什么问题,不妨自己试试。&…

虚拟机系统iso镜像下载_[原版镜像]macOS Mojave 10.14.1 原版 iso 镜像- 虚拟机专用

[原版镜像]macOS Mojave 10.14.1 原版 iso 镜像- 虚拟机专用 Notes: 1. 此镜像仅供用于虚拟机安装, 不能制作启动 u 盘. 2. 此镜像和专栏文章: macOS Mojave 10.14.2 原版镜像 皆可用于虚拟机安装 macOS. 另: 此镜像为苹果官方免费 macOS 镜像和工具制作而成, 没有任何第三方内…

微软官方提供的免费正版 Windows 8.1/Win10/7/XP/Vista 操作系统虚拟机镜像下载

微软官方提供的免费正版 Windows 8.1/Win10/7/XP/Vista 操作系统虚拟机镜像下载 https://developer.microsoft.com/en-us/microsoft-edge/tools/vms/ 相信做过网页开发/前端的同学都知道,测试各个浏览器的兼容性是最麻烦的事情之一,单单 IE 就有 N 个版…

基于snap7在vs上通信

这是个已有的snap7通信示例: 首先你得有visual studio,然后 1.在snap7官网上下载文件snap7-full-1.4.2 2.打开snap7-full-1.4.2\examples\dot.net\WinForm\CSharp\CSharp.sln 3.直接编译,它会报错 具体正确的解决方法不太懂,我就…

Snap7 西门子S7系列PLC的通信库 简介

目录 简介参考Snap7 简介Snap7 用途适用系统支持语言西门子S7通信介绍Snap7 组件Sanp7 API源码、手册、样例下载 简介 最近在开发一个项目,作为技术帝,已经完成工艺、机械设计的设计,项目过多,也是为了让自己更加?叉&#xff0c…

通过Snap7与 LOGO!8PLC通信

前言 因一项目需要web控制LOGO! PLC,利用西门子自带的免费LOGO!8.2 Web Editor工具可以很完美的做web页面开发。可以参考视频教程。此外西门子还提供数据导出到excel工具——LOGO8.2 Access Tool。 上面两款工具虽然使用起来非常便捷,但还是想结合Snap…

python使用Snap7读写西门子S7系列PLC

python使用Snap7读写西门子S7系列PLC 1.简介 Snap7 Snap7是一个基于s7通信协议的开源软件包,作者是Davide Nardella,该软件包封装了S7通信的底层协议,可使用普通电脑通过编程与西门子S7系列PLC进行通信 Snap7三大对象组件:客户…

jetson nano上编译与使用西门子PLC通讯库snap7

文章目录 一.西门子snap7介绍二.西门子S7通讯介绍三.jetson nano编译snap7库四.Qt Cmake导入snap7库五.snap7主要函数说明1.与PLC建立连接2.读写PA区变量3.读写MK区变量 六.通讯程序示例 一.西门子snap7介绍 官网:https://snap7.sourceforge.net/ Snap7 是一个基于…

Python-snap7 安装和测试

本文章记录Python-snap7零基础的安装和测试过程。 1 部件和软件 硬件: 1)S7-1500 CUP 1511-1 PN(6ES7511-1AK02-0AB0) 2)SD存储卡 4M(6ES7 954-8LC03-0AA0) 3)220V AC 转 24V DC 电…

SNAP7 C++ 通讯

静态调用的dll的一个实例 2017年11月17日 09:49:18 净无邪 阅读数:334 版权声明:本文为博主原创文章,欢迎各位朋友转载。转载时,保留链接地址! https://blog.csdn.net/naibozhuan3744/article/details/78557761 本实…

Qt5调用Snap7

Snap7是一个与西门子PLC通信的开源库, 在网上下载了一个例子, 研究了一天终于通信成功了, 在此记录一下 项目文件 win32:LIBS C:\Qt\Qt5.7.0\Tools\mingw530_32\i686-w64-mingw32\lib\libws2_32.a win32:LIBS C:\Qt\Qt5.7.0\Tools\mingw530_32\i686-w64-mingw32\lib\libwin…

python snap7 plc_Python-Snap7获取西门子PLC 300数值

说明 在一次数采项目中,对现场PLC300进行取数。本人小白,在网上搜罗了大量信息,终于找到解决方法。 准备事项 1. 操作系统 2.Python环境(本次使用Python3.6.6) 3.Snap7 connect connect(192.168.0.1, rack=0,slot=1) 三个参数分别为:IP 地址,机架,插槽 read_ar…

python-snap7的安装记录

python-snap7的安装记录-windows(仅供个人备忘) 首先 pip install python-snap7其次安装包再然后是环境变量最后是测试 网上其他人的资料尝试上去总感觉不靠谱,很多内容不是一篇网上的文章就能解决(不是这里不对就是那里看不懂&am…

snap7

The Snap7 theatre (剧场、讲堂) The purpose of Snap7 is to fully integrate your PC station into a PLC network, without anybody sees the difference. To allow this, the Snap7 theater must be the same as the Siemens and contain the same actors. Snap7 library…

Python基于Snap7与PLC建立连接并读写数据

最近偶尔在网上看到可以用Python通过snap7与PLC建立连接并读写数据,好多小伙伴没有现成的PLC,这里介绍一个电脑模拟PLC与python通讯。效果与实际情况一样的。这里是以SIEMENS的PLC为例,通过Pycharm与TIA V17建立连接,对其DB块、M区、Q区、I区…