探索sklearn | 鸢尾花数据集

article/2025/11/10 20:45:26

1 鸢尾花数据集背景

鸢尾花数据集是原则20世纪30年代的经典数据集。它是用统计进行分类的鼻祖。

sklearn包不仅囊括很多机器学习的算法,也自带了许多经典的数据集,鸢尾花数据集就是其中之一。

导入的方法很简单,不过我比较好奇它是如何来存储这些数据的,于是我决定去背后看一看

1

2

3

from sklearn.datasets import load_iris

 

data = load_iris()

 找到sklearn包的路径,发现包可不少,不过现在扔在一边,以后再来探索,我现在要找到是datasets文件夹。

文件夹里没有找到load_iris()这个函数在哪,只是在__init__文件里,发现了这么一行

1

from .base import load_iris

 

2 数据的内容

不出我料数据没有存储在程序文件里,而是用csv格式保存着,单独放在了data文件夹里

1

2

3

4

5

6

150,4,setosa,versicolor,virginica

5.1,3.5,1.4,0.2,0 #花萼长度,花萼宽度,花瓣长度,花瓣宽度

4.9,3.0,1.4,0.2,0

4.7,3.2,1.3,0.2,0

4.6,3.1,1.5,0.2,0

5.0,3.6,1.4,0.2,0

 第一行首先记录了样本数目150,特征数目4

现在是时候来详细介绍一下数据了:

数据包含三种鸢尾花的四个特征,分别是花萼长度(cm)、花萼宽度(cm)、花瓣长度(cm)、花瓣宽度(cm),这些形态特征在过去被用来识别物种。时至今日,我们已经可以通过基因签名来识别这些分类了。

三种鸢尾花分别是

山鸢尾花(Iris Setosa)、

变色鸢尾花(Iris Versicolor)和

维吉尼亚鸢尾花(Iris Virginica)

 

3 数据可视化

鸢尾花数据集只有150个样本,每个样本只有4个特征,容易将其可视化

上面加载的data变量是一个类似字典的类型,是数据信息的集合,它像字典一样通过键值对来组织信息

值既可以通过data['target']也可以通过data.target来获取,很明显这说明data并不是字典类型

1

2

3

4

5

6

7

8

data.keys()

>>['target_names''data''target''DESCR''feature_names']

feature = data['data'#为numpy.ndarray类型

feature.shape #矩阵的行数和劣势

>> (150L4L)

target = data['target']

target.shape

>>(150L,)

 

 四个特征是不可能同时在平面图里画出来的,只得运用我们的聪明才智,把它两两一组

1

2

3

4

5

6

7

8

9

10

11

def plot_iris_projection(x_index, y_index):

    for t,marker,c in zip(xrange(3),'>ox''rgb'):

        plt.scatter(data[target==t,x_index],

                    data[target==t,y_index],

                    marker=marker,c=c)

        plt.xlabel(feature_names[x_index])

        plt.ylabel(feature_names[y_index])<br><br>pairs = [(0,1),(0,2),(0,3),(1,2),(1,3),(2,3)]

for i,(x_index,y_index) in enumerate(pairs):

    plt.subplot(2,3,i)

    plot_iris_projection(x_index, y_index)

plt.show()

 

 

不难发现的是,不论在那两个特征下,山鸢尾花都能很好的和其他两种鸢尾花区分,但是另外两种鸢尾花的特征比较焦灼,如果只有这四个特征,有时人都难以区分。

数据可视化最高只能是三维,matplotlib也能胜任此工作

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

from mpl_toolkits.mplot3d import Axes3D

 

def plot_iris_projection3d(x_index, y_index, z_index):

    fig = plt.figure()

    ax = fig.add_subplot(111,projection='3d')

    for t,marker,c in zip(xrange(3),'>ox''rgb'):

        ax.scatter(data[target==t,x_index],

                    data[target==t,y_index],

                    data[target==t,z_index],

                    marker=marker,c=c)

        ax.set_xlabel(feature_names[x_index])

        ax.set_ylabel(feature_names[y_index])

        ax.set_zlabel(feature_names[z_index])

         

plot_iris_projection3d(123)

plt.show()

 


http://chatgpt.dhexx.cn/article/4RAghAkj.shtml

相关文章

线性回归实例-鸢尾花数据集

文章目录 一、具体实现步骤1. 导入Iris鸢尾花数据集2. 提取花瓣数据3. 拆分数据4. 训练模型 二、可视化结果展示1. 训练集2. 测试集 三、相关知识点讲解1. train_test_split()函数2. LinearRegression()函数3. 散点图与折线统计图的绘制 这篇文章中&#xff0c;我们要通过鸢尾花…

基于朴素贝叶斯的鸢尾花数据集分类

目录 1.作者介绍2.理论知识介绍2.1算法介绍2.2数据集介绍 3.实验代码及结果3.1 数据集下载3.2实验代码3.2实验结果 1.作者介绍 王炜鑫&#xff0c;男&#xff0c;西安工程大学电子信息学院&#xff0c;2021级研究生 研究方向&#xff1a;小型无人直升机模型辨识 电子邮件&…

鸢尾花数据集的数据可视化

鸢尾花数据集的数据显示 一、鸢尾花数据集介绍1.历史2.数据集 二、鸢尾花数据集可视化1.普通读取数据方法2.运行结果3.普通读取数据方法4.运行结果5.未使用mglearn库的代码6.运行结果7.使用mglearn库的代码8.运行结果 一、鸢尾花数据集介绍 1.历史 安德森鸢尾花卉数据集&#…

鸢尾花数据集分类

数据集介绍 共有数据150组&#xff0c;每组包括花萼长、花萼宽、花瓣长、花瓣宽4个输入特征。 同时给出了&#xff0c;这一组特征对应的鸢尾花类别。类别包括Setosa Iris&#xff08;狗尾草 鸢尾&#xff09;&#xff0c;Versicolour Iris&#xff08;杂色鸢尾&#xff09;&…

鸢尾花数据集分类-决策树

文章目录 决策树数据集代码实验分析 决策树 决策树&#xff08;Decision Tree&#xff09;是一种基本的分类与回归方法&#xff0c;当决策树用于分类时称为分类树&#xff0c;用于回归时称为回归树。主要介绍分类树。 决策树由结点和有向边组成。结点有两种类型&#xff1a;内…

鸢尾花数据集的各种玩法

目录 鸢尾花数据集下载鸢尾花数据集iris csv文件下载数据集 Pandas访问csv数据集 Pandas库Pandas二维数据基本操作 读取csv数据集文件设置列标题names参数 访问数据显示统计信息DataFrame的常用属性&#xff1a;ndim、size、shape转化为NumPy数组 访问数组元素–索引和切片 鸢…

iris鸢尾花数据集最全数据分析

写在前面 在写这篇文章之前&#xff0c;首先安利下jupyter&#xff0c;简直是神作&#xff0c;既可以用来写文章&#xff0c;又可以用来写代码&#xff0c;文章和代码并存&#xff0c;简直就是写代码/文章/教程的利器。 安装很简单&#xff1a;pip install jupyter 使用很简单…

sklearn数据集——iris鸢尾花数据集

参考书籍&#xff1a;Python机器学习基础教程 1、初始数据 鸢尾花&#xff08;Iris&#xff09;数据集&#xff0c;是机器学习和统计学中一个经典的数据集。它包含在 scikit-learn 的 datasets 模块中。 我们可以调用 load_iris 函数来加载数据&#xff1a; from sklearn.da…

重拾Iris鸢尾花数据集分析

最近我又又又开始了我的机器学习道路&#xff0c;并且回过头来重新看了一遍Iris数据分析&#xff0c;作为机器学习里面最经典的案例之一&#xff0c;鸢尾花既是我入门机器学习到放弃的地方&#xff0c;又是再次细读之后给予我灵感的地方。 下面介绍一下这次灵感之旅&am…

Python-鸢尾花数据集Iris 数据可视化 :读取数据、显示数据、描述性统计、散点图、直方图、KDE图、箱线图

本博客运行环境为Jupyter Notebook、Python3。使用的数据集是鸢尾花数据集&#xff08;Iris&#xff09;。主要叙述的是数据可视化。 IRIS数据集以鸢尾花的特征作为数据来源&#xff0c;数据集包含150个数据集&#xff0c;有4维&#xff0c;分为3 类&#xff0c;每类50个数据&a…

《机器学习》分析鸢尾花数据集

转载地址&#xff1a;https://www.cnblogs.com/mandy-study/p/7941365.html 分析鸢尾花数据集 下面将结合Scikit-learn官网的逻辑回归模型分析鸢尾花示例&#xff0c;给大家进行详细讲解及拓展。由于该数据集分类标签划分为3类&#xff08;0类、1类、2类&#xff09;&#xff…

笔记篇二:鸢尾花数据集分类

目录 一、鸢尾花数据集 二、逻辑回归分析 三、逻辑回归实现鸢尾花数据集分类 四、散点图绘制 一、鸢尾花数据集 1、问题 Iris 鸢尾花数据集是一个经典数据集&#xff0c;在统计学习和机器学习领域都经常被用作示例。数据集内包含 3 类共 150 条记录&#xff0c;每类各 5…

IRIS鸢尾花数据集(多种格式)-下载地址

最近看的例子有用到IRIS数据集&#xff0c; 个人找了半天&#xff0c;才找到合适格式的数据集。 因此&#xff0c;将我找到的数据集分享给大家&#xff0c;以免大家像我一样找很久。 我这里有3种格式的数据集&#xff0c;分别是&#xff1a; 1. iris.csv 2. Iris.data 3.…

鸢尾花数据集基本用法

Iris鸢尾花数据集是一个经典的数据集。 包含3类共150条记录&#xff0c;每类各50项数据&#xff0c;每一条记录都有四个体征。 可以通过这四个特征来预测鸢尾花属于哪一个品种。 一.鸢尾花数据集 首先导入数据集&#xff0c;用pandas读入iris.csv数据集&#xff0c;读取后的…

鸢尾花(iris)数据集分析

原文链接&#xff1a;https://www.jianshu.com/p/52b86c774b0b Iris 鸢尾花数据集是一个经典数据集&#xff0c;在统计学习和机器学习领域都经常被用作示例。数据集内包含 3 类共 150 条记录&#xff0c;每类各 50 个数据&#xff0c;每条记录都有 4 项特征&#xff1a;花萼长度…

鸢尾花(iris)数据集

鸢尾花&#xff08;iris&#xff09;数据集 更新时间&#xff1a;2021-03-21 01:01:09标签&#xff1a;数据集 鸢尾花 说明 机器学习教程 正在计划编写中&#xff0c;欢迎大家加微信 sinbam 提供意见、建议、纠错、催更。 鸢【音&#xff1a;yuān】尾花&#xff08;Iris&a…

数据分析——鸢尾花数据集

鸢尾花数据集 Iris 鸢尾花数据集内包含 3 类分别为山鸢尾&#xff08;Iris-setosa&#xff09;、变色鸢尾&#xff08;Iris-versicolor&#xff09;和维吉尼亚鸢尾&#xff08;Iris-virginica&#xff09;&#xff0c;共 150 条记录&#xff0c;每类各 50 个数据&#xff0c;每…

机器学习--鸢尾花数据集实战

Iris数据集实战 本次主要围绕Iris数据集进行一个简单的数据分析, 另外在数据的可视化部分进行了重点介绍. 环境 win8, python3.7, jupyter notebook 目录 1. 项目背景 2. 数据概览 3. 特征工程 4. 构建模型 正文 1. 项目背景 鸢尾属(拉丁学名&#xff1a;Iris L.), …

sklearn基础篇(三)-- 鸢尾花(iris)数据集分析和分类

后面对Sklearn的学习主要以《Python机器学习基础教程》和《机器学习实战基于scikit-learn和tensorflow》&#xff0c;两本互为补充进行学习&#xff0c;下面是开篇的学习内容。 1 初识数据 iris数据集的中文名是安德森鸢尾花卉数据集&#xff0c;英文全称是Anderson’s Iris d…

机器学习——鸢尾花数据集

机器学习——鸢尾花数据集 数据集简介导入数据集可视化主成分分析 鸢尾花数据集即iris iris数据集文件&#xff1a; https://pan.baidu.com/s/1saL_4Q9PbFJluU4htAgFdQ .提取码&#xff1a;1234 数据集简介 数据集包含150个样本&#xff08;数据集的行&#xff09;数据集包含…