决策树CART介绍*

article/2025/9/24 15:38:49

属性划分使用Gini指数

回顾:ID3使用信息增益,C4.5使用信息增益率。都是基于计算熵,熵运算涉及到对数运算,耗时。
CART使用Gini指数代替信息增益。
在这里插入图片描述
直观上,Gini指数表示从数据集D随机抽取两个样本,类别不一致的概率。
注意:GIni指数越小,数据集D纯度越高,这与信息增益相反。
所以,在找划分属性时,每个属性a的GIni指数具体计算公式如下:
在这里插入图片描述

CART创建的决策树是二叉树,也就是划分节点的时候是二分。

CART连续特征的处理

与C4.5的几乎相同,都是讲连续特征离散化后二分,只是评价指标换成了Gini指数。
假设连续属性A在数据集D上有m个取值 a 1 , . . . , a m a_1,...,a_m a1,...,am,对相邻取值做平均数,得到m-1个二划分点。选择使得划分后Gini指数最小的划分点进行二划分。
注意: 当前节点若为连续属性,则该属性后面还可以参与子节点的属性划分过程。

CART对离散特征的二分改进

回顾:C4.5和ID3对属性A划分,若属性A的取值有 a 1 , a 2 , a 3 a_1,a_2,a_3 a1,a2,a3三个,则就是划分出3个分支。(有多少种属性取值,就划分出多少个分支)
CART采用的是不停二分的办法。 比如,先把A的取值分成 { a 1 } , { a 2 , a 3 } \{a_1\},\{a_2,a_3\} {a1},{a2,a3} { a 1 , a 2 } , { a 3 } \{a_1,a_2\},\{a_3\} {a1,a2},{a3} { a 2 } , { a 1 , a 3 } \{a_2\},\{a_1,a_3\} {a2},{a1,a3}三种情况,找到使得Gini指数最小的组合,然后建立二叉树节点。假设选取的是 a 1 , a 2 , a 3 {a_1},{a_2,a_3} a1,a2,a3,那这次划分就没有将 a 2 , a 3 {a_2,a_3} a2,a3划分开来,所以A属性还可以参与后续的属性划分。

CART回归树

和分类树的主要区别:

  1. 划分的评价指标是均方误差。

  2. 树建立以后的预测方式不同。

    分类树采用的是Gini指数作为标准,但是这对回归模型显然不适用。
    CART回归的度量目标:对于任意划分特征A,对应的任意划分点s两边划分成的数据集D1和D2,求出使D1和D2各自集合的均方差最小,同时D1和D2的均方差之和最小所对应的特征和特征值划分点。表达式为:
    在这里插入图片描述
    预测方式:采用最终叶子的均值或者中位数来做预测输出结果。
    :我的理解,上式内层的min应该是固定一个特征,选择这个特征下最优的二划分点;外层的min就是在选择最优的划分特征。

剪枝

目的是为了决策树过拟合。剪枝方法适用于分类树与回归树。
CART采用的剪枝方法是后剪枝
以后补…


http://chatgpt.dhexx.cn/article/IaifdToT.shtml

相关文章

cart决策树Matlab实现,CART决策树的理解及其实现

CART决策树介绍 使用CART(Classification and regression tree)算法构建的决策树是二叉树,它对特征进行二分,迭代生成决策树。 CART回归树 假设X与Y分别为输入和输出变量,并且Y是连续变量,给定训练数据集 $$D\{(x_1,y_1),(x_2,y_2…

CART决策树算法Python实现 (人工智能导论作业)

文章目录 决策树的介绍CART决策树算法简介基尼指数 CART决策树生成算法及Python代码实现 决策树的介绍 决策树是以树的结构将决策或者分类过程展现出来,其目的是根据若干输入变量的值构造出一个相适应的模型,来预测输出变量的值。预测变量为离散型时&am…

CART树分类、回归、剪枝实现

决策树ID3,C4.5是多叉树,CART树是一个完全二叉树,CART树不仅能完成分类也能实现回归功能,所谓回归指的是目标是一个连续的数值类型,比如体重、身高、收入、价格等,在介绍ID3,C4.5其核心是信息熵…

sklearn 决策树例子_sklearn CART决策树分类

sklearn CART决策树分类 决策树是一种常用的机器学习方法,可以用于分类和回归。同时,决策树的训练结果非常容易理解,而且对于数据预处理的要求也不是很高。 理论部分 比较经典的决策树是ID3、C4.5和CART,分别分析信息增益、增益率…

机器学习--详解CART树剪枝原理和过程

这一节主要讲前面多次的提到的决策树问题,前面的决策树生成算法递归的产生决策树,直到不能继续分支或者达到要求为止,这样的决策树往往对训练数据的分类很准确,因为他就是基于训练数据的熵或者基尼不存度进行分类的,因…

【树模型与集成学习】(task2)代码实现CART树(更新ing)

学习心得 task2学习GYH大佬的回归CART树,并在此基础上改为分类CART树。 更新ing。。 这里做一些对决策树分裂依据更深入的思考引导:我们在task1证明离散变量信息增益非负时曾提到,信息增益本质上就是联合分布和边缘分布乘积的kl散度&#xf…

CART 决策树

ID3使用信息增益,而C4.5使用增益比率进行拆分。 在此,CART是另一种决策树构建算法。 它可以处理分类和回归任务。 该算法使用名为gini索引的新度量标准来创建分类任务的决策点。 CART树的核心是决策规则将通过GINI索引值决定。 停止条件。 如果我们继续…

CART决策树算法

在进行自动识别窃漏电用户分析实战时,用到了CART决策树算法,所以整理记录该算法的内容。内容整理参考文档决策树——CART算法及其后的参考文章。 一、CART(classification and regression tree)分类与回归树,既可用于…

CART树算法解析加举例

算法步骤 CART假设决策树是二叉树,内部结点特征的取值为“是”和“否”,左分支是取值为“是”的分支,右分支是取值为“否”的分支。这样的决策树等价于递归地二分每个特征,将输入空间即特征空间划分为有限个单元,并在…

ID3、C4.5与CART树的联系与区别

ID3、C4.5与CART树的联系与区别: 参考博客: 链接1 链接2 特征选择准则: ID3的特征选择准则为信息增益,即集合D的经验熵H(D)与给定特征A下条件经验熵H(D|A)之差,即: H(D)表现了数据集D进行分类的不确定性…

决策树构建算法—ID3、C4.5、CART树

决策树构建算法—ID3、C4.5、CART树 决策树构建算法—ID3、C4.5、CART树 构建决策树的主要算法ID3C4.5CART三种算法总结对比 决策树构建算法—ID3、C4.5、CART树 构建决策树的主要算法 ID3C4.5CART (Classification And Rsgression Tree) ID3 ID3算法…

3-6 决策树、CART树、GBDT、xgboost、lightgbm一些关键点梳理

目录 1、决策树 2、CART树 2.1 CART分类树-输入样本特征;输出样本对应的类别(离散型) 2.2 CART回归树-输入样本特征;输出样本的回归值(连续型) 3、GBDT 3.1 提升树 3.2 GBDT 4、xgboost 4.1 损失函数及节点展开 4.2 精确贪心算法及相关近似算法…

CART树回归

说明:本博客是学习《python机器学习算法》赵志勇著的学习笔记,其图片截取也来源本书。 基于树的回归算法是一类基于局部的回归算法,通过将数据集切分成多份,在每一份数据中单独建模。与局部加权线性回归不同的是,基于…

剪枝、cart树

一、剪枝 1. 为什么要剪枝 在决策树生成的时候,更多考虑的是训练数据,而不是未知数据,这会导致过拟合,使树过于复杂,对于未知的样本不准确。 2. 剪枝的依据——通过极小化决策树的损失函数 损失函数的定义为&#x…

【机器学习】决策树——CART分类回归树(理论+图解+公式)

🌠 『精品学习专栏导航帖』 🐳最适合入门的100个深度学习实战项目🐳🐙【PyTorch深度学习项目实战100例目录】项目详解 数据集 完整源码🐙🐶【机器学习入门项目10例目录】项目详解 数据集 完整源码&…

CART树(分类回归树)

主要内容 (1)CART树简介 (2)CART树节点分裂规则 (3)剪枝 --------------------------------------------------------------------------------------------------------------------- 一、简介 CART…

CART树

算法概述 CART(Classification And Regression Tree)算法是一种决策树分类方法。 它采用一种二分递归分割的技术,分割方法采用基于最小距离的基尼指数估计函数,将当前的样本集分为两个子样本集,使得生成的的每个非叶子节点都有两个分支。因此…

Pytorch之view,reshape,resize函数

对于深度学习中的一下数据,我们通常是要变成tensor格式,并且需要对其调整形状,很多时候我们往往只关注view之后的结果(比如输出的尺寸),而不关心过程。但有时候还是要关注一下这个到底是怎么变换过来的&…

OpenCV-Python图像处理:插值方法及使用resize函数进行图像缩放

☞ ░ 前往老猿Python博客 https://blog.csdn.net/LaoYuanPython ░ 图像缩放用于对图像进行缩小或扩大,当图像缩小时需要对输入图像重采样去掉部分像素,当图像扩大时需要在输入图像中根据算法生成部分像素,二者都会利用插值算法来实现。 一…

vector的resize函数和reserve函数

博客原文:C基础篇 -- vector的resize函数和reserve函数_VampirEM_Chosen_One的博客-CSDN博客,写的特别好,谢谢原博主。 正文: 对于C的vector容器模板类,存在size和capacity这样两个概念,可以分别通过vect…