特征选择简述

article/2025/11/5 14:02:26

目录

一、 特征选择的意义

二、特征选择的方法

1. 排序方法(Ranking methods)

2. 过滤方法(Filter approaches)

3.包装器方法(wrapper methods)

4.混合方法(Hybrid methods)

5.嵌入式方法(Embedded methods)


一、 特征选择的意义

       约简冗余,不相关,噪声和无信息数据,减少存储空间,降低时间复杂度,同时维度降低有助于缓解过拟合问题,即缓慢和过拟合这两个相互交织的问题都可以通过特征缩减来解决,其目标是最小化用于执行二元分类任务的维数。

二、特征选择的方法

1. 排序方法(Ranking methods)

       排序方法,也称为个体特征评估或特征加权技术,独立评估每个特征的信息量,并根据它们的相关性程度分配它们的权重。对单个特征计算信息增益、相关系数、卡方统计、信号-噪声统计等几种评价指标,以获得基于其个体评价的排序。然后,通过建立阈值截断,选择秩值最高的特征,获得有效的特征子集。

     缺点:只能消除不相关的特性,而不能消除冗余的特性。

     优点:这些单变量技术非常简单,但它们的性能可以与多变量方法竞争

2. 过滤方法(Filter approaches)

        过滤方法,也被称为分类器独立的方法。它独立于任何归纳算法,基于距离、信息、依赖性和一致性四种不同的评价标准进行评价,利用数据的内在特征对特征进行评价和排序,根据训练数据的共同特征来选择合适的特征,而不涉及任何特定的学习器。

        基于滤波器的方法可以分为单变量方法和多变量方法。在单变量中,特征的重要性是单独计算的,而忽略了特征之间的关系,而在多变量中,将考虑特征的相互作用和依赖关系。其优点是速度快、计算简单、经济,更适合于解决高维数据集问题。

        最流行的为特征相关性进行评分的标准之一是皮尔逊相关系数,计算公式为:

        其中,x_{i}为第i个特征,𝑌为类标签,𝑐𝑜𝑣()为协方差,𝑣𝑎𝑟()为方差。该准则只能检测变量与目标之间的线性依赖关系。

        信息理论排序标准,如将互信息(MI)作为两个变量之间依赖性的度量,X和Y之间的MI值为:

         其中,𝐻(𝑌)为香农熵,𝐻(𝑌|𝑋)是输出𝑌的条件熵,如果Y和X是独立的,那么MI值为零,否则MI大于零。

3.包装器方法(wrapper methods)

        通过迭代搜索整个特征空间,生成候选特征子集,将优化一个特定分类器的性能度量,这种性能度量或目标函数取决于问题的类型。例如,回归评价标准可以是r-平方,而分类评价标准可以是准确性、查全率、精确度、f1-分数等。用于包装器特征选择的常用搜索算法包括分支和绑定方法和几种元启发式算法。除了启发式搜索算法外,一些包装器特征选择方法还基于顺序选择算法,如顺序前向选择(SFS)、顺序后向选择(SBS)、顺序前向浮动选择(SFFS)和顺序后向浮动选择(SBFS)。这些方法迭代地添加或删除特征,直到满足终止标准。

        缺点:计算复杂度随着特征空间的增长而增加。

       优点:由于特征选择针对特定的学习算法进行优化,不包含关于特定结构的分类或回归函数的知识,因此可以与任何学习机器结合。

4.混合方法(Hybrid methods)

        在单个上下文中同时利用过滤器方法和包装器方法,以提高FS算法。

5.嵌入式方法(Embedded methods)

       指那些直接将特征选择作为分类算法优化目标的方法,寻求在学习算法中加入特征选择能力,即在训练和建立归纳模型的过程中进行特征选择。计算成本较低,也不太容易发生过拟合。如使用分类器的权重进行特征排序,权重w_{j}定义为

         其中u_{j}和𝜎𝑗为(+)和(-)类样本的平均值和标准差。较大的正𝑤𝑗值表示与类(+)有很强的相关性,而较大的负𝑤𝑗值表示与类(-)有很强的相关性。

        一些嵌入式方法涉及到改变分类器的目标函数,以学习使用模型权重向量的特征排序。例如,修改支持向量机(SVM)的成本函数,以执行递归特征消除(RFE)的方法被称为SVM-RFE方法,类似的技术已经被开发出来用于多层神经网络


http://chatgpt.dhexx.cn/article/jOUU4oBg.shtml

相关文章

特征提取与特征选择

特征抽取和特征选择是DimensionalityReduction(降维)的两种方法,针对于the curse of dimensionality(维度灾难),都可以达到降维的目的。但是这两个有所不同。 特征提取(Feature Extraction):Cre…

特征选择方法总结

问题 在数据处理中经常会遇到特征太多造成的计算负担和一些其他的影响,如过拟合等,不但使得预测结果不准确,还消耗计算时间。所以特征选择就显得非常重要了。 特征选择:从给定的特征集合中选取出相关特征子集的过程成为“特征选择…

利用sklearn进行特征选择

3种特征选择 Filter 过滤法,按照发散性或者相关性对各个特征进行评分,设定阈值或者待选择阈值的个数,选择特征。 (先对数据集进行特征选择,然后再训练学习器) Wrapper 包装法,根据目标函数&…

如何进行特征选择

如何进行特征选择 原文地址: http://blog.csdn.net/u010670689/article/details/73196546 特征选择对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、…

光谱特征选择

光谱特征选择(谱特征选择) 简介算法框架算法推导总结 Spectral feature selection可翻译为谱特征选择,之前的特征提取学习中陷入了光谱特征选择翻译的误区。 参考论文为"Spectral feature selection for supervised and unsupervised le…

模型特征选择

RF、GBDT、XGboost都可以做特征选择,属于特征选择中的嵌入式方法。比如在sklearn中,可以用属性feature_importances_去查看特征的重要度, 比如: from sklearn import ensemble#grd ensemble.GradientBoostingClassifier(n_estimators30)grd …

sklearn 数据处理与特征工程

1、数据处理的流程 2 数据预处理 Preprocessing & Impute 2.1 数据无量纲化 在机器学习算法实践中,我们往往有着将不同规格的数据转换到同一规格,或不同分布的数据转换到某个特定分布的需求,这种需求统称为将数据“无量纲化”。譬如梯度…

特征选择

一、特征选择基本问题 我们将属性称为“特征”(feature),对当前学习任务有用的属性称为“相关特征”(relevant feature)、没什么用的属性称为“无关特征”(irrelevant feature)。 从给定的特征集…

特征选择(筛选特征)

根据特征选择的形式可以将特征选择方法分为3种: Filter:过滤法,按照发散性或者相关性对各个特征进行评分,设定阈值或者待选择阈值的个数,选择特征。Wrapper:包装法,根据目标函数(通常…

机器学习 基础理论 学习笔记 (8)特征选择(feature selection)(一)

0.说明 本文也许比较乱,请看目录再食用。 后续会 出文 机器学习 基础理论 学习笔记 (8)特征选择(feature selection)(二) 将 分类问题 和 回归问题 分开总结。 以及或将出文 机器学习 基础理…

三种常见的特征选择方法

特征选择 特征选择是特征工程里的一个重要问题,其目标是寻找最优特征子集。特征选择能剔除不相关(irrelevant)或冗余(redundant )的特征,从而达到减少特征个数,提高模型精确度,减少运行时间的目的。并且常能听到“数据和特征决定…

特征选择方法最全总结!

上个月扫读完《阿里云天池大赛赛题解析》[1]后,看到书中对特征选择的讲述,于是便打算借此机会,系统梳理下各种特征选择方法。如有不足,还望指正。 一、背景介绍 在处理结构型数据时,特征工程中的特征选择是很重要的一个…

运行时错误 '-2147467259 (80004005)'

运行时错误 -2147467259 (80004005)方法 getFooterColor 作用于对象 IFPLayoutRegion 时失败遇到这样的错误主要是因为在 VBA 访问布局表格时,没有启用表尾。解决方法:在布局表格设置中启用表尾。注:同样的错误和解决方法也适用于表首。

win12服务器之常见错误:运行时错误(/应用程序中的服务器错误)

阿里云解答参考&#xff1a;https://www.cnblogs.com/xrtd/p/3704532.html 原因1: 这是由于配置中 Asp.Net 程序 没有显示详细的错误信息. 解决: 您必须修改 web.config 文件 将 <customErrors mode"On"/> 设置为mode "Off", 上传到网站根目录.然后…

问题:当运行exe程序时遇到错误0000007时如何解决

这里我是需要用的一个DDS库安装程序&#xff0c;但是经过一系列安装操作后&#xff0c;最后一步验证是否成功时出现了问题&#xff1a; 点击 该exe应用程序提示&#xff1a;应用程序错误0xc000007b 给出我使用后成功了的解决方法&#xff1a; 首先下载All in One Runtimes 简…

C++编译错误与运行时错误

笔试题里经常会有这样的题目&#xff0c;让你判断运行时错误还是编译错误。在这里将它总结一下。 在调试过程中&#xff0c;运行时错误是最麻烦的问题。因为编译错误可以由编译器检查出来&#xff0c;而大多数编译器对运行时错误却无能为力。查错和纠错的工作完全由用户自己来…

下面的程序运行时哪里会出现错误

1、下面的程序运行时哪里会出现错误&#xff1a;struct S { int i; int * p; }; int main() { S s; int * p &s.i; p[0] 4; p[1] 3; s.p p; s.p[1] 1; s.p[0] 2; return 0; } 【题目解析】 这道题考的是对结构体内存使用情况的理解。在32位的操作系统中&#xff0c;i…

Word粘贴文字时遇到报错:运行时错误‘53’:文件未找到:mathpage.WLL 解决方案

Word粘贴文字时遇到报错&#xff1a; 运行时错误‘53’&#xff1a; 文件未找到&#xff1a;mathpage.WLL 问题&#xff1a; 每次装完MathType后&#xff0c;在word里面进行粘贴操作时&#xff0c;总是出现“运行时错误‘53’&#xff1a;文件未找到&#xff1a;MathPage.WLL…

MathType 运行时错误‘53’:文件未找到:MathPage.WLL

问题描述 环境 MathType7.4Microsoft Office 365Windows 11 问题 情景1. Microsoft Word 启动时显示 Please reload Word to load MathType addin properly 情景2. 安装MathType后在 Microsoft Word 中使用复制粘贴时报错 运行时错误‘53’ 情景3. 在 Microsoft Word 中使…

JAVA的编译时错误和运行时错误

1. 要区分编译时错误和运行时错误&#xff0c;就应该先明白什么是编译&#xff1f;什么是运行&#xff1f; 首先&#xff0c;先看一下这张图&#xff1a; 编译期就是将我们写的java源代码交给编译器执行的过程&#xff0c;起翻译的作用&#xff0c;该过程主要对java源代码的…