数据分析 | 特征提取

article/2025/8/30 6:06:29

目录

特征提取

1 方差过滤(VarianceThreshold)

2 卡方过滤(chi2;SelectKBest)

3 F检验(f_classif;SelectKBest)

关注我【生物海洋计算机支线】,获得更多生物海洋学,数据处理,作图等相关知识


上一节我们说到数据标准化和归一化

其作用是为了统一量纲,

数据分析 | 数据预处理(归一化和标准化)_我起飞啦的博客-CSDN博客_归一化 数据预处理

之后介绍了PCA降维

其目的在于减少特征数,多指标变为综合指标

数据分析 | PCA(主成分分析)从入门到数学_我起飞啦的博客-CSDN博客_pca数据分析

虽说是大数据时代了

但是很难遇到包含大量特征的数据

又但是,


特征提取

对特征进行筛选是十分必要的

过滤掉无效的信息,一方面能在后续的分析中节约计算时间,提高模型效率,一方面恰当的筛选可以提高模型的准确率。

以下介绍常用的筛选(删减)特征的方法

处理方法均来自sklearn库


1 方差过滤(VarianceThreshold)

通过特征本身进行筛选,方差小表示样本在这个特征上基本没有差异,甚至整个特征的取值都相同,那整个特征对样本基本没用,消除方差较小的特征有较高的优先级。

import pandas as pd 
data = pd.read_csv("E:\recognizor.csv") #783列特征
x = data.iloc[:,1:]   #特征列
y = data.iloc[:,0]    #目标列
x.shape 

from sklearn.feature_selection import VarianceThreshold 
selector = VarianceThreshold() #实例化,不填参数默认方差为0 
x_var = selector.fit_transform(x) #获取删除不合格特征之后的新特征矩阵 x_var.shape

2 卡方过滤(chi2;SelectKBest)

对于分类型的数据,卡方检验可以计算每个非负特征和标签之间的卡方统计量,选择出前K个分数最高的特征。

其本质是推测两组数据间的差异,原假设(H0)为“数据之间相互独立”当P值<=0.05/0.01时,

拒绝原假设,即两组数据相关,或者说数据差异不是自然形成的样本误差。

from sklearn.ensemble import RandomForestClassifier as RFC 
from sklearn.model_selection import cross_val_score 
from sklearn.feature_selection import SelectKBest 
from sklearn.feature_selection import chi2 #假设在这里需要100个特征 
x_fschi = SelectKBest(chi2, k=100).fit_transform(x, y) 
x_fschi.shape #或者通过查看特征和目标之间关系值进行筛选
chivalue, pvalues_chi = chi2(x,y) 
chivalue 
pvalues_chi 
#k取多少?我们想要消除所有p值大于设定值,比如0.05或0.01的特征: 
k = chivalue.shape[0] - (pvalues_chi > 0.05).sum() 

3 F检验(f_classif;SelectKBest)

F检验用来捕捉特征和目标之间的线性关系,当数据服从正态分布时效果更好。

F检验的原假设(H0)为“特征和目标之间不存在显著的线性关系”当P值<=0.05/0.01时,

拒绝原假设,即两组数据存在显著线性相关关系,无显著关系的则不考虑

from sklearn.feature_selection import f_classifF,pvalues_f = f_classif(x,y)
F
pvalues_f
K = F.shape[0] - (pvalues_f>0.05).sum()

关注我【生物海洋计算机支线】,获得更多生物海洋学,数据处理,作图等相关知识


http://chatgpt.dhexx.cn/article/I5D4MEyf.shtml

相关文章

特征提取的方法

机器学习系列&#xff1a;(三)特征提取与处理 特征提取与处理 上一章案例中的解释变量都是数值&#xff0c;比如匹萨的直接。而很多机器学习问题需要研究的对象可能是分类变量、文字甚至图像。本章&#xff0c;我们介绍提取这些变量特征的方法。这些技术是数据处理的前提——序…

图像特征提取(VGG和Resnet特征提取卷积过程详解)

图像特征提取&#xff08;VGG和Resnet算法卷积过程详解&#xff09; 第一章 图像特征提取认知 1.1常见算法原理和性能 众所周知&#xff0c;计算机不认识图像,只认识数字。为了使计算机能够“理解”图像&#xff0c;从而具有真正意义上的“视觉”&#xff0c;本章我们将研究…

特征提取方法

潜在语义索引 潜在语义索引&#xff08;Latent Semantic Indexing,以下简称LSI&#xff09;&#xff0c;也叫Latent Semantic Analysis ,简称LSA。本文中称为LSI。LSI是一种主题模型&#xff0c;他是利用SVD奇异值分解方法来获得文本的主题的。奇异值分解详见点击打开链接。 …

特征提取方法简介

one-hot 表示一个词 bag-of-words 表示一段文本 tf-idf 用频率的手段来表征词语的重要性 text-rank 借鉴page-rank来表征词语的权重 从基于SVD纯数学分解词文档矩阵的LSA&#xff0c;到pLSA中用概率手段来表征文档形成过程并将词文档矩阵的求解结果赋予概率含义&#xff0c;再到…

特征选择和特征提取(一、概述)

特征选择和特征提取属于图像处理领域最基本的操作。 再这之前&#xff0c;我们先来了解一下卷积和滤波&#xff0c;像平时我们听到的CNN&#xff0c;就是使用卷积操进行图像的滤波操作&#xff0c;简单来说&#xff0c;滤波是图像处理的操作&#xff0c;而卷积是实现滤波的方法…

图像特征及提取

本文主要用于记录图像特征及其提取方法 文章目录 1.颜色特征1.1量化颜色直方图1.2聚类颜色直方图 2.几何特征2.1边缘特征2.2基于特征点的特征描述子2.2.1寻找特征点&#xff1a;Harris角点检测2.2.2另一种特征点&#xff1a;斑点2.2.3SFIT&#xff1a;斑点的特征描述子 1.颜色特…

机器学习中的特征提取

特征提取是将任意数据&#xff08;如文本或图像&#xff09;转换为可用于机器学习的数字特征&#xff0c;特征提取是为了计算机更好的去理解数据。 特征提取大体上可以分为三大类&#xff1a; 字典特征提取(特征离散化)文本特征提取图像特征提取&#xff08;深度学习&#xf…

图像特征提取

从本节开始&#xff0c; 我们将逐步从数字图像处理向图像识别过渡。 严格地说&#xff0c; 图像特征提取属于图像分析的范畴&#xff0c; 是数字图像处理的高级阶段&#xff0c; 同时也是图像识别的开始。 本文主要包括以下内容 常用的基本统计特征&#xff0c; 如周长、面积…

机器视觉中的特征提取【0】:什么是特征提取,特征提取有什么作用?

1.什么是特征提取&#xff1f; 特征提取的英文叫做feature extractor&#xff0c;它是将一些原始的输入的数据维度减少或者将原始的特征进行重新组合以便于后续的使用。简单来说有两个作用&#xff1a;减少数据维度&#xff0c;整理已有的数据特征。 这里我给一个例子来解释特…

c语言结构体学习整理(结构体初始化,结构体指针)

渣渣c的c语言学习之路 1.关于c语言的结构体: 首先我们为什么要用到结构体&#xff0c;我们都已经学了很多int char …等类型还学到了同类型元素构成的数组&#xff0c;以及取上述类型的指针&#xff0c;在一些小应用可以灵活使用&#xff0c;然而&#xff0c;在我们实际应用中…

C语言----初始结构体详解

此文是作者初次学习C语言的时候&#xff0c;写的笔记博文&#xff0c;如有错误请及时指正&#xff0c;谢谢&#xff01;&#xff01;&#xff01; 目录 1&#xff0c;什么是结构体 2. 结构体的声明 2&#xff0c;1结构体声明 2&#xff0c;2结构体成员的类型 2&#xff0c;…

openVAS 介绍

含义及作用&#xff1a; OpenVAS是开放式漏洞评估系统&#xff0c;也可以说它是一个包含着相关工具的网络扫描器。其核心部件是一个服务器&#xff0c;包括一套网络漏洞测试程序&#xff0c;可以检测远程系统和应用程序中的安全问题。 OpenVAS 的功能包括非认证测试、认证测…

040 OpenVAS的下载与安装

文章目录 一&#xff1a;OpenVAS的下载二&#xff1a;OpenVAS的安装2.1&#xff1a;中文版本步骤2.2&#xff1a;英文版本步骤 一&#xff1a;OpenVAS的下载 OpenVAS是开源的网络漏洞扫描器&#xff0c;自从Nessus收费了之后&#xff0c;分支出来的免费的 官网&#xff1a;htt…

Linux 漏洞扫描 openvas

什么是OpenVAS OpenVAS是一款开源的漏洞扫描攻击&#xff0c;主要用来检测网络或主机的安全性。其强大的扫描能力来自于集成数万个漏洞测试程序&#xff0c;这些测试程序以插件的形式提供&#xff0c;可以从官方网站免费更新. 一套完整的OpenVAS系统如下图显示 ① 客户层组件 …

关于openvas

目录 一&#xff1a;什么是openvas 二&#xff1a;作者 三&#xff1a;系统简介 四&#xff1a;建立架构 五&#xff1a;openvas功能 六&#xff1a;OpenVAS的核心组件 七&#xff1a;OpenVAS部署 八&#xff1a;openvas的组件构成 一&#xff1a;什么是openvas OpenV…

openvas

目录 一、openvas的简介 1、简介 2、建立的构架 二、openvas的环境 三、openvas的组件构成 四、openvas安装及使用 一、openvas的简介 1、简介 OpenVAS是开放式漏洞评估系统&#xff0c;也可以说它是⼀个包含着相关⼯具的⽹络扫描器。其核⼼部件是⼀个服务器&#xff0c;包括…

风险评估系统OpenVAS配置使用教程说明

penVAS是一款免费的开放式风险评估工具&#xff0c;可以检测远程系统和应用程序中的安全问题。最初作为Nessus一个子工具&#xff0c;被称为 GNessUs。其特点就是允许继续免费开发。最早是由Portcullis Computer security公司的渗透测试人员发布的&#xff0c;之后由Slashdot网…

OpenVas 漏洞扫描器使用教程

Openvas简介 Openvas是开源的&#xff0c;是Nessus项目分支&#xff0c;用于管理目标系统的漏洞&#xff0c;检测目标网络或主机的安全性。它的评估能力来源于数万个漏洞测试程序&#xff0c;openvas 早起版本还有一个客户端&#xff0c;现在的版本已经不提供客户端程序&#…

OpenVAS介绍

一、背景&#xff1a; OpenVAS&#xff08;Open Vulnerability Assessment System&#xff09;是开放式漏洞评估系统&#xff0c;其核心部分是一个服务器。该服务器包括一套网络漏洞测试程序&#xff0c;可以检测远程系统和应用程序中的安全问题。OpenVAS不同与传统的漏洞扫描…

openVAS简介

文章目录 openVAS一、openVAS开发团队二、openVAS背景三、openVAS作用四、openVAS部署kali部署部署openVAS镜像简单使用新建目标&#xff08;target&#xff09;新建任务&#xff08;tasks&#xff09;开始扫描扫描详情下载报告 openVAS O p e n V A S 是 开 放 式 漏 洞 评 估…