多种数据过滤与降维算法

article/2025/10/31 10:09:16

数据过滤


1. 缺失值比率 (Missing Values Ratio)

方法的是基于包含太多缺失值的数据列包含有用信息的可能性较少。因此,可以将数据列缺失值大于某个阈值的列去掉。阈值越高,降维方法更为积极,即降维越少。

缺失值比率过滤算法示意图

2. 低方差滤波 (Low Variance Filter)

与上个方法相似,该方法假设数据列变化非常小的列包含的信息量少。因此,所有的数据列方差小的列被移除。需要注意的一点是:方差与数据范围相关的,因此在采用该方法前需要对数据做归一化处理。

低方差滤波

3. 高相关滤波 (High Correlation Filter)

高相关滤波认为当两列数据变化趋势相似时,它们包含的信息也显示。这样,使用相似列中的一列就可以满足机器学习模型。对于数值列之间的相似性通过计算相关系数来表示,对于名词类列的相关系数可以通过计算皮尔逊卡方值来表示。相关系数大于某个阈值的两列只保留一列。同样要注意的是:相关系数对范围敏感,所以在计算之前也需要对数据进行归一化处理。

高相关滤波

4. 随机森林/组合树 (Random Forests)

组合决策树通常又被成为随机森林,它在进行特征选择与构建有效的分类器时非常有用。一种常用的降维方法是对目标属性产生许多巨大的树,然后根据对每个属性的统计结果找到信息量最大的特征子集。例如,我们能够对一个非常巨大的数据集生成非常层次非常浅的树,每颗树只训练一小部分属性。如果一个属性经常成为最佳分裂属性,那么它很有可能是需要保留的信息特征。对随机森林数据属性的统计评分会向我们揭示与其它属性相比,哪个属性才是预测能力最好的属性。

随机森林

降维


1. 主成分分析 (PCA)

主成分分析是一个统计过程,该过程通过正交变换将原始的 n 维数据集变换到一个新的被称做主成分的数据集中。变换后的结果中,第一个主成分具有最大的方差值,每个后续的成分在与前述主成分正交条件限制下与具有最大方差。降维时仅保存前 m(m < n) 个主成分即可保持最大的数据信息量。需要注意的是主成分变换对正交向量的尺度敏感。数据在变换前需要进行归一化处理。同样也需要注意的是,新的主成分并不是由实际系统产生的,因此在进行 PCA 变换后会丧失数据的解释性。如果说,数据的解释能力对你的分析来说很重要,那么 PCA 对你来说可能就不适用了。

主成分分析

2. 反向特征消除 (Backward Feature Elimination)

在该方法中,所有分类算法先用 n 个特征进行训练。每次降维操作,采用 n-1 个特征对分类器训练 n 次,得到新的 n 个分类器。将新分类器中错分率变化最小的分类器所用的 n-1 维特征作为降维后的特征集。不断的对该过程进行迭代,即可得到降维后的结果。第k 次迭代过程中得到的是 n-k 维特征分类器。通过选择最大的错误容忍率,我们可以得到在选择分类器上达到指定分类性能最小需要多少个特征。

反向

3. 前向特征构造 (Forward Feature Construction)

前向特征构建是反向特征消除的反过程。在前向特征过程中,我们从 1 个特征开始,每次训练添加一个让分类器性能提升最大的特征。前向特征构造和反向特征消除都十分耗时。它们通常用于输入维数已经相对较低的数据集。

前向

降维方法的比较


最后的准确度与损失率也与选择的数据分析模型有关。因此,最后的降维率与准确度的比较是在三种模型中进行,这三种模型分别是:决策树,神经网络与朴素贝叶斯。通过运行优化循环,最佳循环终止意味着低纬度与高准确率取决于七大降维方法与最佳分类模型。最后的最佳模型的性能通过采用所有特征进行训练模型的基准准确度与 ROC 曲线下的面积来进行比较。

比较

从上表中的对比可知,数据降维算法不仅仅是能够提高算法执行的速度,同时也能过提高分析模型的性能。 在对数据集采用:缺失值降维、低方差滤波,高相关滤波或者随机森林降维时,表中的 AoC 在测试数据集上有小幅度的增长。确实在大数据时代,数据越多越好似乎已经成为公理。我们再次解释了当数据数据集宝航过多的数据噪声时,算法的性能会导致算法的性能达不到预期。移除信息量较少甚至无效信息唯独可能会帮助我们构建更具扩展性、通用性的数据模型。该数据模型在新数据集上的表现可能会更好。

其他

参考文献


  1. 降维算法:PCA、MDS、LDA、lsomap、LLE、t-SNE、Deep Autoencoder Networks
  2. 四大机器学习降维算法:PCA、LDA、LLE、Laplacian Eigenmaps

http://chatgpt.dhexx.cn/article/fqn0rKeL.shtml

相关文章

QT重写QSortFilterProxyModel实现多列数据过滤

在QTableView中可以使用QSortFilterProxyModel来过滤model的数据&#xff0c;可以通过setFilterKeyColumn(int colnum)设置需要过滤的列&#xff0c;当设置为-1时则过滤对象为所有列&#xff0c;但是此种方式只要某一列中有符合条件的数据就会被显示出来 因此我们可以重写QSort…

Java流Stream-1:数据过滤filter

重要&#xff1a;默认过滤数据实体对象时为引用传递。 &#xff08;1&#xff09;若修改过滤后的值&#xff0c;原始值会改变。 &#xff08;2&#xff09;若过滤后的数据需要变更&#xff0c;且原始值不受影响&#xff0c;需要过滤时新建对象。 1 filter方法 按照指定条件过…

【Python数据分析与处理 实训02】 ---2012欧洲杯信息分析(数据过滤与排序)

【Python数据分析与处理 实训02】 —2012欧洲杯信息分析&#xff08;数据过滤与排序&#xff09; 探索2012欧洲杯信息 对于下面的数据集进行简单的一些数据的分析训练 若需要源数据请私信~ 读取数据 euro12 pd.read_csv("G:\Projects\pycharmeProject\大数据比赛\泰迪…

【SQL语法基础】数据过滤:SQL数据过滤都有哪些方法?

我在上篇文章中讲到过&#xff0c;提升查询效率的一个很重要的方式&#xff0c;就是约束返回结果的数量&#xff0c;还有一个很有效的方式&#xff0c;就是指定筛选条件&#xff0c;进行过滤。过滤可以筛选符合条件的结果&#xff0c;并进行返回&#xff0c;减少不必要的数据行…

若依ruoyiAOP切面用于数据过滤和权限处理实例

目录 1.什么是AOP 简介 2.若依的AOP实现 2.1若依数据过滤AOP 定义注解 实现切面类 2.2数据源AOP 1.什么是AOP 简介 AOP为Aspect Oriented Programming的缩写&#xff0c;意为&#xff1a;面向切面编程&#xff0c;通过预编译方式和运行期间动态代理实现程序功能的统一…

FineReport-数据过滤权限设置

目的本省份的人只能看到某表单属于该省份的数据 安徽只能看到安徽的数据 一、在数据库中建立一张权限对应表&#xff0c;该表字段包含帆软登录用户名、省份名称即可 二、在帆软报表模板数据集中设置过滤 select * from table1 t1 left join table2 t2 on t1.MZt2.USERNAME w…

布隆过滤器(亿级数据过滤算法)

介绍 我们以演进的方式来逐渐认识布隆过滤器。先抛出一个问题爬虫系统中URL是怎么判重的&#xff1f;你可能最先想到的是将URL放到一个set中&#xff0c;但是当数据很多的时候&#xff0c;放在set中是不现实的。 这时你就可能想到用数组hash函数来实现了。 index hash(URL)…

Pandas的数据过滤

作者|Amanda Iglesias Moreno 编译|VK 来源|Towards Datas Science 从数据帧中过滤数据是清理数据时最常见的操作之一。Pandas提供了一系列根据行和列的位置和标签选择数据的方法。此外,Pandas还允许你根据列类型获取数据子集,并使用布尔索引筛选行。 在本文中,我们将介绍…

数据过滤:SQL数据过滤都有哪些方法?

我在上篇文章中讲到过&#xff0c;提升查询效率的一个很重要的方式&#xff0c;就是约束返回结果的数量&#xff0c;还有一个很有效的方式&#xff0c;就是指定筛选条件&#xff0c;进行过滤。过滤可以筛选符合条件的结果&#xff0c;并进行返回&#xff0c;减少不必要的数据行…

数据过滤(MySQL)

数据过滤 数据过滤用在WHERE表达式里&#xff0c;常用的有基本查询过滤、条件查询过滤、模糊查询过滤、字段查询过滤以及正则表达式查询过滤。 一、基本查询过滤 基本查询过滤可以查询所有字段数据或指定一个字段或者多个字段的数据。 附带建表 mysql> create table use…

掌握这些数据过滤的技巧,再复杂的业务数据也能高效处理!

随着互联网的飞速发展&#xff0c;呈爆炸式增长的数据使用户逐渐迷失在了信息的海洋之中&#xff0c;在进行数据分析时&#xff0c;海量的业务数据往往会带来一些问题&#xff1a; 准确性差&#xff1a;无效数据以及无需进行分析的数据混杂在其中&#xff0c;导致分析结果与实际…

阿里云服务器初始化

初始化阿里云服务器 进入阿里云服务器&#xff0c;然后在 配置信息 点击 重新初始化磁盘 接着会出现一个提示框&#xff0c;点击 确认 即可 进入实例云盘中&#xff0c;点击 重新初始化磁盘 然后设置密码 完成这一步后&#xff0c;输入手机验证码。这时阿里云服务器就被初始…

腾讯云服务器如何开启虚拟化,腾讯云服务器虚拟化驱动是什么

腾讯云服务器虚拟化驱动是什么&#xff1f; 云服务器虚拟化驱动&#xff0c;为腾讯自研开发&#xff0c;专门用于虚拟化效率提升的驱动程序&#xff0c;云服务器虚拟化驱动在linux系统中驱动文件名是pvdriver&#xff0c;安装路径:/usr/local/qcloud/pvdriver/bin&#xff0c;在…

金山办公CEO章庆元:数字化、云化、订阅化趋势下,组织数字办公走向纵深

关注ITValue&#xff0c;看企业级最新鲜、最价值报道&#xff01; 企业办公行业今年有3个关键词——数字化、云化、订阅化。 从数字化来说&#xff0c;国家十四五规划明确提出了“加快建设数字经济、数字社会、数字政府&#xff0c;以数字化转型整体驱动生产方式、生活方式和治…

物联网端-云一体化应用管理解决方案

近年来&#xff0c;随着云计算的发展&#xff0c;“云边端一体化”、“云端协同”等词也频繁出现在大众眼。 什么是“端-云一体化”&#xff1f; 这里我们拆开来解释&#xff1a; 云&#xff1a;云计算、云数据中心&#xff1b; 端&#xff1a;指的是终端。 合起来的意思就是…

CloudCore引领核心网云化转型

文/刘皓 2015年7月&#xff0c;全球著名咨询公司IHS Infonetics发布最新NFV&#xff08;Network Functions Virtualization&#xff0c;网络功能虚拟化&#xff09;市场调研报告。报告显示&#xff0c;NFV市场空间将从2014年的9.5亿美元增长到2019年的116亿美元&#xff0c;年…

全面推进云化,使能数字化转型 ——徐直军在2016华为全球分析师大会上的发言

文/徐直军 女士们、先生们&#xff0c;各位老朋友、新朋友&#xff0c;大家上午好&#xff01;非常高兴在同样的地点跟各位老朋友再相会&#xff0c;也非常欢迎各位新朋友来参加华为2016年的分析师大会。 这次大会的组委会给我定的主题是《全面推进云化&#xff0c;使能数字化转…

阿里云人物动漫化

简介 使用阿里云人物动漫化功能制作一款属于自己的专属头像(该功能收费) 功能描述 人物动漫化能力可以将一张人物图像进行转换处理&#xff0c;生成二次元卡通形象&#xff0c;并返回动漫化后的结果图像。效果示例如下。 原图&#xff1a; 日漫风结果图&#xff1a; 3D特效结…

服务器虚拟化与云平台,虚拟服务器和云有哪些区别

原标题&#xff1a;虚拟服务器和云有哪些区别 虚拟服务器和云有哪些区别&#xff1f;如果不是专业的人员&#xff0c;其实对于服务器是搞不懂的&#xff0c;其实虚拟服务器和云都是对硬件的抽象&#xff0c;两者都有很多好处和使用的理由&#xff0c;那么服务器虚拟化和云的区别…

腾云忆想构建云化IT生态,助力我国“双循环经济”数字化升级

新冠肺炎疫情全球蔓延,世界经济与国际局势瞬息万变。时局变化之中展望“十四五”,我国逐步形成了以国内大循环为主体、国内国际双循环相互促进的新发展格局。在新时局中,数字经济是重要的支撑力量,产业的数字化转型成为不可逆的趋势。 面对时代变局,腾云忆想紧抓历史机遇,与腾…