机器学习——特征工程

article/2025/8/14 19:13:38

目录

特征工程

特征构造

特征选择

特征提取

模拟训练

训练数据收集方法


 

特征工程

特征工程就是一个从原始数据提取特征的过程,这些特征可以很好地描述这些数据,并且利用它们建立的模型在未知数据上的性能可以达到最优,最大限度减少“垃圾进,垃圾出”。特征提取得越有效,意味着构建的模型性能越出色。

 特征工程主要包括特征构造(Feature construction)、 特征选择(Feature Selection)、 特征提取( Feature Extraction)

特征构造

特征构建指的是从原始数据中构建新的特征,在实际应用中需要手工构建。首先研究真实的数据样本,思考问题的形式和数据结构,如何更好地应用到预测模型中。


特征构建需要很强的洞察力和分析能力,要求能够从原始数据中找出一些具有物理意义的特征。如果原始数据是表格数据,一般使用混合属性或者组合属性来创建新的特征,或是分解、切分原有的特征来创建新的特征。

特征生成前的原始数据可以分单列变量、多列变量、多行样本(时间序列)等三种情况。

特征选择

特征选择的目的是从特征集合中挑选一组最具统计意义的特征子集从而达到降维的效果。在实际应用中,常用的方法是用一些评价指标单独地计算出单个特征跟类别变量之间的关系。如Pearson相关系数、基尼指数(Gini-index)、 信息增益(Information Gain)等。


特征子集选择的方法属于筛选器(iter)方法,它主要例重于单个特征跟目标变量的相关性。优点是计算时间上较商效,对于过拟合问题也具有较高的鲁棒性。缺点就是倾向于选择冗余的特征,因为他们不当虑特征之间的相关性有可能某个特征的分类能力很差,但是它和某些其它特征组合起来会得到不错的效果。

特征子集选取的方法还有封装器(wrapper) 和集成方法(Embeded)。


封装器方法实质上是一个分类器,封装器用选取的特征子集对样本集进行分类,分类的精度作为衡量特征子集好坏的标准,经过比较选出最好的特征子集。常用的有逐步回归(Stepwise regression)、 向前选择(Forward selection)和向后选择(Backward selection)。 它的优点是考虑了特征与特征之间的关联性,缺点是当观测数据较少时容易过拟合,当特征数量较多时,计算时间会较长。


对于集成方法,它是学习器自身自主选择特征,如使用Regularization 做特征选择,或者使用决策树思想,例如应用随机森林和Gradient boosting做特征选择,本质上都是基于决策树的特征选择,只是细节上有些区别。

特征提取

特征提取目的是自动地构建新的特征,将原始数据转换为一组具有明显统计意义的核心特征。例如通过变换特征取值来减少原始数据中某个特征的取值个数等,或者减少特征的数量,只选择关键特征。对于表格数据,可以在特征矩阵上使用主成分分析来进行特征提取。

常用的特征提取方法有
主成分分析(PCA)
独立成分分析(Independent component analysis, ICA)
线性判别分析(LDS)

模拟训练

模型训练常见术语
A/B测试(AB testing
基准(baseline
批次(batch
 批次规模(batch size)是训练过程中一个批次中的样本的数量
周期(epoch
检查点(checkpoint
收敛(convergence
凸函数(convex function
决策边界(decision boundary
泛化(generalization
梯度下降(gradient descent

训练数据收集方法

从专业数据公司购买
免费的公开数据
系统生成、人工标注和交换


http://chatgpt.dhexx.cn/article/1VtFt8wy.shtml

相关文章

特征工程文章收集

1. 离散特征编码方法 数据预处理:离散特征编码方法_快乐小码农的博客-CSDN博客_离散特征编码文章目录数据预处理:离散特征编码方法无监督方法:1.序号编码OrdinalEncoder2.独热编码OneHotEncoder3.二进制编码BinaryEncoder4.计数编码CountEnco…

2022年Python自动化特征工程框架

💡 作者:韩信子ShowMeAI 📘 机器学习实战系列:https://www.showmeai.tech/tutorials/41 📘 本文地址:https://www.showmeai.tech/article-detail/328 📢 声明:版权所有,转…

数据的特征工程

数据的特征工程 1.特征工程是什么 特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的模型准确性 2.特征工程的意义 更好的特征意味着更强的鲁棒性 更好的特征意味着只需用简单模型 更好的特征意味着更好的结果 3.…

机器学习中的特征建模(特征工程)和算法选型建模 - 以暴力破解识别为例

catalogue 1. 特征工程是什么?有什么作用? 2. 特征获取方案 - 如何获取这些特征? 3. 特征观察 - 运用各种统计工具、图标等工具帮助我们从直观和精确层面认识特征中的概率分布 4. 特征处理 - 特征清洗 5. 特征护理 - 特征预处理 6. 特征处理 …

机器学习之特征工程

机器学习之特征工程 转载自: 点击打开链接 在这个振奋人心的程序员节日里,我决定认真地写一篇文章来纪念一下自己这长达六年程序员史。o(╯□╰)o 本文是一篇关于特征工程的总结类文章,如有不足之处或理解有偏差的地方,还望多多指…

Python机器学习—特征工程

文章目录 1、数据集1.1 可用数据集1.2 scikit-learn数据集sklearn小数据集sklearn大数据集 1.3 数据集的划分数据集划分API 2.特征工程2.1特征工程包含内容 3.特征提取3.1字典特征提取3.2 文本特征提取3.3中文文本特征提取3.4 Tf-idf文本特征提取公式 4.特征预处理4.1 归一化4.…

特征工程全过程

文章目录 简介数据预处理 无量纲化 标准化区间缩放法标准化与归一化的区别对定量特征二值化对定性特征哑编码缺失值计算数据变换回顾特征选择 Filter 方差选择法相关系数法卡方检验互信息法Wrapper 递归特征消除法Embedded 基于惩罚项的特征选择法基于树模型的特征选择法总结降…

特征工程与自动特征工程

目录 1. 什么是特征工程 2. 什么是自动特征工程 2.1 自动方法有哪些 3. 文献说明 4、参考文献 1. 什么是特征工程 特征工程,是指用一系列工程化的方式从原始数据中提取出更好的数据特征,以提升模型的训练效果。特征工程是机器学习中不可或缺的一部…

特征工程常用方法

特征工程 ●特征(feature) :数据中抽取出来的对结果预测有用的信息。 ●特征的个数就是数据的观测维度 ●特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程, ●特征工程一般包括特征清…

特征工程——文本特征

目录 文本特征 1.expansion编码 2.consolidation编码 3.文本长度特征 4.标点符号特征 5.词汇属性特征 6.特殊词汇特征 7.词频特征 8.TF-IDF特征 9.LDA特征 注意: 1. 本系列所有的文章主要是梯度提升树模型展开的,抽取的特征主要为帮助梯度提升…

时间序列特征工程

关注微信公众号“时序人”获取更好的阅读体验 时间序列知识整理系列 时间序列统计分析时间序列聚类时间序列预测时间序列回归时间序列特征工程时间序列补缺时间序列异常检测 前几次的文章分享,我们了解了时间序列分析的基础方法以及预测方法。但在使用这些方法一般…

机器学习——特征工程——交互特征(多项式特征)

一、交互特征定义 两个特征的乘积可以组成一对简单的交互特征,这种相乘关系可以用逻辑操作符AND来类比,它可以表示出由一对条件形成的结果:“该购买行为来自于邮政编码为98121的地区”AND“用户年龄在18和35岁之间”。这种特征在基于决策树的…

特征工程到底是什么?

特征工程是一个过程,它首先在概念上,然后在程序上将一个原始样本转化为特征向量。它包括将一个特征概念化,然后编写程序代码,可能借助一些间接数据,将整个原始样本转化为一个特征。 4.1 为什么要进行特征工程 具体来…

什么是特征工程?如何进行特征工程?

1 特征工程是什么? 有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中…

特征工程

文章目录 一、特征工程概述二、特征选择1.什么是特征选择2.为什么要做特征选择3.特征选择的基本原则4.特征选择常用的四种方法4.1 方差选择法4.2 相关系数法4.3 递归特征消除法4.4 模型选择法 参考: 三、特征构造1.什么是好?2.常见做法3.两个变量组合而成…

机器学习——特征工程(3分钟的超详细介绍)

目录 1 什么是特征工程?2 数据预处理和特征处理2.1 数据预处理2.2 特征处理 3 特征降维3.0 什么是特征降维?3.1 特征选择3.2 线性降维3.2.1 主成分分析法(PCA)3.2.2 线性判别分析法(LDA) 1 什么是特征工程&…

机器学习之特征工程详解

特征工程是指使用专业的背景知识和技巧处理数据,使得特征能在机器学习算法上发生更好的作用的过程。更好的特征意味着更强的灵活性,只需简单模型就能得到更好的结果,因此,特征工程在机器学习中占有相当重要的地位,可以…

【特征工程】呕心之作——深度了解特征工程

【博客地址】:https://blog.csdn.net/sunyaowu315 【博客大纲地址】:https://blog.csdn.net/sunyaowu315/article/details/82905347 对数据分析、机器学习、数据科学、金融风控等感兴趣的小伙伴,需要数据集、代码、行业报告等各类学习资料&am…

python右键idel消失问题

由于先安装的是的python2.7,后来改用python3.4出现了idel不见的问题: cmd:regedit SystemFileAssociations 新建项: ‘.py’右侧键值不管,‘shell’,edit的键值均为‘Edit with IDLE’即可 将’command‘的键值设置…

分析及解决:虚拟机无法连接虚拟设备idel 0:1 问题

虚拟机无法连接虚拟设备 问题背景解决过程一次性永久解决方式 问题背景 在学习大数据集群开发的时候,按照要求需要配置多个使用Ubuntu操作系统的虚拟机组合集群:master,slave1,slave2。但在我按照要求配置好三个虚拟机后&#xf…