特征工程与自动特征工程

article/2025/8/15 19:31:02

目录

1. 什么是特征工程

2. 什么是自动特征工程

2.1 自动方法有哪些

3. 文献说明

4、参考文献


1. 什么是特征工程

特征工程,是指用一系列工程化的方式从原始数据中提取出更好的数据特征,以提升模型的训练效果。特征工程是机器学习中不可或缺的一部分,尤其是在浅层机器学习领域中占有非常重要的地位。好的特征工程很好的混合了专业领域知识、直觉和基本的数学能力。特征工程通常包括数据预处理、特征选择、降维等环节。

2. 什么是自动特征工程

自动化特征工程能够对特征工作中存在的必要而繁琐的工作进行自动化处理,从而优化机器学习模型的构建和部署,使开发者能够更多地关注其他重要步骤,尽量减轻其在特征设计环节的工作。

主要有Featuretools、Cognito、H2O.ai等工具。所用到的典型方法除了早期以评价引导方式为代表的高搜索代价方法,近年比较有影响力的有DFS和LFE,这两类方法都是从学习的角度去考虑特征工程的自动化。

2.1 自动方法有哪些

深度特征合成(DFS:Deep Feature Synthesis)的基本概念,这个自动化特征工程方法创建的特征能够与数据科学家自己创建的特征媲美。DFS中将与数据集本身无关的操作,称之为“基元”。新的特征通常由先前获取的特征派生出来。基元是DFS的基石,它定义了输入和输出的类型,把基元组合起来就可以构造复杂特征。深度学习通常需要大量样本来学习复杂的结构,而DFS则是基于数据集的特点来构建潜在特征的。对于许多企业来说,不一定有足够的样本来做深度学习,DFS则提供了一种能够基于更小的数据集来进行特征工程的方法,而且这些特征更加容易被人类所解释。

LFE为代表的理由机器学习方法通过对大量的数据的特征工程进行学习,对新数据的特征工作操作方法进行预测。最初用于LR和RF两种模型上,现在提出用强化学习进行搜索的方法。LFE的方法发表在IJCAI-17。

在近年的AI会议上,对特征提取方法的研究比较多,但对特征工程自动化的研究相对较少,有微软基于Nas神经架构搜索的思想去做特征工程的。

总结起来,15-16年主要以DFS为代表的文章,提出的自动特征工程方法主要为预定义的特征变换,利用简单的搜索算法进行训练,能处理的数据多为一张表,没有考虑到多个关系数据库之间的连线。17年以来以IBM的UK等人主要以机器学习、深度学习和强化学习方法对自动特征工程进行研究,当前正在应用集成学习和强化学习对关系型多数据库表进行特征工程研究。

3. 文献说明

  • (DFS)Kanter J M, Veeramachaneni K. Deep feature synthesis: Towards automating data science endeavors[C]//2015 IEEE International Conference on Data Science and Advanced Analytics (DSAA). IEEE, 2015: 1-10.
    输入:非结构化数据,1张表,包含id和属性
    输出:合成后的特征,该id下的多个新特征
    处理:DFS中将与数据集本身无关的操作,称之为预定义“基元”。新的特征通常由先前获取的特征派生出来。基元是DFS的基石,它定义了输入和输出的类型,把基元组合起来就可以构造复杂特征。深度学习通常需要大量样本来学习复杂的结构,而DFS则是基于数据集的特点来构建潜在特征的。DFS则提供了一种能够基于更小的数据集来进行特征工程的方法,而且这些特征更加容易被人类所解释。
  • (LFE)Nargesian F, Samulowitz H, Khurana U, et al. Learning Feature Engineering for Classification[C]//IJCAI. 2017: 2529-2535.
    输入:非结构化数据,表格
    输出:合成后的特征,该id下的多个新特征,或者对新数据推荐特征,类似特征筛选。
    处理:LFE和DFS相似都是一系列简单的特征变换方法基础上对大量的数据的特征工程进行学习,通过相似性对新数据的特征工作操作方法进行推荐预测。最初用于LR和RF两种模型上。
  • Lam H T, Minh T N, Sinn M, et al. Neural Feature Learning From Relational Database[J]. arXiv preprint arXiv:1801.05372, 2018.
    输入:关系表,多张表
    输出:合成新的特征
    处理:和DFS类似,针对非数值数据,将多个关系表作为输入,通过LSTM深度神经网络学习数据与特征变换操作的关系,学得数据适应的变换。
  • Khurana U, Samulowitz H, Turaga D. Feature engineering for predictive modeling using reinforcement learning[C]//Thirty-Second AAAI Conference on Artificial Intelligence. 2018.
    输入:非结构化数据,表格
    输出:合成的新特征
    处理:对所有预定义的特征变换,通过一些规则组合成一系列的变换序列图,然后通过强化学习q-learning,输入数据对变换序列图进行训练,得到最好的特征变化序列。
  • Khurana U, Turaga D, Samulowitz H, et al. Cognito: Automated feature engineering for supervised learning[C]//2016 IEEE 16th International Conference on Data Mining Workshops (ICDMW). IEEE, 2016: 1304-1307.
    输入:关系性数据
    输出:合成的新特征
    处理:介绍Cognito系统,通过层级关系和非穷尽的方式,设计了大量的特征构建的方法,通过英语贪心搜索的策略,选出最优的特征变换方法,逐步最大化模型精度。
  • Udayan Khurana, Horst Samulowitz, Deepak Turaga. Ensembles with Automated Feature Engineering. [C]//ICML AutoML workshop. 2018.
    输入:关系性数据
    输出:合成的新特征
    处理:介绍了UK等人在特征工程中的最新工作,对特征工程中特征变换的搜索模型进行集成学习,利用强化学习去搜索最好的集成方式。该工作正在进行,没有在大的数据集上进行测试,只是有一个小实验。
  • Nargesian F, Khurana U, Pedapati T, et al. Dataset Evolver: An Interactive Feature Engineering Notebook[C]//Thirty-Second AAAI Conference on Artificial Intelligence. 2018.
    输入:关系性数据
    输出:合成的新特征
    处理:介绍了特征工程工具,利用LFE和强化学习等方法进行特征变换搜索,以jupyter notebook为基础,作为插件式的特征工程工具。

  • de Melo V V, Banzhaf W. Automatic feature engineering for regression models with machine learning: An evolutionary computation and statistics hybrid[J]. Information Sciences, 2018, 430: 287-313.
  • Chen X, Lin Q, Luo C, et al. Neural feature search: A neural architecture for automated feature engineering[C]//2019 IEEE International Conference on Data Mining (ICDM). IEEE, 2019: 71-80.
    用强化学习,类似神经网络架构搜索的方法进行最适合的特征工程算子搜索

4、参考文献

  1. (DFS) Kanter J M, Veeramachaneni K. Deep feature synthesis: Towards automating data science endeavors[C]//2015 IEEE International Conference on Data Science and Advanced Analytics (DSAA). IEEE, 2015: 1-10.
  2. (LFE) Nargesian F, Samulowitz H, Khurana U, et al. Learning Feature Engineering for Classification[C]//IJCAI. 2017: 2529-2535.
  3. Lam H T, Minh T N, Sinn M, et al. Neural Feature Learning From Relational Database[J]. arXiv preprint arXiv:1801.05372, 2018.
  4. Khurana U, Samulowitz H, Turaga D. Feature engineering for predictive modeling using reinforcement learning[C]//Thirty-Second AAAI Conference on Artificial Intelligence. 2018.
  5. Khurana U, Turaga D, Samulowitz H, et al. Cognito: Automated feature engineering for supervised learning[C]//2016 IEEE 16th International Conference on Data Mining Workshops (ICDMW). IEEE, 2016: 1304-1307.
  6. Udayan Khurana, Horst Samulowitz, Deepak Turaga. Ensembles with Automated Feature Engineering. [C]//ICML AutoML workshop. 2018.
  7. Nargesian F, Khurana U, Pedapati T, et al. Dataset Evolver: An Interactive Feature Engineering Notebook[C]//Thirty-Second AAAI Conference on Artificial Intelligence. 2018.
  8. de Melo V V, Banzhaf W. Automatic feature engineering for regression models with machine learning: An evolutionary computation and statistics hybrid[J]. Information Sciences, 2018, 430: 287-313.
  9. Chen X, Lin Q, Luo C, et al. Neural feature search: A neural architecture for automated feature engineering[C]//2019 IEEE International Conference on Data Mining (ICDM). IEEE, 2019: 71-80.

http://chatgpt.dhexx.cn/article/433Keaf9.shtml

相关文章

特征工程常用方法

特征工程 ●特征(feature) :数据中抽取出来的对结果预测有用的信息。 ●特征的个数就是数据的观测维度 ●特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程, ●特征工程一般包括特征清…

特征工程——文本特征

目录 文本特征 1.expansion编码 2.consolidation编码 3.文本长度特征 4.标点符号特征 5.词汇属性特征 6.特殊词汇特征 7.词频特征 8.TF-IDF特征 9.LDA特征 注意: 1. 本系列所有的文章主要是梯度提升树模型展开的,抽取的特征主要为帮助梯度提升…

时间序列特征工程

关注微信公众号“时序人”获取更好的阅读体验 时间序列知识整理系列 时间序列统计分析时间序列聚类时间序列预测时间序列回归时间序列特征工程时间序列补缺时间序列异常检测 前几次的文章分享,我们了解了时间序列分析的基础方法以及预测方法。但在使用这些方法一般…

机器学习——特征工程——交互特征(多项式特征)

一、交互特征定义 两个特征的乘积可以组成一对简单的交互特征,这种相乘关系可以用逻辑操作符AND来类比,它可以表示出由一对条件形成的结果:“该购买行为来自于邮政编码为98121的地区”AND“用户年龄在18和35岁之间”。这种特征在基于决策树的…

特征工程到底是什么?

特征工程是一个过程,它首先在概念上,然后在程序上将一个原始样本转化为特征向量。它包括将一个特征概念化,然后编写程序代码,可能借助一些间接数据,将整个原始样本转化为一个特征。 4.1 为什么要进行特征工程 具体来…

什么是特征工程?如何进行特征工程?

1 特征工程是什么? 有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中…

特征工程

文章目录 一、特征工程概述二、特征选择1.什么是特征选择2.为什么要做特征选择3.特征选择的基本原则4.特征选择常用的四种方法4.1 方差选择法4.2 相关系数法4.3 递归特征消除法4.4 模型选择法 参考: 三、特征构造1.什么是好?2.常见做法3.两个变量组合而成…

机器学习——特征工程(3分钟的超详细介绍)

目录 1 什么是特征工程?2 数据预处理和特征处理2.1 数据预处理2.2 特征处理 3 特征降维3.0 什么是特征降维?3.1 特征选择3.2 线性降维3.2.1 主成分分析法(PCA)3.2.2 线性判别分析法(LDA) 1 什么是特征工程&…

机器学习之特征工程详解

特征工程是指使用专业的背景知识和技巧处理数据,使得特征能在机器学习算法上发生更好的作用的过程。更好的特征意味着更强的灵活性,只需简单模型就能得到更好的结果,因此,特征工程在机器学习中占有相当重要的地位,可以…

【特征工程】呕心之作——深度了解特征工程

【博客地址】:https://blog.csdn.net/sunyaowu315 【博客大纲地址】:https://blog.csdn.net/sunyaowu315/article/details/82905347 对数据分析、机器学习、数据科学、金融风控等感兴趣的小伙伴,需要数据集、代码、行业报告等各类学习资料&am…

python右键idel消失问题

由于先安装的是的python2.7,后来改用python3.4出现了idel不见的问题: cmd:regedit SystemFileAssociations 新建项: ‘.py’右侧键值不管,‘shell’,edit的键值均为‘Edit with IDLE’即可 将’command‘的键值设置…

分析及解决:虚拟机无法连接虚拟设备idel 0:1 问题

虚拟机无法连接虚拟设备 问题背景解决过程一次性永久解决方式 问题背景 在学习大数据集群开发的时候,按照要求需要配置多个使用Ubuntu操作系统的虚拟机组合集群:master,slave1,slave2。但在我按照要求配置好三个虚拟机后&#xf…

python的使用方法图解_python开发之IDEL(Python GUI)的使用方法图文详解

本文讲述了python开发之IDEL(Python GUI)的使用方法。分享给大家供大家参考,具体如下: 在安装完Python后,我们希望能够运用python GUI来运行一些我们编写的程序,那么Python GUI怎样用呢? 看完这篇blog,也…

python、idel、pycharm的安装使用

python的安装 Python 3的安装 idle的使用 Python安装的过程中默认自动安装了idle,idl是python自带的集成开发环境。 交互环境 如何启动idle 第一种,开始菜单所有应用点击idle 第二种,在搜索栏当中直接输入idle 集成开发环境PyCham…

在anaconda设置Python的IDEL编辑器

在电脑中安装了anaconda(如果没有,可参考博客),anaconda会自动安装Python,可是想要用Python的IDEL编辑器还不知道怎么弄。百度了下终于查找到了具体的设置方法。主要分为两步。 1、修改注册表中信息,将.py…

idel部署的问题

war和war exploded的区别 转载地址:https://blog.csdn.net/xlgen157387/article/details/56498938 在使用IDEA开发项目的时候,部署Tomcat的时候通常会出现下边的情况: 是选择war还是war exploded 这里首先看一下他们两个的区别:…

python开发_tkinter_窗口控件_自己制作的Python IDEL_博主推荐

在了解python中的tkinter模块的时候,你需要了解一些tkinter的相关知识 下面是python的API文档中的一个简单例子: 1 import tkinter as tk2 3 class Application(tk.Frame):4 def __init__(self, masterNone):5 tk.Frame.__init__(self, mast…

解决idel连接mysql数据库报错问题

使用idel来连接mysql数据库时出现: Server returns invalid timezone. Need to set ‘serverTimezone’ property报错信息。 查询相关资料后发现,我们本地使用的idel连接mysql时,使用的时区有问题而导致的报错。 解决方式: 修…

VUE与IDEL解决跨域问题

前言 跨域是浏览器对ajax请求的限制 跨域:指的是浏览器不能执行其他网站的脚本。它是由浏览器的同源策略造成的,是浏览器对js施加的安全限制。(ajax可以) 同源策略:是指协议,域名,端囗都要相同…

Python在IDLE中实现清屏和更改IDEL的shell的背景颜色

文章目录 更改IDEL的shell背景颜色在IDEL中实现清屏 今天才开始打算自学Python,刚装好的Python,使用IDEL的时候,发现白色的背景是在很闪眼睛,属实顶不住,然后就去问度娘,找到了以下的更改IDEL中的背景颜色&…