机器学习中的特征空间

article/2025/9/18 15:14:53

声明:这篇博文主要是对参考文献中的那个PPT的学习之后记下的一些笔记,整理出来与大家一起分享,若笔记中有任何错误还请不吝指出,文中可能会使用到原作者的一些图,若侵犯到作者的权益,还请告知,我会删除,谢谢。

一、机器学习的流程

应用机器学习算法的流程大致可以分为:

  • 收集数据
  • 数据处理,提取特征
  • 训练模型
  • 模型部署
  • 模型的应用及反馈

具体的衔接关系如下图所示:

二、机器学习的关键问题

在机器学习中主要有如下的三个关键问题:

  • 特征=对原始数据的数值表示
  • 模型=对特征的数学总结
  • 成功的应用=对于给定的数据和任务选择合适的模型和特征

1、特征

特征是对原始数据的抽象,是原始数据的抽象表示,通过使用数值表示原始数据。

1.1、文本的特征化

对于文本,通常使用的是Bag of Words词袋模型表示特征,即将文本映射成为一个词的向量,向量的长度是词典的大小,每一位表示词典中的一个词,向量中的每一位上的数值表示该词在文本中出现的次数。对于一个文本,其词向量通常是稀疏的。词袋模型如下图所示:

1.2、图像的特征化

对于彩色图像,每一个像素点是由RGB三元组组成的,同样可以可以使用类似词袋模型的Bag of Visual Words,如下图所示:

Bag of Visual Words中的每一个元素可以通过像素点的组合构成,从低维的特征到更高维的数据抽象,这便是深度学习的概念,如下图所示:

1.3、机器学习中的特征空间

从上述的特征提取中发现从原始数据中提取特征是将原始数据映射到一个更高维的空间,特征空间中的特征是对原始数据更高维的抽象。特征工程主要需要解决的问题是对具体的问题构建出适合表示该问题的特征。

Feature engineering = creating features of the appropriate granularity for the task

2、特征空间的可视化

在PPT中引用了如下的一段话:

Crudely speaking, mathematicians fall into two categories:the algebraists, who find it easiest to reduce all problems to sets of numbers and variables, and the geometers, who understand the world through shapes.– Masha Gessen, “Perfect Rigor”

这段话的大概意思是说,数学可以分为两个类别,一是代数,即将问题转换成许多组的数和变量;另一个则是几何,即通过图形的方法理解身边的事物。

例如对于上述的词袋模型,可以将每个词表示成一个维度,如下图的两个维度(cute,puppy):

如果此时的维度升高到三维(cute,puppy,extremely),此时的特征空间可表示为下图:

3、模型

模型是对特征的一种数学的总结,是指对特征进行的一种数学的表达。对于分类模型,以二分类为例,主要是要找到一个分隔超平面将特征空间分成两个类,如下图所示:

对于聚类模型,通过对特征空间中的特征实施某种相似性的度量,将相似的特征聚在一起,便达到了聚类的目的,如下图所示:

对于回归问题,需要找到最合适的方式去拟合样本空间中的样本点,如下图所示:

4、特征工程的可视化

对于如下的文本分类问题,文本分别为:

  • I have a puppy.
  • I have a cat.
  • I have a kitten.
  • I have a dog and I have a pen.

此时利用bag of words的文本特征处理方法,我们可以得到下面的图:

对于上述的文本分类问题而言,增加了”have”这一维的特征,对于问题(区分dog和cat)而言,是一个没有用的特征。我们希望能够选择出对于具体的问题具有重要贡献的词语,赋以更大的权重。可以使用词频-逆文本频率(Term Frequency-Inverse Document Frequency of word, ft-idf),tf-idf用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。其中,词频(tf)表示的是在文章中该词出现的次数,逆文本频率(idf)是一个词语普遍重要性的度量。tf-idf的主要思想是如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。

idf的计算方法为:

log(DDw)

其中, D 表示所有文章的数目,Dw表示的包含词 w 的文章的数目。则tf-idf的计算公式为:

tfidf=tf×idf

对于上述的问题,tf-idf表示下的图为:

通过上图,我们看出,这样便能将“dog”和“cat”区分开。

5、其他的一些主题

机器学习中还有一些其他的主题,包括:

  • 特征的归一化
  • 特征变化
  • 模型的正则化
  • ······

参考文献

《Understanding Feature Space in Machine Learning – Data Science Pop-up Seattle》Alice Zheng

若需要PDF版本,请关注我的新浪博客@赵_志_勇,私信你的邮箱地址给我。


http://chatgpt.dhexx.cn/article/fYrfJBu9.shtml

相关文章

JQuery按name属性选择元素

方法1:使用name属性选择器 name属性选择器可用于按name属性选择元素。此选择器选择值与指定值完全相等的元素。 语法:[name“nameOfElement”] 示例: 输出: 方法2:使用javascript按名称获取元素并将其传递给jQuer…

js的各种选择器

Js选择器总结 一、原生JS选择器# JS选择器常用的有getElementById()、getElementsByName()、getElementsByTagName()、getElementsByClassName()、querySelector()、querySelectorAll() A: getElementById(ID): 返回对指定ID的第一个对象的引用,如果在…

微信小程序之选择器

本文是转载自&#xff1a;https://blog.csdn.net/qq_35713752/article/details/80295372 选择器示例demo&#xff1a; 1.普通选择器 2.多列选择器 3.时间选择器 4.日期选择器 5.省市区选择器 源码&#xff1a; wxml <view class"container"> <…

关于HTML中常用选择器

一.五种基本选择器: 1&#xff09;*&#xff1a;匹配HTML中所有元素&#xff0c;一般用于除去内边距和外边距&#xff0c;其性能较差&#xff0c;不推荐使用&#xff1b; 2&#xff09;标签名&#xff08;在JavaScript中也称节点&#xff09;:标签选择器。注意在用标签修改样式…

JQuery选择器超级详细

基本选择器 id选择器&#xff1a;$("#id的属性值") 类选择器&#xff1a;$(".class的属性值") 标签选择器&#xff1a;$("标签名") 并集选择器&#xff1a;$("选择器1&#xff0c;选择器2") 层级选择器 后代选择器&#xff1a;$…

JavaScript选择器

JavaScript选择器 通过 id 来查找 HTML 元素 比如 <p id"#a1">huanmin</p> <script type"text/javascript">var namedocument.getElementById("a1")console.log(name) </script>同过name选择器查找所有name属性的元素…

JQuery 选择器

JQuery 选择器 花(0) jQuery 的选择器可谓之强大无比&#xff0c;这里简单地总结一下常用的元素查找方法 $("#myELement") 选择id值等于myElement的元素&#xff0c;id值不能重复在文档中只能有一个id值是myElement所以得到的是唯一的元素 $("div") …

CSS选择器

在 CSS 中&#xff0c;选择器是选取需设置样式的元素的模式。 下面我们介绍几种常用选择器: 1.元素选择器:通过选择html标签设置css样式 如果设置 html的样式&#xff0c;选择器通常将是某个 html元素&#xff0c;比如 p、h1、em、a&#xff0c;甚至可以是 html 本身&#x…

Verilog入门——Quartus2基础使用

一、新建工程 1、打开Quartus2 2、点击菜单栏中的“file”&#xff0c;选择“New Project Wizard" 3、点击Next 4、选择工程存储路径 5、输入工程名字 6、点击Next 7、选择fpga类型和型号&#xff0c;根据自己的板子型号选择 8、一路Next&#xff0c;直到finish 9、到…

Quartus II 13.1入门级使用方法 -仿真篇,适用于小白

上次的文章&#xff0c;小白介绍了如何在Quartus上面创建编译一个工程&#xff0c;以一个计数器为例&#xff01;但是在实际的工程中&#xff0c;仿真往往更加的重要。小白呢&#xff0c;喜欢用Quartus调用Modelsim来进行仿真。下面就介绍如何在Quartus中生成仿真测试文件的模板…

Quartus-II 13 安装

Quartus-II 13 安装 前言一、Quartus II的安装二、Quartus II的注册总结参考文章 前言 安装Quartus前请先完成Modelsim的安装&#xff0c;详情点击此处 Quartus-II 13文件百度网盘连接&#xff1a; https://pan.baidu.com/s/1a9d-bq9RZmWrRV542X4IEA 提取码&#xff1a;ifte …

QUARTUS 2 基本操作使用(quartus13.0)

本文从建立完工程开始&#xff0c;到下载结束 编写设计文件 点击Files&#xff0c;可以添加设计文件 设置工程顶层 ​编辑 再此介绍下工具栏&#xff0c;只介绍用的多的 绑定引脚&#xff1a;fpga大部分引脚都是GPIO&#xff0c;因此给他编辑代码后&#xff08;赋予他功能&am…

quartus II【如何进行顶层设计】

1.使用原理图进行顶层设计 1).首先设计好两个模块文件&#xff0c;在导航窗口Files下显示了已经设计好的文件 2).分别选中每个文件&#xff0c;右键创建为元件 3).创建块设计文件 4).空白处右键insert或者单击箭头所指图标&#xff0c;也可以直接在空白处双击左键&#xff…

Quartus II 的入门级使用

好久没有用VHDL写东西了&#xff0c;今天需要完成一个项目&#xff0c;重新复习一下 新建工程 新建工程 file-->New Project Wizard, next, 选择存放的路径名字&#xff08;projecttop-level 名字要相同&#xff09;&#xff0c; next&#xff0c;File name名字同上&#x…

Quartus II 之常见问题(一)

1. 问题描述&#xff1a; 设计16位加法器遇到的问题&#xff1a; Error: Can’t synthesize current design – Top partition does not contain any logic问题分析&#xff1a; 在程序中使用电路图为顶层文件&#xff0c;但是没有接上管脚&#xff0c;所以弹出以上错误如果使…

Quartus ii 13.1 数字时钟

内容摘要&#xff1a; 使用计数器和数据选择器等器件实现数字时钟电路。电路最终在开发板上显示的是时钟的秒和分&#xff08;开发板所限&#xff0c;当然如果开发板支持8位显示的话也可以自己加到小时位的显示&#xff09;。电路包四个部分&#xff1a;时钟信号分频电路&#…

安装Quartus-II

一、Quartus II的下载 百度网盘下载链接&#xff1a;百度网盘 请输入提取码 提取码&#xff1a;ifte 说明&#xff1a; 本链接来自于正点原子官方资料下载 二、Quartus II的安装 1.解压压缩包 2.运行可执行程序 3.安装导向过程 ①进入welcom界面 ②勾选“I accept the agre…

Quartus II - 软件安装教程

博主福利&#xff1a;100G电子设计学习资源包&#xff01; http://mp.weixin.qq.com/mp/homepage?__bizMzU3OTczMzk5Mg&hid7&snad5d5d0f15df84f4a92ebf72f88d4ee8&scene18#wechat_redirect -------------------------------------------------------------------…

Quartus II 的下载及安装

一、下载Quartus II 百度网盘下载链接&#xff1a; https://pan.baidu.com/s/1a9d-bq9RZmWrRV542X4IEA 提取码&#xff1a;ifte 说明&#xff1a; 本链接来自于正点原子官方资料下载 二、Quartus II 安装 解压压缩包 运行可执行程序 安装 三、Quartus II 的注册 下载破解器文…

Quartus II 入门案例(VHDL)

前言 本文介绍Quartus II的使用方法&#xff0c;通过VHDL硬件描述语言编程来实现简单的电路功能。 一、使用步骤 首先打开Quartus II 新建vhdl文件 右侧就是代码编辑界面 本例通过VHDL实现一个简单的非门案例&#xff0c;有利于新手快速入门 相关量解释 nottest&#xff1a…