文章目录

前言
一、建立高斯差分金字塔
- 1、建立高斯金字塔
- 2、建立高斯差分金字塔
- 3、建塔过程中参数的设定及相关细节问题
二、关键点(key points)位置确定
- 1、阈值化
- 2、在高斯差分金字塔中找极值点
- 3、调整极值点位置
- 4、舍去低对比度的点
- 5、边缘效应的去除（难点）
三、为关键点赋予方向
- 1、亚像素点尺度去对应离散点尺度
- 2、统计
- 3、找到主方向
四、构建关键点的描述符
- 1、旋转至主方向所在方向
- 2、确定关键点附近区域的大小。
- 3、在确定的区域上做128维描述符统计
总结

前言

SIFT（Scale Invariant Feature Transform）即尺度不变特征变换算法，该特征向量集具有对图像缩放，平移，旋转不变的特征。在对图片进行特征提取及匹配时，对于光照、仿射和投影变换也有一定的不变性，是一个鲁棒性较强的特征提取与匹配算法。

以下是SIFT特征提取与匹配算法的处理流程。

一、建立高斯差分金字塔

1、建立高斯金字塔

我们知道对于高斯核来说，可以用不同的方差σ计算得到不同的高斯核。通过不同尺度的高斯核对原始图像进行卷积（此处方差σ我们称为尺度），卷积过后得到最下方的Octave1图组。而高斯金字塔上方的Octave2图组是由Ovtave1图组进行隔点取点对Octave1图组进行下采样后，再用不同尺度的高斯核进行卷积得到的。也就是：

对Octave1图组中的图片进行隔点取点下采样
对下采样后的图组进行不同尺度的高斯核卷积

通过以上两个步骤，得到Octave2图组。那依次类推，Octave3是由Octave2下采样后再卷积得到的…这样，我们得到了高斯金字塔，如下图所示。
在这里插入图片描述

2、建立高斯差分金字塔

我们现在已经得到了图像的高斯金字塔。还不能结束，我们最终的目的是得到高斯差分金字塔。
由于相同图组中的图像大小是一样的，我们将相邻两层的图像像素点相减（此处的相减就是传统意义上的减号），得到差分层。这样我们对不同Octave层都进行此操作，得到高斯差分金字塔，如下图所示。

图2 高斯差分金字塔

3、建塔过程中参数的设定及相关细节问题

此处的参数主要是指两个：

O：高斯金字塔中，要有多少个Octave图组
S：高斯金字塔中，每个Octave组要有多少层

如上图第一个公式，我们要选择多少组其实可以自己设定。但原SIFT论文中给出了建议值。

对于O的选择：M、N指原图像的长和宽，求最小值后开log再减3
对于S的选择：n指我们希望提取多少个图片中的特征。一般2个的话n也就是取2，加上3后S取5

现在萌生了第一个问题，3是怎么来的呢？为什么两个公式中都有3？
答：对于这个问题，我们从结果来分析原因。我们可以看到上图2中的高斯差分金字塔，对于原高斯金字塔中的5张图，进行像素点相减操作后只能得到4张图。对于4张图片我们要找特征点，我们是在尺度空间（在前文中提到方差也就是尺度）中寻找极值点，那除了x、y两个平面方向，还有一个尺度方向，我们可以理解为z轴。那对于最上面的差分层来说，由于它上面已经没有图片了，我们无法在z方向对它进行求导，也就是说我们无法在最上层的差分层找极值点了。同理，最下层的差分层也无法找极值点。
那最上层和最下层都无法找极值点，减去2。此时要注意，我们从高斯金字塔到高斯差分金字塔的变换过程中也损失了1层。再加上损失的这层，2+1，也就是3的由来了。
在这里插入图片描述
第二个疑问，SIFT为什么要建立高斯金字塔这样的一种结构？
答：由于高斯金字塔是逐步下采样得到的一个金字塔状。我们希望算法在对图像进行处理的时候，对于不同拍摄距离得到的图片具有远近特征的不变性。无论摄像机拿的远近，对于同一个物体都可以识别。那高斯金字塔这种下大上小的结构也就模拟了这种构想。同样，用高斯核去卷积实际上是模拟了近处清晰、远处模糊。并且数学上有相关证明：高斯核是唯一一个可以模拟近处清晰、远处模糊的线性核。这也就是为什么我们只能用高斯核的原因。

第三个疑问，建塔过程中的σ如何配置的呢？
答：如下图所示，我们令k=2开n次方。对于Octave1中的第一层，我们直接用σ，第二层就乘上一个σ，即kσ，以此类推。对于Octave2中的第一层，我们取Octave1中的倒数第三层，因为倒数第三层的σ为k^nσ，也就是为了凑2σ，达到一个隔点取点的降采样效果。

第四个疑问，σ0又是如何设置的呢？
由于我们相继本身拍出的相片也不是完全清晰的，也具有一个模糊尺度。在论文中我们认为模糊尺度为0.5，我们希望第一次高斯核卷积后尺度可以达到1.6。那我们用1.52的方差σ0去卷积，就可以得到1.6的尺度。实际上这个过程是利用了高斯核的类勾股数性质，如图右下方公式。
注：用0.5尺度的高斯核去卷积，将得到的结果再用1.52尺度的高斯核去卷积。以上操作跟直接用1.6尺度的高斯核去卷积得到的图片，效果是一样的。
在这里插入图片描述

二、关键点(key points)位置确定

1、阈值化

abs(val) > 0.5*T/n							T=0.04

以上公式，通过阈值化去掉噪声点。

2、在高斯差分金字塔中找极值点

由于我们是在尺度空间中进行极值点的查找的，除了平面x、y轴外还有个尺度的σ轴，所以我们要在26个点（三层）中找到极大值点或极小值点，如下图所示。
在这里插入图片描述
我们通过这种方式，实际上是在离散空间中找到极值点的。实际上，真实极值点存在的位置可能并不是在这些个离散点上的，而是在离散空间中我们找到的极值点附近的点。所以我们通过一些方式找到一个精确的亚像素位置的真正极值点。
那么，用什么方式来进行这个真实极值点寻找呢？泰勒展开。

3、调整极值点位置

在检测到的极值点X0附近做三元二阶泰勒展开，也就是做一个X0处函数的近似，如下图。
在这里插入图片描述
得到f(X)后，我们对f(X)求导，如下：

此处，我们得到的X一帽，相当于是我们得到的X0相对于真实极值点的位移量。我们将这个值反代入f(X)中，就得到了真实极值点的值，如下。
在这里插入图片描述
当然，在算法实现时，我们求得真实极值点是一个迭代的过程。有三种情况：

设置的迭代条件：X一帽的三个分量x、y、σ均小于0.5时，方可成立。此时位移量已经足够小了，我们就认为已经收敛了。
出现函数不收敛的情况，那我们将这么点直接舍去。
函数已经收敛，但解超出了一定范围，舍去。

4、舍去低对比度的点

若|f(X)| < T/n，则舍去X

通过以上公式，舍去对比度较低的点，很可能是个噪声点。

5、边缘效应的去除（难点）

首先，我们引入一个海参矩阵，如下：
在这里插入图片描述
矩阵中的值，实际上就是上文求真实极值点过程中，框选的四个值。

海参矩阵可以描述函数的局部的曲率。我们希望某个点在x、y两个方向的曲率差不多，否则的话它很可能是一个边缘点。根据数学上的概念，海参矩阵的特征值和曲率是呈正比的。
此处我们不去算它的特征值，太麻烦了。通过引入迹和行列式来代替特征值α和β的关系，如下：
在这里插入图片描述

若Det(H)<0，说明两个特征值已经异号了，也就是曲率肯定是不接近的，存在边缘效应，直接舍去X点。
若Det(H)>0且α>β，说明γ>1，如下：

由于(γ+1)^2/γ化简后是一个对勾函数，γ>1，也就变成了一个单增函数。那么在γ=1时就是他的最小值。由于γ=α/β，γ的值越小则曲率越低，我们为γ设置一个阈值，建议取10。也就是：
在这里插入图片描述

三、为关键点赋予方向

此时我们已经确定了关键点，下面要做的就是为关键点赋予方向。假设我们找到的关键点如下图，红点是关键点。
在这里插入图片描述

1、亚像素点尺度去对应离散点尺度

首先，我们在高斯金字塔上找到和关键点的σ值最接近的某个高斯图层所对应的尺度σx。（也就是从亚像素点尺度去对应离散点的尺度）

2、统计

统计以该特征点为圆心，以1.5倍的σx为半径的圆内的所有梯度方向及其梯度幅值，并做1.5σ的高斯滤波。（此处做高斯滤波的意义就是为了加权，使得离中心越近的点权值越高）
在这里插入图片描述

3、找到主方向

通过统计结果找到该特征点的主方向，也可能存在辅方向（>80%则有）。对于有两个方向的特征点，实际上我们是以两个特征点去处理的。
在这里插入图片描述

四、构建关键点的描述符

通过上文操作，我们已经确定了关键点的xy位置信息、尺度σ以及方向。为了方便后续关键点匹配，我们最后一步要做的就是构建关键点的描述符。在SIFT算法中，描述符其实是一个128维的向量。在特征点匹配过程中，通过k近邻等方式对特征点进行匹配。

1、旋转至主方向所在方向

将特征点周围的区域旋转至主方向所对应的方向。这也是SIFT算法具有旋转不变性的原因所在。
在这里插入图片描述

2、确定关键点附近区域的大小。

如下图所示，论文中的区域大小是这样设置的。m取3，mσ是指每个小区域的边长大小。d是指所确定的区域中在x、y方向上有多少个小区域，论文中取4。
在这里插入图片描述

3、在确定的区域上做128维描述符统计

在4×4个子区域中，包含了很多梯度方向。经过高斯加权后，在每个子区域中统计8个方向的梯度长度。128维向量是怎么来的呢？16*8。16是指16个子区域，8是指8个方向。那么我们按照顺序将128个梯度长度标记即可得到关键点的描述符。
在这里插入图片描述
完成关键点进行描述后，我们就可以用K近邻等方式对最接近的两个关键点进行匹配。这样也就完成了特征点的匹配工作啦！