[解疑]图像、矩阵的二维空间变换

本文经过参考多个文章整理而成，感谢各位博主的无私分享。

综述

图像（2维平面）到图像（2维平面）的四种变换包括：等距变换，相似变换，仿射变换，投影变换。对图像的几何变换本质上是一种线性变换，其数学本质为 $I_{new}=T{I_{old}}$ ，即通过变换矩阵 $T$ 将原图上的点的位置 $I_{old}$ 变换到新的位置，从而得到新的图像 $I_{new}$ 。

执行一般的二维空间变换包括如下三步：

定义空间变换的参数；
创建变换结构体TFORM，它定义了你所要执行变换的类型；
TFORM结构体包含了执行变换需要的所有参数。你可以定义很多类型的空间变换，包括仿射变换affine transformations（如平移translation，缩放scaling，旋转rotation，剪切shearing）、投影变换projective transformations和自定义的变换custom transformations。
创建结构体的方法有两种：使用maketform或者使用cp2tform。
执行变换。
通过将要变换的图像和TFORM结构体传递给imtransform函数即可实现变换。

在这里插入图片描述
2D平面变换示意图

Translation 平移
Euclidean(rigid, rotation) 旋转
Scale 缩放;图中没有画出
Similarity 相似变换;结合旋转,平移和缩放
Affine 仿射变换;想象在similarity的基础上用两只手对图像进行按压拉伸
Projective 投影变换;想象投影仪做的事情,将一个面投影到另外一个面的情况

eometry Transformation 几何变换
Homogeneous coordinate 齐次坐标：使用N+1维坐标来表示N维坐标，例如在2D笛卡尔坐标系中加上额外变量w来形成2D齐次坐标系。齐次坐标具有规模不变性，同一点可以被无数个齐次坐标表达. 齐次坐标转化为笛卡尔坐标可以通过同除最后一项得到。

仿射变换

原理

仿射变换其实是另外两种简单变换的叠加：一个是线性变换，一个是平移变换。统一平移变换和线性变换的一种变换我们起了个名字叫“仿射变换”。这个新的变换就不再单纯的是两个线性空间的映射了，而是变成了两个仿射空间的映射关系。为了更好地理解仿射变换，首先就要知道线性变换以及它的不足。在未说明的情况下，下面使用的是卡迪尔坐标系。
所谓线性变换是指两个线性空间的映射，一个变换 ${\mathcal{L}:\mathcal{A}\to\mathcal{B}}$ 是线性变换，必须满足两个条件，也就是我们经常说的线性条件：

$L (u + v) = L (u) + L (v)$ additivity
${L({\alpha}u)={\alpha}L(u)}$ homogeneity

举个例子说明一下。假设 $L$ 是一个二维绕原点旋转变换， $u$ 和 $v$ 是旋转角度。我们知道“一次性旋转 $u + v$ 度”和“先旋转 $u$ 度再旋转 $v$ 读”达到的效果是一样的；同样地，“一次性旋转 ${\alpha}u$ 度”和“旋转 $\alpha$ 次 $u$ 度”也是一样的。
线性变换可以用矩阵来表示。假设 $p=(x,y)^{T}$ 是二维空间中的点， $T$ 是一线性变换，那么存在一个矩阵 $A$ ，使得 $p'=(x',y')^{T}=T(p)=Ap$ 。上面的旋转变换 $R$ ，以及缩放 $S$ 变换都有相应的变换矩阵

$\left[ {\begin{array}{c} x'\\y'\\ \end{array}} \right]=R(p)= \left[ {\begin{array}{cc} cos(\theta) & -sin(\theta) \\ sin(\theta) & cos(\theta) \\ \end{array} } \right] \left[ {\begin{array}{cc} x \\ y \\ \end{array} } \right]$

$\left[ {\begin{array}{c} x'\\y'\\ \end{array}} \right]=S(p)= \left[ {\begin{array}{cc} S_x & 0 \\ 0 & S_y \\ \end{array} } \right] \left[ {\begin{array}{c} x \\ y \\ \end{array} } \right]$

但是在笛卡尔坐标系中，平移变换却不能用矩阵来表示。一个平移变换 $T$ 具有如下的形式

$\left[ {\begin{array}{c} x'\\y'\\ \end{array}} \right]=T(p)= I \left[ {\begin{array}{cc} x \\ y \\ \end{array} } \right]+\left[ {\begin{array}{c} t_x \\ t_y \\ \end{array} } \right]$

我们可以很容易地验证，平移变换 $T$ 是不能写成两个矩阵乘积形式的。使用齐次坐标系很好的解决了这个问题(可能还有其它的原因)。齐次坐标系统其实是用高维坐标来表示一个低维的点，就好比我们用 $（ x, 1)$ 来表示一个长度值一样，其实用一个 $x$ 就可以了，但是用高一维的表示，在有的时候会带来便利。一个N维的卡迪尔坐标系中的一个点 $p=(x_1,x_2,...,x_N)$ ，在齐次坐标系中有无数的 $N + 1$ 维点与之对应，这些点可以描述为 $p_H=(\omega x_1,\omega x_2,...,\omega x_N,\omega)$ ， $\omega$ 取不同的值，我们变得到齐次坐标系中不同的点。当把这些点映射到 $\omega=1$ 平面（不改变 $x_i$ 之间比例），我们又降维得到对应的卡迪尔坐标系中的点。在OpenGL中我们是用 $(x,y,z,1)(\omega=1)$ 来表示一点三维的点，显然这个点与卡迪尔坐标系中的点 $(x, y, z)$ 是一一对应的。在计算的过程中，会出现第四个分量不为 $\omega \neq 1$ 的情况，这时我们也总是同除以 $\omega$ 使齐次坐标正规化。
在这里插入图片描述
现在回来让我们看看使用齐次坐标时，对应的线性变换是什么形式。假设 $p=(x,y,1)^{T}$ 是二维点对应的齐次坐标，与上面使用卡迪尔坐标系类似，我们可以得到相应的线性变换如旋转变换 $R$ 和缩放变换 $S$ 的矩阵表示：

$\left[ {\begin{array}{c} x'\\y'\\1\\ \end{array}} \right]=R(p)= \left[ {\begin{array}{ccc} cos(\theta) & -sin(\theta) & 0 \\ sin(\theta) & cos(\theta) & 0 \\ 0 & 0 & 1\\\end{array} } \right] \left[ {\begin{array}{c} x \\ y \\ 1 \\ \end{array} } \right]$

$\left[ {\begin{array}{c} x'\\y'\\1\\ \end{array}} \right]=S(p)= \left[ {\begin{array}{ccc} S_x & 0 & 0 \\ 0 & S_y & 0 \\ 0 & 0 & 1\\ \end{array} } \right] \left[ {\begin{array}{c} x \\ y \\ 1 \\ \end{array} } \right]$

容易验证, $(x^{'}, y^{'})$ 的值并没有变化。但是使用齐次坐标后，平移操作便也可以使用矩阵来表示了（如下），平移量出现在变换矩阵的最右侧。

$\left[ {\begin{array}{c} x'\\y'\\1\\ \end{array}} \right]=T(p)= \left[ {\begin{array}{ccc} 1 & 0 & t_x \\ 0 & 1 & t_y \\ 0 & 0 & 1\\ \end{array} } \right] \left[ {\begin{array}{c} x \\ y \\ 1 \\ \end{array} } \right]$

最后，我们给出仿射变换稍微正式点的定义。一个仿射变换 $T$ ，可以表示成一个线性变换 $A$ 后平移 $t$ ： $T (p) = A p + t$ ，其中 $p$ 是待变换的点齐次坐标表示。 $T$ 可以表示成如下的形式：

$\bf{T}=\left[ {\begin{array}{cccc} a_{11}&a_{12}&a_{13}&t_1\\ a_{21}&a_{22}&a_{23}&t_2\\ a_{31}&a_{32}&a_{33}&t_3\\ 0&0&0&1\\ \end{array}} \right]$

其中， $\bf{A}=\left[ {\begin{array}{ccc} a_{11}&a_{12}&a_{13}\\ a_{21}&a_{22}&a_{23}\\ a_{31}&a_{32}&a_{33}\\ \end{array}} \right]$ 表示线性变换； $\bf{t}=\left[ {\begin{array}{c} t_1\\ t_2\\ t_3\\ \end{array}} \right]$ 表示平移变换；右下角的数字可以进行整体缩放，当为1时，表示不进行整体缩放。

可以知道：仿射变换保持了二维图形的“平直性”和“平行性”。仿射变换可以通过一系列的变换的复合来实现，包括平移，缩放，翻转，旋转和剪切。

warpAffine

opencv中相应的函数是：
void warpAffine(InputArray src, OutputArray dst, InputArray M, Size dsize, int flags=INTER_LINEAR, int borderMode=BORDER_CONSTANT, const Scalar& borderValue=Scalar())
Parameters:

src – input image.
dst – output image that has the size dsize and the same type as src .
M – transformation matrix，本文中着重讲M的构造
dsize – size of the output image.ansformation ().
borderMode – pixel extrapolation method (see borderInterpolate()); when borderMode=BORDER_TRANSPARENT , it means that the pixels in the destination image corresponding to the “outliers” in the source image are not modified by the function.
borderValue – value used in case of a constant border; by default, it is 0.

典型的变换矩阵

平移，将每一点移到到 $(x + t, y + t)$ ，变换矩阵为
缩放变换将每一点的横坐标放大或缩小 $s_x$ 倍，纵坐标放大（缩小）到 $s_y$ 倍，变换矩阵为
$\left[ {\begin{array}{ccc} S_x & 0 & 0 \\ 0 & S_y & 0 \\ 0 & 0 & 1\\ \end{array} } \right]$
旋转变换原点：目标图形围绕原点顺时针旋转 $\theta$ 弧度，变换矩阵为
旋转变换：目标图形以 $(x, y)$ 为轴心顺时针旋转 $\theta$ 弧度，变换矩阵为

相当于两次平移与一次原点旋转变换的复合，即先将轴心 $(x, y)$ 移到到原点，然后做旋转变换，最后将图片的左上角置为图片的原点,即

在opencv的图像处理中，所有对图像的处理都是从原点进行的，而图像的原点默认为图像的左上角，而我们对图像作旋转处理时一般以图像的中点为轴心。

getRotationMatrix2D

可以使用opencv中自带的Mat getRotationMatrix2D(Point2f center, double angle, double scale)函数获得变换矩阵M，

center:旋转中心
angle：旋转弧度，一定要将角度转换成弧度
scale:缩放尺度

它得到的矩阵是：
（顺时针）
在这里插入图片描述
（逆时针）

其中 $α = s c a l e * c o s (a n g l e), β = s c a l e * s i n (a n g l e), (c e n t e r . x, c e n t e r . y)$ 表示旋转轴心。

getAffineTransform

opencv中还有一个函数：Mat getAffineTransform(InputArray src, InputArray dst)
它通过三组点对就可以获得它们之间的仿射变换，如果我们在一组图像变换中知道变换后的三组点，那么我们就可以利用该函数求得变换矩阵，然后对整张图片进行仿射变换。

仿射变换之所以重要，另一个重要的原因是仿射变换后不改变点的共线/共面性，而且还保持比例，这对图形系统尤其重要。例如，根据这个性质，如果我们要变换一个三角形，只需要对三个定点 $v 1$ , $v 2$ , $v 3$ 进行变换T就可以了，对于原先边 $v 1 v 2$ 上的点，变换后一定还在边后 $T (v 1) T (v 2)$ 上。

总结一下，仿射变换是线性变换后进行平移变换（其实也是齐次空间的线性变换），使用齐次坐标使得仿射变换可以以统一的矩阵形式进行表示。

透视变换

还有一种与仿射变换经常混淆的变换为透视变换，透视变换需要四组点对才能确定变换矩阵，由于仿射变换保持“平直性”与“平行性”，因此只需要三组点对，而透视变换没有这种约束，故需要四组点对。

原理

透视变换(Perspective Transformation)是将图片投影到一个新的视平面(Viewing Plane)，也称作投影映射(Projective Mapping)。通用的变换公式为：
在这里插入图片描述
$u$ , $v$ 是原始图片左边，对应得到变换后的图片坐标 $x$ , $y$ ,其中
。
变换矩阵可以拆成4部分，表示线性变换，比如scaling，shearing和ratotion。用于平移，产生透视变换。所以可以理解成仿射等是透视变换的特殊形式。经过透视变换之后的图片通常不是平行四边形（除非映射视平面和原来平面平行的情况）。

重写之前的变换公式可以得到：
在这里插入图片描述
所以，已知变换对应的几个点就可以求取变换公式。反之，特定的变换公式也能新的变换后的图片。简单的看一个正方形到四边形的变换：
变换的4组对应点可以表示成：
根据变换公式得到：
定义几个辅助变量：在这里插入图片描述
都为0时变换平面与原来是平行的，可以得到：
不为0时，得到：
求解出的变换矩阵就可以将一个正方形变换到四边形。反之，四边形变换到正方形也是一样的。于是，我们通过两次变换：四边形变换到正方形+正方形变换到四边形就可以将任意一个四边形变换到另一个四边形。
在这里插入图片描述

warpPerspective

主要作用：对图像进行透视变换，就是变形。
C++: void warpPerspective(InputArray src, OutputArray dst, InputArray M, Size dsize, int flags=INTER_LINEAR, int borderMode=BORDER_CONSTANT, const Scalar& borderValue=Scalar())
参数详解：

InputArray src：输入的图像
OutputArray dst：输出的图像
InputArray M：透视变换的矩阵
Size dsize：输出图像的大小
int flags=INTER_LINEAR：输出图像的插值方法，
combination of interpolation methods (INTER_LINEAR or INTER_NEAREST) and the optional flagWARP_INVERSE_MAP, that sets M as the inverse transformation ( \texttt{dst}\rightarrow\texttt{src} )
int borderMode=BORDER_CONSTANT：图像边界的处理方式
const Scalar& borderValue=Scalar()：边界的颜色设置，一般默认是0

参考

图像的变换
https://blog.csdn.net/liangjiubujiu/article/details/80424287

仿射变换与齐次坐标
https://blog.csdn.net/liangjiubujiu/article/details/80628506

仿射变换矩阵
https://blog.csdn.net/liangjiubujiu/article/details/80918428

matlab 二维空间变换
https://blog.csdn.net/liangjiubujiu/article/details/80607161

图像投影/单应性变换/直射
https://blog.csdn.net/liangjiubujiu/article/details/80412175

图像的等距变换，相似变换，仿射变换，射影变换及其matlab实现
https://blog.csdn.net/liangjiubujiu/article/details/80616870

仿射变换详解 warpAffine
https://blog.csdn.net/q123456789098/article/details/53330484

写于关雎

在这里插入图片描述

新浪微博：https://weibo.com/tianzhejia
CSDN博客：https://blog.csdn.net/qq_35605018
博客网站：http://www.zhijiadeboke.xyz
GitHub：https://github.com/ZhijiaTian
QQ邮箱：2461824656@qq.com
126邮箱：tianzhejia@126.com
Outlook邮箱：tianzhejia@outlook.com
以上均可与本人取得联系，欢迎探讨。^ v ^