P-net(Proposal Network)：

主要使用一个全卷机网络，获取候选框和这些候选框的bounding box regression向量组。然后评估这些候选向量，并进行校准。最后使用非极大化抑制来去除大量重复的候选区域。
P-Net

P-Net结构如下：

R-net(Refine Network )：

所有候选区域送入R-Net，该层多出来一个全连接层（FC），可以进行更细化的处理，排除掉大量不符合要求的候选区域，通过bounding box regression执行校准，在利用非极大化抑制( NMS)进行合并。
R-net
R-net的网络结构：
R-net

O-net(Output Network)：

这一步和第二步类似，这一步输出更多的人脸部特征，主要是脸部五点特征位置。
O-net
O-net的结构：
o-net
以上就是人脸检测MTCNN的基本结构。对人脸检测精度的影响主要有以下几点：

一些滤波器的权值缺少多样性，这样会导致产生歧义性的描述。
人脸检测只是一个二分类任务，所以人脸检测需要少量的滤波操作，需要更多对人脸的描述。

基于上述文中采用3*3的权值矩阵，减少网络深度，以获取更好的性能。

网络的训练：

markdown公式编辑语法
训练也是三个：
- 人脸与非人脸
- 人脸区域
- 人脸五点特征定位
1、先看第一个人脸与非人脸，对于每一个输入样本 $\ x^i$ 采用交叉熵损失函数：

L d e t i = - (y d e t i l o g (p i) + (1 - y d e t i) (1 - l o g (p i)))

$L_i^{det}=-(y_i^{det}log(p_i)+(1-y_i^{det})(1-log(p_i)))$
上述公式中的

pi $p_i$ 表示是人脸的概率，其中

ydeti∈{0,1} $y_i^{det}\in\{0,1\}$
2、对于每一个候选框，需要预测它和真实坐标的偏移。对于每一个样本

xi $x_i$ 通过欧式距离进行回归：

L b o x i = | | y ̂ b o x i - y b o x i | | 22

$L_i^{box}={|| \hat y_i^{box}-y_i^{box} ||}_2^2$
候选框，主要由最左顶点坐标、长、宽组成，每一个box是一个4维向量。
3、脸部特征坐标，与候选框回归类似，还是计算候选特征坐标和真实坐标的位置的欧式距离，并最小化此距离。

L l a n d m a r k i = | | y ̂ l a n d m a r k i - y l a n d m a r k i | | 22

$L_i^{landmark}={|| \hat y_i^{landmark}-y_i^{landmark}||}_2^2$
上述五点特征包括，左眼、右眼、鼻子、左边嘴角、右边嘴角。每个坐标均有两个坐标，所以每一个landmark是一个10维德向量。
4、多源训练，训练过程中，有人脸非人脸的照片，部分人脸区域。所以上述的三个损失函数可能有的没有必要使用。所以整体的损失函数如下：

m i n \sum j = 1 N \sum j \in {d e t, b o x, l a n d m a r k} α j β j i L j i

$min\sum_{j=1}^N \sum_{j\in\{det,box,landmark\}}{\alpha_j}{\beta_i^j}L_i^j$
其中N是样本集大小，其中

αj $\alpha_j$ 表示任务的优先级，

βji∈{0,1} $\beta_i^j\in\{0,1\}$ 表示样本标签，

Lji $L_i^j$ 表示上面三步的损失函数。在P_Net和R_Net中设置

αdet=1 $\alpha_{det} = 1$ ，

αbox=0.5 $\alpha_{box} = 0.5$ ，

αlandmark=0.5 $\alpha_{landmark} = 0.5$ ，在O_net中，

αdet=1 $\alpha_{det} = 1$ ，

αbox=0.5 $\alpha_{box} = 0.5$ ，

αlandmark=1 $\alpha_{landmark} = 1$
在训练过程中，为了取得更好的效果，作者每次只后向传播前70%样本的梯度，这样来保证传递的都是有效的数字。有点类似latent SVM，只是作者在实现上更加体现了深度学习的端到端。

training data的处理：

训练采用四种类型的数据：
1、备选区域和目标区域的重叠率（IOU）小于0.3的，全部是非人脸。
2、IOU大于0.65的是人脸。
3、IOU在0.4到0.65之间的是部人脸区域。
4、人脸特征坐标，人脸标注五个位置。
其中1、2数据集主要用来识别人脸与非人脸。
2、3数据集用来做box bounding regression。
4数据集主要用来确定人脸五点特征位置。
作者对算法过程实现的一些代码如下：
https://github.com/kpzhang93/MTCNN_face_detection_alignment