基本概念

小样本学习（few-shot learning）是什么：就是使用很少的样本来进行分类或回归

Few-shot Learning的目标：让机器学会自己学习

小样本学习的直观理解：

① 前提：首先要知道，训练一个模型的目的不是为了让模型如何分辨大象和蚂蚁，而是让模型具有判断图片“异同”的能力，即让模型看到两张图片后，它能分别出这俩是不是一个类别。这样，当我们在用大数据集训练出一个分类器后，在测试阶段给模型一个从来没见过的类别的图片（假设给了一个水獭图片），此时模型虽然不知道它是什么类别，但是依然能知道它不属于之前的所有类别。这时如果再给一个相同类别的图片（假设又给了一张水獭图片），此时虽然模型从来没见过这种类别的图片（模型从来没见过水獭），但模型依然能知道这俩是一种类别（模型能判断出这两张图片是一种动物）
② 思路：先用大的训练数据集训练出一个具备判断“异同”能力的模型，在测试阶段，再给一个小样本数据集（称为Support Set），里面会包含模型没见过的样本类别，然后让模型判断当前给的图片属于 Support Set 中的哪一个类别。

例如：

在这里插入图片描述
上图中，假设目前有一个训练好的图片分类器，但是该模型没见过水獭（otter），此时测试阶段希望模型可以分辨水獭，这样就可以给模型一个support set，让它从这里面选，query的图片是support set中的哪一种

Few-shot learning 是 Meta Learning 的一种，Meta Leanring 就是去学习如何学习（Learn to learn）

k-way n-shot support Set：Support Set 就是帮助模型去分辨新类别的小样本数据集。 $k$ 代表小样本中类别的数量， $n$ 代表每个类别有多少数据。例如，有3个类别，每个类别只有一个样本，那么就是 3-way one-shot.

k-way: k 的数量越多，分类准确率越低
n-shot: n 的数量越多，分类准确率越高

Few-shot Learning的基本思路（Basic Idea）：
学习一个相似度函数（similarity function）： $\text{sim}(x, x')$ ，来判别样本 $x$ 与 $x^{'}$ 的相似度，相似度越高，表示这两个样本越可能是同一个类别。例如，可以通过一个很大的数据集学习出一个相似度函数，然后用该函数进行预测。

这里的相似度函数指的是整个模型。

孪生网络（Siamese Network）

Siamese Network 是一种用于小样本学习的网络

该网络所用训练数据集（Training Data）包含两部分：

正样本（Positive Samples ）：两个“同类别”的样本构成的样本对 $x_i, x_j, 1)$ ，其中 1 表示 $x_i$ 和 $x_j$ 是同一个类别的样本，例如： $(老虎 a, 老虎 a, 1)$
负样本（Negative Samples）：两个“不同类别”的样本构成的样本对 $x_i, x_j, 0)$ ，其中 0 表示 $x_i$ 和 $x_j$ 不是同一个类别的样本，例如 $(汽车 a, 大象 a, 0)$

Siamese Network的网络结构：

在这里插入图片描述

模型 $f$ ：可以是CNN卷积神经网络；注意：上下两个 $f$ 是同一个网络
向量 $h_1, h_2$ ：网络 $f$ 的输出向量
向量 $z$ ：对 $h_1$ 和 $h_2$ 进行处理，例如，令 $z=|h_1-h_2|$
Dense Layers：全连接层
：全连接层输出的数值（scalar）

该网络前向传播的过程：

将两张图片 $x_1$ 和 $x_2$ 分别送给同一个卷积神经网络 $f$ ，得到输出向量 $h_1$ 和 $h_2$
对 $h_1$ 和 $h_2$ 求差的绝对值，得到向量 $z$
将向量 $z$ 送给全连接网络，得到一个scalar
将scalar送给Sigmoid的到最终的输出，最终的输出就是这两张图片的相似度。

对于负样本（Negative Sample）同理。

进阶架构：Triplet Loss
在这里插入图片描述

从训练集中选取一个样本作为锚点（anchor） $x^a$ ，然后根据锚点，选择一个正样本 $x^+$ 和一个负样本 $x^-$ 。
然后将三个样本送到“同一个”卷积神经网络 $f$ 中，并计算正样本与锚点之间的距离 $d^+$ 和负样本与锚点之间的距离 $d^-$ 。其中 $d^{+}=\left\|\mathbf{f}\left(\mathbf{x}^{+}\right)-\mathbf{f}\left(\mathbf{x}^{\mathrm{a}}\right)\right\|_{2}^{2}$ ， $d^{-}=|| \mathbf{f}\left(\mathrm{x}^{\mathrm{a}}\right)-\mathbf{f}\left(\mathrm{x}^{-}\right)||_{2}^{2}$ 。其中 $_2^2$ 是二范数的平方。
显然，我们希望 $d^+$ 越小越好， $d^-$ 越大越好。用图表示则为：
对于损失函数，定义为 $Loss(x^a, x^+, x^-)= max\{0, d^+ +\alpha -d^-\}$ 其中 $\alpha$ 为大于0的超参数，含义为：①如果负样本到锚点的距离比正样本到锚点的距离大 $\alpha$ ，我们就认为分对了，损失函数为0； ②否则，就将 $d^+ + \alpha - d^-$ 作为损失函数