t-SNE 可视化

article/2025/9/29 12:21:31

背景

t-SNE（t-Distributed Stochastic Neighbor Embedding）是一种非常流行的非线性降维技术，主要用来对高维数据进行可视化，了解和验证数据或者模型。t-SNE属于流行学习（manifold learning），假设数据是均匀采样于一个高维欧氏空间中的低维流形，流形学习就是从高维采样数据中恢复低维流形结构，即找到高维空间中的低维流形，并求出相应的嵌入映射，以实现维数约简或者数据可视化。

t-SNE 基本理论

假设一个数据集 $X$ ，数据集中每个样本都是 $D$ 维的， $X\in R^D$ ，t-SNE的目的是生成一个低维的特征集 $Y\in R^d$ 来表征样本，其中 $d < < D$ 。最典型的为 $d = 2$ ，从而将高维样本数据在二维平面上表示，方便观察数据的分布特性。

在降维过程中，目的是使原始空间中的两个样本点 $x_i$ 和 $x_j$ 在降维后的空间中对应的点 $y_i$ 和 $y_j$ 保持同样的距离分布。为了达到这样的效果，t-SNE将原始空间的相似性建模为概率密度，并且相似性的分布由高斯分布给出。即，在原始空间中已知样本点 $i$ 的情况下， $j$ 点和 $i$ 点间的相似性可以用条件概率分布公式来表示：
$p_{j | i}=\frac{\exp \left(-\|\mathbf{x}_i-\mathbf{x}_j\|^{2} / 2 \sigma_{i}^{2}\right)}{\sum_{k \neq i} \exp \left(-\|\mathbf{x}_i-\mathbf{x}_k\|^{2} / 2 \sigma_{i}^{2}\right)}$

由于相似度是对称的，即 $i$ 和 $j$ 的相似度应该是等于 $j$ 和 $i$ 的相似度，所以最终的联合概率分布：
$p_{i j}=\frac{p_{j | i}+p_{i | j}}{2}$

在降维后的空间中，用学生t分布（Student’s t-distribution）代替高斯分布，因为学生t分布有更粗的尾巴，能够保留更多较远的距离的相似度。所以在降维后的目标空间中，联合概率分布为如下形式：
$q_{i j}=\frac{\left(1+\|\mathbf{y}_i-\mathbf{y}_j\|^{2}\right)^{-1}}{\sum_{k \neq l}\left(1+\|\mathbf{y}_k-\mathbf{y}_l\|^{2}\right)^{-1}}$

目的是为了让这个两个概率分布尽可能的相似，这样就说明在降维后的数据分布和原始空间的数据分布基本一致，因此使用KL散度进行度量这两个分布之间的相似度：
$L(\mathbf{P} \| \mathbf{Q})=\sum_{i j} p_{i j} \log \frac{p_{i j}}{q_{i j}}$

根据以上目标函数进行优化，常用的优化方法就是梯度下降法。因为我们希望的是得到一个较好的 $Y$ ，所以梯度如下：
$\frac{\partial C}{\partial \mathbf{y} i}=4 \sum_{j \neq i}\left(p_{i j}-q_{i j}\right)(\mathbf{y}_i-\mathbf{y}_j)\left(1+\|\mathbf{y}_i-\mathbf{y}_j\|^{2}\right)^{-1}$

实例

手写数字可视化

# To add a new cell, type '# %%'
# To add a new markdown cell, type '# %% [markdown]'# %%
from sklearn import manifold,datasetsimport time
import numpy as np 
import matplotlib.pyplot as plt # %%
n_components = 2# %%
digits = datasets.load_digits(n_class=10)
data = digits['data']
label = digits['target']
n_samples, n_features = data.shape
n_features# %%
tsne = manifold.TSNE(n_components=n_components, init='pca', random_state=0, perplexity=30)
start = time.time()
result = tsne.fit_transform(data)
end = time.time()
print('t-SNE time: {}'.format(end-start))# %%
# result# %%
x_min, x_max = np.min(result, 0), np.max(result, 0)
result = (result-x_min)/(x_max-x_min)
ax = plt.subplot(111)
for i in range(n_samples):plt.text(result[i, 0], result[i, 1], str(label[i]), color=plt.cm.Set1(label[i] / 10.), fontdict={'weight': 'bold', 'size': 9})
plt.xticks([])
plt.yticks([])
plt.title('t-SNE-digits')
plt.show()