一.图像检索相关介绍：

1.起因：

2.参数介绍：

图像纹理：

词序无关的文本表述:

图像分类：

图像特征词典：

图像整体描述子：

二. 图像分类/检索具体内容：

图像分类/检索：

单词的TF-IDF权重：

倒排表(Inverted file)：

图像检索流程：

图像检索结果：

三.代码实现：

1.数据集：

2.创建数据：

3.建立数据库：

4.检索：

一.图像检索相关介绍：

1.起因：

我们为什么要图像检索与识别？

在图像特征提取后进行比对，如果采用暴力匹配法：

250,000 张图像 ~ 310 亿个图像对：

– 每个图相对 2 秒匹配 500 台并行计算机需要 1 年才能完成计算；

• 1,000,000 张图像~5000亿个图像对：

– 500 台并行计算机需要 15 年才能完成计算。

而对于大场景数据集（如城市场景） , 只有少于 0.1% 的图像对具有匹配关系，我们的解决方案是利用图像整体特征实现匹配 / 检索，而非局部特征点。

2.参数介绍：

对于图像检索我们首先了解一下：

图像纹理：

纹理是指图像中的重复模式，或纹理基元组成的结构

词序无关的文本表述:

根据文本中的词频分布，构造文本描述子；

研表究明，汉字序顺并不定一影阅响读。比如当你看完这句话后，才发这现里的字全是都乱的。

图像分类：

对于图像我们可以将它分类成很多小组成；

图像特征词典：

Bag of features ( BOF)一种适用于图像和视频检索的算法。BOF借鉴了文本分类的思路（也就是BOW），从图像抽象出很多具有代表性的「关键词」，形成一个字典，再统计每张图片中出现的「关键词」数量，得到图片的特征向量。

基础流程：
1. 特征提取；

2. 学习 “视觉词典（visual vocabulary）” ；

3. 针对输入特征集，根据视觉词典进行量化；

对于输入特征，量化的过程是将该特征映射到距离其最接近的 codevector ，并实现计数，码本 = 视觉词典，Codevector = 视觉单词。

聚类是实现 visual vocabulary /codebook的关键

• 无监督学习策略

• k-means 算法获取的聚类中心作为 codevector

• Codebook 可以通过不同的训练集协同训练获得

• 一旦训练集准备足够充分, 训练出来的码本（ codebook ）将具有普适性

K-means 聚类算法：

最小化每个特征 x i 与其相对应的聚类中心 m k 之间的欧式距离；

算法流程: • 随机初始化 K 个聚类中心

• 重复下述步骤直至算法收敛:

• 对应每个特征，根据距离关系赋值给某个中心/类别

• 对每个类别，根据其对应的特征集重新计算聚类中心

4. 把输入图像转化成视觉单词（visual words）的频率直方图；

最后生成的图像特征词典（例）：

视觉词典存在的问题：

•如何选择视觉词典/ 码本的规模 ?

太少:视觉单词无法覆盖所有可能出现的情况

太多: 计算量大，容易过拟合

•如何提升计算效率？

Vocabulary trees (Nister & Stewenius, 2006)

图像整体描述子：

二. 图像分类/检索具体内容：

图像分类/检索：

给定图像的 bag-of-features 直方图特征，如何实现图像分类 / 检索？

• 给定输入图像的 BOW 直方图 , 在数据库中查找 k 个最近邻的图像

• 对于图像分类问题，可以根据这 k 个近邻图像的分类标签，投票获得分类结果

• 当训练数据足以表述所有图像的时候，检索 / 分类效果良好

常用参数设置：

视觉单词数量（K-means 算法获取的聚类中心）一般为 K=3000~10000. 即图像整体描述的直方图维度为 3000~10000.

求解近邻的方法一般采用L2- 范数：即 Euclidean 距离 .

目前普适的视觉单词采用 Lowe 的 SIFT 特征描述子 . 特征点检测采用 DOG (Difference of Gaussians).

单词的TF-IDF权重：

• inverse document frequency (IDF) of word j =

倒排表(Inverted file)：

• Can quickly use the inverted file to compute similarity between a new image and all the

images in the database

– Only consider database images whose bins overlap the query image

图像检索流程：

1. 特征提取

2. 学习 “ 视觉词典（visual vocabulary ） ”

3. 针对输入特征集，根据视觉词典进行量化

4. 把输入图像，根据 TF-IDF 转化成视觉单词（visual words ）的频率直方图

5. 构造特征到图像的倒排表，通过倒排表快速索引相关图像

6. 根据索引结果进行直方图匹配

图像检索结果：

三.代码实现：

1.数据集：

55张集美大学图片

59张厦门图片

2.创建数据：

import pickle
from PCV.imagesearch import vocabulary
from PCV.tools.imtools import get_imlist
from PCV.localdescriptors import sift# 获取图像列表
imlist = get_imlist('D:\\pythonProject\\computer5\\picture\\sumpicture\\')
nbr_images = len(imlist)
# 获取特征列表
featlist = [imlist[i][:-3] + 'sift' for i in range(nbr_images)]# 提取文件夹下图像的sift特征
for i in range(nbr_images):sift.process_image(imlist[i], featlist[i])# 生成词汇
voc = vocabulary.Vocabulary('training')
voc.train(featlist, 114, 10)# 保存词汇
# saving vocabulary
with open('D:\\pythonProject\\computer5\\picture\\sumpicture\\vocabulary.pkl', 'wb') as f:pickle.dump(voc, f)
print('vocabulary is:', voc.name, voc.nbr_words)

结果：

3.建立数据库：

import pickle
from PCV.imagesearch import imagesearch
from PCV.localdescriptors import sift
import sqlite3
from PCV.tools.imtools import get_imlist# 获取图像列表
# imlist = get_imlist('E:/Python37_course/test7/first1000/')
imlist = get_imlist('D:\\pythonProject\\computer5\\picture\\sumpicture\\')
nbr_images = len(imlist)
# 获取特征列表
featlist = [imlist[i][:-3] + 'sift' for i in range(nbr_images)]# load vocabulary
# 载入词汇
with open('D:\\pythonProject\\computer5\\picture\\sumpicture\\vocabulary.pkl', 'rb') as f:voc = pickle.load(f)
# 创建索引
indx = imagesearch.Indexer('testImaAdd.db', voc)
indx.create_tables()# go through all images, project features on vocabulary and insert
# 遍历所有的图像，并将它们的特征投影到词汇上(比如我的是180张图片)
for i in range(nbr_images)[:179]:locs, descr = sift.read_features_from_file(featlist[i])indx.add_to_index(imlist[i], descr)
# commit to database
# 提交到数据库
indx.db_commit()con = sqlite3.connect('testImaAdd.db')
print(con.execute('select count (filename) from imlist').fetchone())
print(con.execute('select * from imlist').fetchone())

结果：

4.检索：

建立好图像的索引，就可以在数据库中搜索相似的图像了。这里，使用BOW（词袋模型）来表示整个图像，这是通用的，可以应用于寻找相似的物体、相似的脸、相似的颜色等，它完全取决于图像及所用的描述子。

import pickle
from PCV.localdescriptors import sift
from PCV.imagesearch import imagesearch
from PCV.geometry import homography
from PCV.tools.imtools import get_imlist# load image list and vocabulary
# 载入图像列表
imlist = get_imlist('D:\\pythonProject\\computer5\\picture\\sumpicture\\')  # 存放数据集的路径
nbr_images = len(imlist)
# 载入特征列表
featlist = [imlist[i][:-3] + 'sift' for i in range(nbr_images)]# 载入词汇
with open('D:\\pythonProject\\computer5\\picture\\sumpicture\\vocabulary.pkl', 'rb') as f:  # 存放模型的路径voc = pickle.load(f)
src = imagesearch.Searcher('testImaAdd.db', voc)# index of query image and number of results to return
# 查询图像索引和查询返回的图像数
q_ind = 18
nbr_results = 5# regular query
# 常规查询(按欧式距离对结果排序)
res_reg = [w[1] for w in src.query(imlist[q_ind])[:nbr_results]]
print('top matches (regular):', res_reg)# load image features for query image
# 载入查询图像特征
q_locs, q_descr = sift.read_features_from_file(featlist[q_ind])
fp = homography.make_homog(q_locs[:, :2].T)# RANSAC model for homography fitting
# 用单应性进行拟合建立RANSAC模型
model = homography.RansacModel()
rank = {}# load image features for result
# 载入候选图像的特征
for ndx in res_reg[1:]:locs, descr = sift.read_features_from_file(featlist[ndx])  # because 'ndx' is a rowid of the DB that starts at 1# get matches# 获取匹配数 # get matches执行完后会出现两张图片matches = sift.match(q_descr, descr)ind = matches.nonzero()[0]ind2 = matches[ind]tp = homography.make_homog(locs[:, :2].T)# compute homography, count inliers. if not enough matches return empty list# 计算单应性，对内点技术。如果没有足够的匹配书则返回空列表try:H, inliers = homography.H_from_ransac(fp[:, ind], tp[:, ind2], model, match_theshold=4)except:inliers = []# store inlier countrank[ndx] = len(inliers)# 将字典排序，以首先获取最内层的内点数
sorted_rank = sorted(rank.items(), key=lambda t: t[1], reverse=True)
res_geom = [res_reg[0]] + [s[0] for s in sorted_rank]
print('top matches (homography):', res_geom)# 显示查询结果
imagesearch.plot_results(src, res_reg[:8])  # 常规查询
imagesearch.plot_results(src, res_geom[:8])  # 重排后的结果

结果：