Pytorch基于VGG cosine similarity实现简单的以图搜图(图像检索)

代码如下：

from PIL import Image
from torchvision import transforms
import os
import torch
import torchvision
import torch.nn.functional as Fclass VGGSim(torch.nn.Module):def __init__(self):super(VGGSim, self).__init__()blocks = []blocks.append(torchvision.models.vgg16(pretrained=True).features[:4].eval())blocks.append(torchvision.models.vgg16(pretrained=True).features[4:9].eval())blocks.append(torchvision.models.vgg16(pretrained=True).features[9:16].eval())blocks.append(torchvision.models.vgg16(pretrained=True).features[16:23].eval())for bl in blocks:for p in bl:p.requires_grad = Falseself.blocks = torch.nn.ModuleList(blocks)self.transform = torch.nn.functional.interpolateself.mean = torch.nn.Parameter(torch.tensor([0.485, 0.456, 0.406]).view(1,3,1,1))self.std = torch.nn.Parameter(torch.tensor([0.229, 0.224, 0.225]).view(1,3,1,1))def forward(self, input, target):if input.shape[1] != 3:input = input.repeat(1, 3, 1, 1)target = target.repeat(1, 3, 1, 1)input = (input-self.mean) / self.stdtarget = (target-self.mean) / self.stdx = inputy = targetres = []for block in self.blocks:x = block(x)y = block(y)x_flat = torch.flatten(x, start_dim=1)y_flat = torch.flatten(y, start_dim=1)similarity = torch.nn.functional.cosine_similarity(x_flat, y_flat)res.append(similarity.cpu().item())# 仅利用VGG最后一层的全局(分类)特征计算余弦相似度# return res[-1]# 或者，利用VGG各Block的特征计算余弦相似度return sum(res)def load_image(path):image = Image.open(path).convert('RGB')image = transforms.Resize([224,224])(image)image = transforms.ToTensor()(image)image = image.unsqueeze(0)return image.cuda()query_image_path = "query.jpeg"  # 想要查找的图像
query_image = load_image(query_image_path) 
target_image_dir = "cat_images/" # 待搜索的相册
target_images = [os.path.join(target_image_dir, name) for name in os.listdir(target_image_dir)]
vgg_sim = VGGSim().cuda()
scores = []
for path in target_images:target_image = load_image(path)score = vgg_sim(query_image, target_image)scores.append([path, score])
scores.sort(key=lambda x: -x[1])
for i in range(5):print("Top", (i + 1), "similiar =>", scores[i][0].split("/")[-1])

上述代码的核心思想类似于感知损失(Perceptual Loss)，利用VGG提取图像的多级特征，从而比较两张图像之间的相似性。区别在于Perceptual Loss中一般使用MAE，MSE比较特征的距离，而这里的代码使用余弦相似度。

一个例子如下，给定一张狸花的图像(query)如下：
在这里插入图片描述
我们希望找到相册中其他狸花的图像：

上述数据集中，编号01到10的为奶牛猫，编号11到20的则为狸花猫。运行代码，结果如下：

Top 1 similiar => 04.jpeg
Top 2 similiar => 20.jpeg
Top 3 similiar => 14.jpeg
Top 4 similiar => 12.jpeg
Top 5 similiar => 15.jpeg

可以看到，检索基本是正确的，20，14，12，15均为狸花猫。04得到最高相似度的原因是其与query的姿势十分相似，且环境也差不多(地板)，这也是另一种层面上的两图像相似。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/30998.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

Pytorch基于VGG cosine similarity实现简单的以图搜图(图像检索)

相关文章

使用乐观锁解决超卖问题

SpringBoot异步任务（2）|（线程池使用）

linux静态库与动态库

vue3报错

电影院订票选座网站小程序开发（java开源）

畜牧虚拟仿真 | 鱼授精过程VR模拟演练系统

vue3组合式api单文件组件写法

Maven进阶2 -- 私服（Nexus）、私服仓库分类、资源上传和下载

android实现获取系统全局对象实例

蒙德里安的梦想

Java重试的几种写法

Android JNI--C++基础

章节2：客户端的Cookie

java版工程项目管理系统源码+系统管理+系统设置+项目管理+合同管理+二次开发em

IP路由基础+OSPF 基础

如何给a-table增加列宽拖动功能

恒运资本：股票印花税下降有什么影响？什么原因导致下降？

位置参数关键字参数

vscode运行python报错：ModuleNotFoundError:No module named ‘xxx‘

【C语言】经典题目(四)