PyTorch训练关键点

1.背景

        在网上找了一些资料用来训练关键点,一般都是人脸或者车牌关键点训练,或者是联合检测一起训练。很少有是单独基于轻量级网络训练单独关键点模型的工程,本文简单介绍一种简单方法和代码。

2.代码模块

(1)网络结构

文件:model.py

import torch.nn as nn
import torch
import torch.nn.functional as F
import torch.nn.init as init

class Fire(nn.Module):

    def __init__(self, inplanes, squeeze_planes,
                 expand1x1_planes, expand3x3_planes):
        super(Fire, self).__init__()
        self.inplanes = inplanes
        self.squeeze = nn.Conv2d(inplanes, squeeze_planes, kernel_size=1)
        
        self.squeeze_activation = nn.ReLU(inplace=True)
        
        self.expand1x1 = nn.Conv2d(squeeze_planes, expand1x1_planes,
                                   kernel_size=1)
        #self.expand1x1_activation = nn.ReLU(inplace=True)
        self.expand3x3 = nn.Conv2d(squeeze_planes, expand3x3_planes,
                                   kernel_size=3, padding=1)
        #self.expand3x3_activation = nn.ReLU(inplace=True)

    def forward(self, x):
        x = self.squeeze_activation(self.squeeze(x))
        return torch.cat([
            self.expand1x1(x),
            self.expand3x3(x)
        ], 1)

class RegressNet(nn.Module):   
    def __init__(self,version=1.0,export=False):
        super(RegressNet, self).__init__()
        if version not in [1.0, 1.1]:
            raise ValueError("Unsupported RegressNet version {version}:"
                             "1.0 or 1.1 expected".format(version=version))
        self.export = export
        print(version)
        if version == 1.0:
            self.features = nn.Sequential(
                nn.Conv2d(3, 16, kernel_size=3,padding=(1,1), stride=1),
                nn.ReLU(inplace=True),
                nn.MaxPool2d(kernel_size=2, stride=2, ceil_mode=True),
                Fire(16, 16, 32, 32),
                nn.ReLU(inplace=True),
                nn.MaxPool2d(kernel_size=2, stride=2, ceil_mode=True),
                Fire(64, 32, 32, 32),
                nn.ReLU(inplace=True),
                nn.MaxPool2d(kernel_size=2, stride=2, ceil_mode=True),
                Fire(64, 32, 64, 64),
                nn.ReLU(inplace=True),
                Fire(128, 32, 64, 64),
                nn.ReLU(inplace=True),
                nn.MaxPool2d(kernel_size=3, stride=2, ceil_mode=True),
                nn.Conv2d(128, 128, kernel_size=3,padding=(0,0), stride=2),
            )
        else:
            self.features = nn.Sequential(
                nn.Conv2d(3, 64, kernel_size=3, stride=2),
                nn.ReLU(inplace=True),
                nn.MaxPool2d(kernel_size=3, stride=2, ceil_mode=True),
                Fire(64, 16, 64, 64),
                Fire(128, 16, 64, 64),
                nn.MaxPool2d(kernel_size=3, stride=2, ceil_mode=True),
                Fire(128, 32, 128, 128),
                Fire(256, 32, 128, 128),
                nn.MaxPool2d(kernel_size=3, stride=2, ceil_mode=True),
                Fire(256, 48, 192, 192),
                Fire(384, 48, 192, 192),
                Fire(384, 64, 256, 256),
                Fire(512, 64, 256, 256),
            )
        # Final convolution is initialized differently form the rest
        #final_conv = nn.Conv2d(512, self.num_classes, kernel_size=1)
        #self.classifier = nn.Sequential(
        #    nn.Dropout(p=0.5),
        #    final_conv,
        #    nn.ReLU(inplace=True),
        #    nn.AdaptiveAvgPool2d((1, 1))
        #)
        self.fc= nn.Linear(128,8)
        MAE_Loss = torch.nn.L1Loss()
        self.loss = MAE_Loss
        for m in self.modules():
            if isinstance(m, nn.Conv2d):
                init.kaiming_uniform_(m.weight)
                if m.bias is not None:
                    init.constant_(m.bias, 0)

    def forward(self, x):
        x = self.features(x)
        #x = x.squeeze()
        #x = x.flatten(0)
        x=x.view(-1,128)#使用view函数
        x = self.fc(x)
        #print(x)
        return x  

(2)训练工程

文件:train.py 以训练四个关键点为例

import numpy as np
from math import radians, cos, sin
import torchvision.transforms as transforms
import torchvision.transforms.functional as TF
#import imutils
import torch
from PIL import Image
import random
import cv2
import xml.etree.ElementTree as ET
from torch.utils.data import Dataset
import os

import torch.nn as nn
import torchvision.models as models
import torch.nn.functional as F
import torch.nn.init as init

import torch.optim as optim
import time
from tqdm import tqdm


from model import RegressNet

class Transforms():
    def __init__(self):
        pass

    def rotate(self, image, landmarks, angle):
        # 随机生成一个在 -angle 到 +angle 范围内的旋转角度
        angle = random.uniform(-angle, +angle)

        # 基于二维平面上的旋转变换的数学特性构建旋转矩阵
        transformation_matrix = torch.tensor([
            [+cos(radians(angle)), -sin(radians(angle))],
            [+sin(radians(angle)), +cos(radians(angle))]
        ])

        # 对图像进行旋转:相比于 PIL 的图像旋转计算开销更小
        image = imutils.rotate(np.array(image), angle)

        # 将关键点坐标中心化:简化旋转变换的计算,同时确保关键点的变换和图像变换的对应关系
        landmarks = landmarks - 0.5
        # 将关键点坐标应用旋转矩阵
        new_landmarks = np.matmul(landmarks, transformation_matrix)
        # 恢复关键点坐标范围
        new_landmarks = new_landmarks + 0.5

        return Image.fromarray(image), new_landmarks

    def resize(self, image, landmarks, img_size):
        # 调整图像大小
        image = TF.resize(image, img_size)
        return image, landmarks

    def color_jitter(self, image, landmarks):
        # 定义颜色调整的参数:亮度、对比度、饱和度和色调
        color_jitter = transforms.ColorJitter(brightness=0.3,
                                              contrast=0.3,
                                              saturation=0.3,
                                              hue=0.1)
        # 对图像进行颜色调整
        image = color_jitter(image)
        return image, landmarks

    def crop_face(self, image, landmarks, crops):
        # 获取裁剪参数
        left = int(crops['left'])
        top = int(crops['top'])
        width = int(crops['width'])
        height = int(crops['height'])

        # 对图像进行裁剪
        image = TF.crop(image, top, left, height, width)

        # 获取裁剪后的图像形状
        img_shape = np.array(image).shape
        # 对关键点坐标进行裁剪后的调整
        landmarks = torch.tensor(landmarks) - torch.tensor([[left, top]])
        # 归一化关键点坐标
        landmarks = landmarks / torch.tensor([img_shape[1], img_shape[0]])
        return image, landmarks

    def __call__(self, image, landmarks):
        # 将图像从数组转换为 PIL 图像对象
        image = Image.fromarray(image)
        # 裁剪图像并调整关键点

        # 调整图像大小
        image, landmarks = self.resize(image, landmarks, (64, 64))
        # 对图像进行颜色调整
        image, landmarks = self.color_jitter(image, landmarks)
        # 对图像和关键点进行旋转变换
        #image, landmarks = self.rotate(image, landmarks, angle=10)

        # 将图像从 PIL 图像对象转换为 Torch 张量
        image = TF.to_tensor(image)
        # 标准化图像像素值
        image = TF.normalize(image, [0.5], [0.5])
        return image, landmarks
 

(3)dataset定义,数据长度为8 x1,y1,x2,y2,x3,y3,x4,y4

#标签排列规则

XXX.jpg x1/width y1/height x2/width y2/height x3/width y3/height x4/width y4/height

class FaceLandmarksDataset(Dataset):
    def __init__(self, transform=None):

        #root = os.listdir(r"C:/")
        with open(r"C:\DL_Work\test_pics\path.txt", 'r', encoding="utf-8") as r:
            root = r.readlines()
        # 初始化变量
        self.image_filenames = []
        self.landmarks = []
        self.crops = []
        self.transform = transform
        self.root_dir = r'C:\DL_Work\test_pics/'

        # 遍历 XML 数据:root[2] 表示 XML 中的第三个元素,即 <images> 部分,其中包含了每张图像的标注信息
        for filename in root:
            pic_path = filename.split(" ")[0]

            self.image_filenames.append(os.path.join(self.root_dir, pic_path))

            #self.crops.append(filename)

            landmark = []
            for num in range(4):
                x_coordinate = int( filename.split(" ")[num*2+1])
                y_coordinate = int(filename.split(" ")[num*2+2])
                landmark.append([x_coordinate, y_coordinate])
            self.landmarks.append(landmark)

        self.landmarks = np.array(self.landmarks).astype('float32')

        assert len(self.image_filenames) == len(self.landmarks)

    def __len__(self):
        return len(self.image_filenames)

    def __getitem__(self, index):
        # 读取图像以及关键点坐标
        image = cv2.imread(self.image_filenames[index])  # 以彩色模式读取图像
        # image = cv2.imread(self.image_filenames[index], 0) # 以灰色模式读取图像
        landmarks = self.landmarks[index]

        if self.transform:
            # 如果存在预处理变换,应用变换
            image, landmarks = self.transform(image, landmarks)

        landmarks = landmarks - 0.5  # 进行中心化操作

        return image, landmarks


# 创建数据集对象,并应用预处理变换
dataset = FaceLandmarksDataset(Transforms())

len_valid_set = int(0.1 * len(dataset))
len_train_set = len(dataset) - len_valid_set

#print("The length of Train set is {}".format(len_train_set))
#print("The length of Valid set is {}".format(len_valid_set))

train_dataset, valid_dataset, = torch.utils.data.random_split(dataset, [len_train_set, len_valid_set])

# shuffle and batch the datasets
train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=4, shuffle=True, num_workers=1)
valid_loader = torch.utils.data.DataLoader(valid_dataset, batch_size=1, shuffle=True, num_workers=1)

(4)train

def train():

    # 记录每个 epoch 的训练和验证损失
    train_losses = []
    valid_losses = []

    # 设置设备
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    torch.autograd.set_detect_anomaly(True)

    #network = Network().to(device)
    network = RegressNet().to(device)
    criterion = nn.MSELoss()
    optimizer = optim.Adam(network.parameters(), lr=0.0001)

    loss_min = np.inf
    num_epochs = 10

    start_time = time.time()
    for epoch in range(1, num_epochs + 1):
        loss_train = 0
        loss_valid = 0
        running_loss = 0

        network.train()

        for step in tqdm(range(1, len(train_loader) + 1)):
            images, landmarks = next(iter(train_loader))

            images = images.to(device)
            landmarks = landmarks.view(landmarks.size(0), -1).to(device)

            predictions = network(images)

            optimizer.zero_grad()
            loss_train_step = criterion(predictions, landmarks)
            loss_train_step.backward()
            optimizer.step()

            loss_train += loss_train_step.item()
            running_loss = loss_train / step

        network.eval()
        with torch.no_grad():
            for step in range(1, len(valid_loader) + 1):
                images, landmarks = next(iter(valid_loader))

                images = images.to(device)
                landmarks = landmarks.view(landmarks.size(0), -1).to(device)

                predictions = network(images)
                loss_valid_step = criterion(predictions, landmarks)

                loss_valid += loss_valid_step.item()
                running_loss = loss_valid / step

        loss_train /= len(train_loader)
        loss_valid /= len(valid_loader)

        train_losses.append(loss_train)
        valid_losses.append(loss_valid)

        print('\n--------------------------------------------------')
        print('Epoch: {}  Train Loss: {:.4f}  Valid Loss: {:.4f}'.format(epoch, loss_train, loss_valid))
        print('--------------------------------------------------')

        if loss_valid < loss_min:
            loss_min = loss_valid
            torch.save(network.state_dict(), 'plate_landmark.pth')
            print("\nMinimum Validation Loss of {:.4f} at epoch {}/{}".format(loss_min, epoch, num_epochs))
            print('Model Saved\n')

    print('Training Complete')
    print("Total Elapsed Time: {} s".format(time.time() - start_time))

if __name__ == '__main__':
    train()

3.导出onnx

#export.py

import torch
import torch.nn
import onnx
from onnxsim import simplify
from model import RegressNet
#device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
device = torch.device('cpu')


model = RegressNet()

model_statedict  = torch.load(r'./plate_landmark.pth', map_location=device)
#model.eval()

model.load_state_dict(model_statedict)
input_names = ['input0']
output_names = ['output0']

x = torch.randn(1, 3, 64, 64, device=device)


torch.onnx.export(model, x, 'plate_landmark.onnx', opset_version=11, verbose=True, input_names=input_names, output_names = output_names,dynamic_axes={'input0': {0: 'batch'},
                                    'output0': {0: 'batch'}
                                   })

onnx_model = onnx.load("plate_landmark.onnx")# 简化模型
simplified_model, check = simplify(onnx_model)# 保存简化后的模型
onnx.save_model(simplified_model, "plate_landmark_sim.onnx")

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/18482.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[C][动态内存分配][柔性数组]详细讲解

目录 1.动态内存函数的介绍1.malloc2.free2.calloc4.realloc 2.常见的动态内存错误3.C/C程序的内存开辟4.柔性数组1.是什么&#xff1f;2.柔性数组的特点3.柔性数组的使用4.柔性数组的优势 1.动态内存函数的介绍 1.malloc 函数原型&#xff1a;void* malloc(size_t size)功能…

iOS马甲包, AB面,H5跳转包,开发上架

什么是马甲包 马甲包一般是主APP的分身或者克隆&#xff0c;也或者说是穿着马甲的一个APP&#xff0c;脱掉马甲&#xff0c;APP将呈现另一种样式&#xff0c;也就是常说的AB面APP。 1. 马甲包、AB面、白包、h5跳转包 2.苹果开发者 3.TG&#xff1a;APPYKJ 4.喂心&#xff1…

【AI算法岗面试八股面经【超全整理】——概率论】

AI算法岗面试八股面经【超全整理】 概率论信息论机器学习CVNLP 目录 1、古典概型、几何概型2、条件概率、全概率公式、贝叶斯公式3、先验概率、后验概率4、离散型随机变量的常见分布5、连续型随机变量的常见分别6、数学期望、方差7、协方差、相关系数8、独立、互斥、不相关9.大…

【PB案例学习笔记】-11动画显示窗口

写在前面 这是PB案例学习笔记系列文章的第11篇&#xff0c;该系列文章适合具有一定PB基础的读者。 通过一个个由浅入深的编程实战案例学习&#xff0c;提高编程技巧&#xff0c;以保证小伙伴们能应付公司的各种开发需求。 文章中设计到的源码&#xff0c;小凡都上传到了gite…

ESP32 - Micropython ESP-IDF 双线教程 WIFI (2)

ESP32 - Micropython ESP-IDF 双线教程 WIFI ESP32 - IDF WIFI转换为ESP32-IDF的示例代码main/main.c 代码解释 ESP32 - IDF WIFI 转换为ESP32-IDF的示例代码 以下是使用ESP-IDF&#xff08;Espressif IoT Development Framework&#xff09;编写的连接到Wi-Fi网络的示例代码…

颈源性头痛症状及表

颈源性头痛一般表现为&#xff0c;就是说从枕后一直颞侧&#xff0c;到太阳穴附近&#xff0c;这个是枕小的一个疼痛&#xff0c;还有一部分人从枕后&#xff0c;沿着一个弧线&#xff08;如下图&#xff09;的轨迹到了前额&#xff0c;到我们前额&#xff0c;这样一个疼痛&…

Bitbucket的原理及应用详解(一)

本系列文章简介&#xff1a; 在数字化和全球化的今天&#xff0c;软件开发和项目管理已经成为企业成功的关键因素之一。随着团队规模的扩大和项目的复杂化&#xff0c;如何高效地协同开发、管理代码和确保代码质量成为了开发者和管理者面临的重要挑战。Bitbucket作为一款功能强…

深入解析线程上下文切换:掌握线程上下文切换的核心原理

1. 进程与线程的基本概念 1.1 进程与线程的区别 在操作系统中&#xff0c;进程和线程是两个基本的概念&#xff0c;它们共同构成了程序的执行环境。了解它们的区别是理解线程上下文切换的基础。 进程&#xff1a;进程是程序的一次执行实例。它是操作系统资源分配的基本单位。…

pytest的断言与Selenium 模拟操作的一个例子

在Python中&#xff0c;pytest是一个流行的单元测试框架&#xff0c;而Selenium是一个用于自动化浏览器操作的工具。结合这两者&#xff0c;我们可以编写自动化测试脚本来验证网页的行为是否符合预期。下面是一个简单的例子&#xff0c;展示了如何使用pytest的断言功能以及Sele…

解决在Mac下使用npm报错:Error: EACCES: permission denied

原因说明&#xff1a;没有足够的权限在 /usr/local/lib/node_modules 目录下创建文件夹 这个错误表明你在安装或更新 Vue.js&#xff08;vue&#xff09;包时&#xff0c;没有足够的权限在 /usr/local/lib/node_modules 目录下创建文件夹。这通常是因为默认情况下&#xff0c;普…

【头歌-Python】文件自学引导

禁止转载&#xff0c;原文&#xff1a;https://blog.csdn.net/qq_45801887/article/details/139258793 参考教程&#xff1a;B站视频讲解——https://space.bilibili.com/3546616042621301 如果代码存在问题&#xff0c;麻烦大家指正 ~ ~有帮助麻烦点个赞 ~ ~ 文件自学引导 第…

算数运算符

算术运算符是用于数值类型变量计算的运算符。 它的返回结果是数值。 赋值符号 关键知识点&#xff1a;先看右侧&#xff0c;再看左侧&#xff0c;把右侧的值赋值给左侧的变量。 附上代码&#xff1a; string myName "唐唐"; int myAge 18; float myHeight 177.5…

202312青少年软件编程(Python)等级考试试卷(四级)

第 1 题 【单选题】 下列有关分治算法思想的描述不正确的是?( ) A :将问题分解成的子问题具有相同的模式 B :将问题分解出的各个子问题相互之间有公共子问题 C :当问题足够小时,可以直接求解 D :可以将子问题的求解结果合并成原问题的解 正确答案:B 试题解析: 第 2…

ADIL简单测试实例

参考资料&#xff1a;https://blog.csdn.net/geyichongchujianghu/article/details/130045373这个连接是Java的代码&#xff0c;我根据它的链接写了一个kotlin版本的。 AIDL&#xff08;Android Interface Definition Language&#xff09;是Android平台上用于进程间通信&…

AI办公自动化:kimi批量新建文件夹

工作任务&#xff1a;批量新建多个文件夹&#xff0c;每个文件夹中的年份不一样 在kimi中输入提示词&#xff1a; 你是一个Python编程专家&#xff0c;要完成一个编写关于录制电脑上的键盘和鼠标操作的Python脚本的任务&#xff0c;具体步骤如下&#xff1a; 打开文件夹&…

FFmpeg编解码的那些事(1)

看了网上很多ffmpeg的编解码的文章和代码&#xff0c;发现有很多文章和代码都过时了&#xff0c;主要还是ffmpeg有很多接口都已经发生变化了。 这里简单说一下&#xff0c;什么是编码和解码。 1.视频编码 对于视频来说&#xff0c;可以理解为多张&#xff08;rgb或者yuv&…

Python散点图矩阵代码模版

本文分享Python seaborn实现散点图矩阵代码模版&#xff0c;节选自&#x1f449;嫌Matplotlib繁琐&#xff1f;试试Seaborn&#xff01; 散点图矩阵&#xff08;scatterplot matrix&#xff09;展示原始数据中所有变量两两之间关系&#xff0c;可以规避单一统计指标的偏差&…

二分查找算法详讲(三种版本写法)原创

介绍: 二分查找算法&#xff08;Binary Search&#xff09;是一种在有序数组中查找目标元素的算法。 它的基本思想是通过将目标元素与数组的中间元素进行比较&#xff0c;从而将搜索范围缩小一半。 如果目标元素等于中间元素&#xff0c;则搜索结束&#xff1b;如果目标元素小…

Neural Filters:照片恢复

Ps菜单&#xff1a;滤镜/Neural Filters/恢复/照片恢复 Neural Filters/RESTORATION/Photo Restoration 照片恢复 Photo Restoration借助 AI 强大功能快速恢复旧照片&#xff0c;提高对比度、增强细节、消除划痕。将此滤镜与着色相结合以进一步增强效果。 “照片恢复”滤镜利用…

Scikit-Learn随机森林

Scikit-Learn随机森林 1、随机森林1.1、集成学习1.2、Bagging方法1.3、随机森林算法1.4、随机森林的优缺点2、Scikit-Learn随机森林回归2.1、Scikit-Learn随机森林回归API2.2、随机森林回归实践(加州房价预测)1、随机森林 随机森林是一种由决策树构成的集成算法,它在大多情况…