【复旦邱锡鹏教授《神经网络与深度学习公开课》笔记】梯度的反向传播算法

矩阵微积分(Matrix Calculus)

在开始之前,需要先了解矩阵微积分的一些计算规则。
首先,对于矩阵微积分的表示,通常由两种符号约定:

  • 分母布局

    • 标量关于向量的导数为列向量

    • 向量关于标量的导数为行向量

    • N维向量对M维向量的导数为M*N维矩阵(雅可比矩阵的转置)
      在这里插入图片描述

    • 标量对M维向量的二阶偏导数为M*M维矩阵(Hessian矩阵,也写作 ▽ 2 f ( x ) \triangledown^2f(x) 2f(x),第m行第n个元素为 ∂ 2 y ∂ x m ∂ x n \frac{\partial^2y}{\partial x_m\partial x_n} xmxn2y
      在这里插入图片描述

  • 分子布局

    • 标量关于向量的导数为行向量
    • 向量关于标量的导数为列向量
    • N维向量对于M维向量的导数为N*M维矩阵(雅可比矩阵)

∂ f ( x ) ∂ x = [ ∂ y 1 ∂ x 1 ⋯ ∂ y 1 ∂ x M ⋮ ⋱ ⋮ ∂ y N ∂ x 1 ⋯ ∂ y N ∂ x M ] ∈ R N × M \begin{aligned} \frac{\partial f(x)}{\partial x}= \begin{bmatrix} \frac{\partial y_1}{\partial x_1}&\cdots&\frac{\partial y_1}{\partial x_M}\\ \vdots&\ddots&\vdots\\ \frac{\partial y_N}{\partial x_1}&\cdots&\frac{\partial y_N}{\partial x_M} \end{bmatrix}\in\mathbb{R}^{N\times M} \end{aligned} xf(x)= x1y1x1yNxMy1xMyN RN×M

- 标量对M维向量的二阶偏导数为M*M维矩阵(Hessian矩阵的转置)
∂ 2 y ∂ x 2 = ∂ ∂ x ∂ y ∂ x = ∂ ∂ x [ ∂ y ∂ x 1 ⋯ ∂ y ∂ x M ] = [ ∂ 2 y ∂ x 1 2 ⋯ ∂ 2 y ∂ x M ∂ x 1 ⋮ ⋱ ⋮ ∂ 2 y ∂ x 1 ∂ x M ⋯ ∂ 2 y ∂ x M 2 ] ∈ R M × M \begin{aligned} \frac{\partial^2y}{\partial x^2} &=\frac{\partial}{\partial x}\frac{\partial y}{\partial x}\\ &=\frac{\partial}{\partial x} \begin{bmatrix} \frac{\partial y}{\partial x_1}&\cdots&\frac{\partial y}{\partial x_M} \end{bmatrix}\\ &=\begin{bmatrix} \frac{\partial^2 y}{\partial x_1^2}&\cdots&\frac{\partial^2 y}{\partial x_M\partial x_1}\\ \vdots&\ddots&\vdots\\ \frac{\partial^2 y}{\partial x_1\partial x_M}&\cdots&\frac{\partial^2 y}{\partial x_M^2} \end{bmatrix} \in\mathbb{R}^{M\times M} \end{aligned} x22y=xxy=x[x1yxMy]= x122yx1xM2yxMx12yxM22y RM×M
分子布局和分母布局之间是转置的关系。本系列所有内容默认都以分母布局进行计算和解释。
矩阵微积分也遵从链式法则(分母布局)
在这里插入图片描述

梯度计算

前馈神经网络的结构化风险函数:
R ( W , b ) = 1 N ∑ n = 1 N L ( y ( n ) , y ^ ( n ) ) + 1 2 λ ∥ W ∥ F 2 \mathcal{R}(W,b)=\frac{1}{N}\sum_{n=1}^N\mathcal{L}(y^{(n)},\hat{y}^{(n)})+\frac{1}{2}\lambda\|W\|_F^2 R(W,b)=N1n=1NL(y(n),y^(n))+21λWF2
先分别计算网络中的某一层的损失函数 L \mathcal{L} L对参数的导数(分母布局),利用链式法则
∂ L ( y , y ^ ) ∂ w i j ( l ) = ∂ L ( y , y ^ ) ∂ z ( l ) ∂ z ( l ) ∂ w i j ( l ) ∂ L ( y , y ^ ) ∂ b ( l ) = ∂ L ( y , y ^ ) ∂ z ( l ) ∂ z ( l ) ∂ b ( l ) \begin{aligned} \frac{\partial \mathcal{L}(y,\hat{y})}{\partial w_{ij}^{(l)}} &=\frac{\partial \mathcal{L}(y,\hat{y})}{\partial z^{(l)}}\frac{\partial z^{(l)}}{\partial w_{ij}^{(l)}}\\ \frac{\partial \mathcal{L}(y,\hat{y})}{\partial b^{(l)}} &=\frac{\partial \mathcal{L}(y,\hat{y})}{\partial z^{(l)}}\frac{\partial z^{(l)}}{\partial b^{(l)}}\\ \end{aligned} wij(l)L(y,y^)b(l)L(y,y^)=z(l)L(y,y^)wij(l)z(l)=z(l)L(y,y^)b(l)z(l)
其中 z ( l ) = W ( l ) a ( l − 1 ) + b ( l ) z^{(l)}=W^{(l)}a^{(l-1)}+b^{(l)} z(l)=W(l)a(l1)+b(l)是一个向量,根据分母布局的规则,向量对于标量求导为行向量,因此 ∂ z ( l ) ∂ w i j ( l ) \frac{\partial z^{(l)}}{\partial w_{ij}^{(l)}} wij(l)z(l)为行向量
∂ z ( l ) ∂ w i j ( l ) = [ ∂ z 1 ( l ) ∂ w i j ( l ) ⋯ ∂ z i ( l ) ∂ w i j ( l ) ⋯ ∂ z M l ( l ) ∂ w i j ( l ) ] = [ ∂ ( w 1 j ( l ) a ( l − 1 ) + b i ( l ) ) ∂ w i j ( l ) ⋯ ∂ ( w i j ( l ) a ( l − 1 ) + b i ( l ) ) ∂ w i j ( l ) ⋯ ∂ ( w M i j ( l ) a ( l − 1 ) + b i ( l ) ) ∂ w i j ( l ) ] = [ 0 ⋯ a j ( l − 1 ) ⋯ 0 ] ≜ l i ( a j ( l − 1 ) ) ∈ R 1 × M l \begin{aligned} \frac{\partial z^{(l)}}{\partial w_{ij}^{(l)}} &=\begin{bmatrix} \frac{\partial z_1^{(l)}}{\partial w_{ij}^{(l)}}& \cdots& \frac{\partial z_i^{(l)}}{\partial w_{ij}^{(l)}}& \cdots& \frac{\partial z_{M_l}^{(l)}}{\partial w_{ij}^{(l)}} \end{bmatrix}\\ &=\begin{bmatrix} \frac{\partial (w_{1j}^{(l)}a^{(l-1)}+b_i^{(l)})}{\partial w_{ij}^{(l)}}& \cdots& \frac{\partial (w_{ij}^{(l)}a^{(l-1)}+b_i^{(l)})}{\partial w_{ij}^{(l)}}& \cdots& \frac{\partial (w_{M_ij}^{(l)}a^{(l-1)}+b_i^{(l)})}{\partial w_{ij}^{(l)}} \end{bmatrix}\\ &=\begin{bmatrix} 0&\cdots&a_j^{(l-1)}&\cdots&0 \end{bmatrix}\\ &\triangleq\mathbb{l}_i(a_j^{(l-1)})\in\mathbb{R}^{1\times M_l} \end{aligned} wij(l)z(l)=[wij(l)z1(l)wij(l)zi(l)wij(l)zMl(l)]=[wij(l)(w1j(l)a(l1)+bi(l))wij(l)(wij(l)a(l1)+bi(l))wij(l)(wMij(l)a(l1)+bi(l))]=[0aj(l1)0]li(aj(l1))R1×Ml
同样,向量 z ( l ) z^{(l)} z(l)对向量 b ( l ) b^{(l)} b(l)的导数为
∂ z ( l ) ∂ b ( l ) = [ ∂ ( w 1 j ( l ) a ( l − 1 ) + b 1 ( l ) ) ∂ b 1 ( l ) ⋯ ∂ ( w M i j ( l ) a ( l − 1 ) + b i ( l ) ) ∂ b 1 ( l ) ⋮ ⋱ ⋮ ∂ ( w 1 j ( l ) a ( l − 1 ) + b 1 ( l ) ) ∂ b M i ( l ) ⋯ ∂ ( w M i j ( l ) a ( l − 1 ) + b i ( l ) ) ∂ b M i ( l ) ] = [ 1 ⋯ 0 ⋮ ⋱ ⋮ 0 ⋯ 1 ] = I M i ∈ R M l × M l \begin{aligned} \frac{\partial z^{(l)}}{\partial b^{(l)}} &=\begin{bmatrix} \frac{\partial(w_{1j}^{(l)}a^{(l-1)}+b_1^{(l)})}{\partial b_1^{(l)}}&\cdots&\frac{\partial(w_{M_ij}^{(l)}a^{(l-1)}+b_i^{(l)})}{\partial b_1^{(l)}}\\ \vdots&\ddots&\vdots\\ \frac{\partial(w_{1j}^{(l)}a^{(l-1)}+b_1^{(l)})}{\partial b_{M_i}^{(l)}}&\cdots&\frac{\partial(w_{M_ij}^{(l)}a^{(l-1)}+b_i^{(l)})}{\partial b_{M_i}^{(l)}} \end{bmatrix}\\ &=\begin{bmatrix} 1&\cdots&0\\ \vdots&\ddots&\vdots\\ 0&\cdots&1 \end{bmatrix}\\ &=I_{M_i}\in\mathbb{R}^{M_l\times M_l} \end{aligned} b(l)z(l)= b1(l)(w1j(l)a(l1)+b1(l))bMi(l)(w1j(l)a(l1)+b1(l))b1(l)(wMij(l)a(l1)+bi(l))bMi(l)(wMij(l)a(l1)+bi(l)) = 1001 =IMiRMl×Ml
除了上面计算的计算部分外,还剩下关键的一项 ∂ R ( y , y ^ ) ∂ z ( l ) \frac{\partial\mathcal{R}(y,\hat{y})}{\partial z^{(l)}} z(l)R(y,y^),这一项叫第 l l l层的误差项 δ ( l ) \delta^{(l)} δ(l),同样,再次应用链式法则进行计算
δ ( l ) ≜ ∂ L ( y , y ^ ) ∂ z ( l ) = ∂ L ( y , y ^ ) ∂ z ( l + 1 ) ∂ z ( l + 1 ) ∂ a ( l ) ∂ a ( l ) ∂ z ( l ) \begin{aligned} \delta^{(l)}&\triangleq\frac{\partial \mathcal{L}(y,\hat{y})}{\partial z^{(l)}}\\ &=\frac{\partial\mathcal{L}(y,\hat{y})}{\partial z^{(l+1)}}\frac{\partial z^{(l+1)}}{\partial a^{(l)}}\frac{\partial a^{(l)}}{\partial z^{(l)}}\\ \end{aligned} δ(l)z(l)L(y,y^)=z(l+1)L(y,y^)a(l)z(l+1)z(l)a(l)
其中可直接得到
∂ L ( y , y ^ ) ∂ z ( l + 1 ) = δ ( l + 1 ) ∂ z ( l + 1 ) ∂ a ( l ) = ( W ( l + 1 ) ) T \begin{aligned} &\frac{\partial\mathcal{L}(y,\hat{y})}{\partial z^{(l+1)}}=\delta^{(l+1)}\\ &\frac{\partial z^{(l+1)}}{\partial a^{(l)}}=(W^{(l+1)})^T \end{aligned} z(l+1)L(y,y^)=δ(l+1)a(l)z(l+1)=(W(l+1))T
剩下一项计算计算如下
∂ a ( l ) ∂ z ( l ) = ∂ f l ( z ( l ) ) ∂ z ( l ) = [ ∂ f l ( z 1 ( l ) ) ∂ z 1 ( l ) ⋯ ∂ f l ( z M l ( l ) ) ∂ z 1 ( l ) ⋮ ⋱ ⋮ ∂ f l ( z 1 ( l ) ) ∂ z M l ( l ) ⋯ ∂ f l ( z M l ( l ) ) ∂ z M l ( l ) ] = [ f l ′ ( z 1 ( l ) ) ⋯ 0 ⋮ ⋱ ⋮ 0 ⋯ f l ′ ( z M l ( l ) ) ] = d i a g ( f l ′ ( z ( l ) ) ) \begin{aligned} \frac{\partial a^{(l)}}{\partial z^{(l)}}&=\frac{\partial f_l(z^{(l)})}{\partial z^{(l)}}\\ &=\begin{bmatrix} \frac{\partial f_l(z_1^{(l)})}{\partial z_1^{(l)}}&\cdots&\frac{\partial f_l(z_{M_l}^{(l)})}{\partial z_1^{(l)}}\\ \vdots&\ddots&\vdots\\ \frac{\partial f_l(z_1^{(l)})}{\partial z_{M_l}^{(l)}}&\cdots&\frac{\partial f_l(z_{M_l}^{(l)})}{\partial z_{M_l}^{(l)}} \end{bmatrix}\\ &=\begin{bmatrix} f_l^\prime(z_1^{(l)})&\cdots&0\\ \vdots&\ddots&\vdots\\ 0&\cdots&f_l^\prime(z_{M_l}^{(l)}) \end{bmatrix}\\ &=\mathrm{diag}(f_l^\prime(z^{(l)})) \end{aligned} z(l)a(l)=z(l)fl(z(l))= z1(l)fl(z1(l))zMl(l)fl(z1(l))z1(l)fl(zMl(l))zMl(l)fl(zMl(l)) = fl(z1(l))00fl(zMl(l)) =diag(fl(z(l)))
因此
δ ( l ) = δ ( l + 1 ) ( W ( l + 1 ) ) T d i a g ( f l ′ ( z ( l ) ) ) = ( δ ( l + 1 ) ( W ( l + 1 ) ) T ) ⊙ f l ′ ( z ( l ) ) ∈ R M l \begin{aligned} \delta^{(l)} &=\delta^{(l+1)}(W^{(l+1)})^T\mathrm{diag}(f_l^\prime(z^{(l)}))\\ &=(\delta^{(l+1)}(W^{(l+1)})^T)\odot f_l^\prime(z^{(l)})\in\mathbb{R}^{M_l} \end{aligned} δ(l)=δ(l+1)(W(l+1))Tdiag(fl(z(l)))=(δ(l+1)(W(l+1))T)fl(z(l))RMl
符号 ⊙ \odot 表示对应位置元素相乘1。从上式中可以看出,第 l l l层的误差项可以由第 l + 1 l+1 l+1层的误差项乘以对应的权重矩阵的转置再乘以对应项激活函数的导数来得到,这个过程就是所谓的反向传播。也就是说,要计算对任意一个参数的偏导数,要从神经网络最后一层先计算出损失函数对最后一层净活性值的偏导数,即误差项 δ ( L ) = ∂ L ∂ z ( L ) \delta^{(L)}=\frac{\partial \mathcal{L}}{\partial z^{(L)}} δ(L)=z(L)L,然后根据上式一层一层向前计算
再带回之前的式子,得到最终梯度为:
∂ L ( y , y ^ ) ∂ w i j ( l ) = δ ( l ) l i ( a j ( l − 1 ) ) = [ δ 1 ( l ) ⋯ δ i ( l ) ⋯ δ M l ( l ) ] [ 0 ⋯ a j ( l − 1 ) ⋯ 0 ] T = δ i ( l ) a j ( l − 1 ) ⇒ ∂ L ( y , y ^ ) ∂ W ( l ) = δ ( l ) ( a ( l − 1 ) ) T ∈ R M l × M l − 1 \begin{aligned} \frac{\partial\mathcal{L}(y,\hat{y})}{\partial w_{ij}^{(l)}} &=\delta^{(l)}\mathbb{l}_i(a_j^{(l-1)})\\ &=\begin{bmatrix}\delta_1^{(l)}&\cdots&\delta_i^{(l)}&\cdots&\delta_{M_l}^{(l)}\end{bmatrix}\begin{bmatrix}0&\cdots&a_j^{(l-1)}&\cdots&0\end{bmatrix}^T\\ &=\delta_i^{(l)}a_j^{(l-1)}\\ \Rightarrow\frac{\partial\mathcal{L}(y,\hat{y})}{\partial W^{(l)}} &=\delta^{(l)}(a^{(l-1)})^T\in\mathbb{R}^{M_l\times M_{l-1}} \end{aligned} wij(l)L(y,y^)W(l)L(y,y^)=δ(l)li(aj(l1))=[δ1(l)δi(l)δMl(l)][0aj(l1)0]T=δi(l)aj(l1)=δ(l)(a(l1))TRMl×Ml1
∂ L ( y , y ^ ) ∂ b ( l ) = δ ( l ) ∈ R M l \frac{\partial \mathcal{L}(y,\hat{y})}{\partial b^{(l)}}=\delta^{(l)}\in\mathbb{R}^{M_l} b(l)L(y,y^)=δ(l)RMl

反向传播算法的伪代码描述
在这里插入图片描述


  1. 计算机视觉领域(CV)论文中“圈加”、“圈乘”和“点乘”的解释以及代码示例(⊕、⊙、⊗、广播、广播机制、element-wise、矩阵、乘法、矩阵乘法、向量)_圈×-CSDN博客 ↩︎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/27547.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LDR6500:手机电脑拓展坞转接器方案的卓越之选

随着科技的飞速发展,手机和电脑已成为我们日常生活中不可或缺的工具。然而,它们的接口有限,经常难以满足我们多样化的需求。这时,一款高效、稳定的拓展坞转接器就显得尤为重要。LDR6500,作为乐得瑞科技精心研发的USB P…

【计算机视觉(10)】

基于Python的OpenCV基础入门——图像滤波去噪 图像滤波去噪均值滤波中值滤波高斯滤波双边滤波方框滤波图像滤波去噪代码实现及其效果图 图像滤波去噪 图像滤波去噪是一种图像处理方法,它通过应用滤波器来减少或消除图像中的噪声。噪声是图像中不希望的、无用的、干…

安装sqlserver2022 express

1、下载 SQL Server 下载 | Microsoft 双击sql2022-ssei-expr 2、安装 下载完成以后,将会出现以下对话框 : 点击【全新SQL Server独立安装或向现有安全添加功能】 下一步,下一步: 下一步: 下一步,这里我…

【LeetCode:2779. 数组的最大美丽值 + 排序 + 二分】

🚀 算法题 🚀 🌲 算法刷题专栏 | 面试必备算法 | 面试高频算法 🍀 🌲 越难的东西,越要努力坚持,因为它具有很高的价值,算法就是这样✨ 🌲 作者简介:硕风和炜,…

【docker】如何解决artalk的跨域访问问题

今天折腾halo的时候,发现artalk出现跨域访问报错,内容如下。 Access to fetch at https://artk.musnow.top/api/stat from origin https://halo.musnow.top has been blocked by CORS policy: The Access-Control-Allow-Origin header contains multipl…

Kotlin编程实践-【Java如何调用Kotlin中带默认值参数的函数】

问题 如果你有一个带有默认参数值的 Kotlin 函数,如何从 Java 调用它而无须为每个参数显式指定值? 方案 为函数添加注解JvmOverloads。 也就是为Java添加重载方法,这样Java调用Kotlin的方法时就不用传递全部的参数了。 示例 在 Kotlin …

企业环保创A标准

在环保日益受到重视的今天,企业如何有效地进行环保管理,提高自身的环保水平,已成为一个不可忽视的议题。而企业环保创A标准,正是为了评估企业的环保水平和环保管理能力而制定的一项重要评价标准。朗观视觉小编将详细解析企业环保创…

XILINX 7系列XDMA使用_IP核介绍以及工程搭建

文章目录 一、XDMA IP核1.1、接口说明1.2、配置页说明 二、XDMA工程搭建2.1、BD搭建2.2 Linux下XDMA驱动安装2.3 Linux下使用XDMA进行数据传输 一、XDMA IP核 1.1、接口说明 sys_clk:主机给PCIE提供的时钟信号,通过原理图查看 sys_rst_n:主机…

【已解决】引入 element 组件无法使用编译错误 ERROR Failed to compile with 1 error

如果大家使用这个vue 配合 element 框架不熟练,当你顺利按照文档安装好 vue 和 element 的时候想要使用element 的组件时候确无法展示出来,甚至报错。不妨看看是不是这个问题, 1.首先使用element 的时候,前提是把必须要的 elemen…

TCGAbiolinks包学习

TCGAbiolinks 写在前面学习目的GDCquery GDCdownload GDC prepare中间遇到的报错下载蛋白质数据 写在前面 由于别人提醒我TCGA的数据可以利用TCGAbiolinks下载并处理,所以我决定阅读该包手册,主要是该包应该是有更新的,我看手册进行更新了&…

法国恐脱欧、陷金融危机!股指本周跌6.2%,创三年多最大跌幅

内容提要 法国财政部长警告称,左翼政党联盟若上台可能导致法国脱欧,而且无论极右翼还是左翼上台,都可能导致法国爆发金融危机。由于政坛风险高企,法国股市周五延续跌势,本周已经抹掉2100亿美元市值,几乎回…

MySQL学习——创建MySQL Workbench中的Connections

在MySQL Workbench中,Connections(连接)是用户与MySQL数据库进行交互的桥梁。 本文将添加一个新连接,该连接可以是初始连接,也可以是附加连接。在开始之前,必须安装、启动MySQL服务器的实例,并…

【单片机毕业设计选题24007】-基于STM32和阿里云的家庭健康数据监测系统

系统功能: 本课题设计是基于STM32单片机作为控制主体,通过HX711称重模块,HC-SR04超声波测距模块,红外测温,心率传感器等模块通过I2C或SPI接口与STM32进行通信,并读取传感器输出的身高,体重,心率…

matlab-2-simulink-小白教程-如何绘制电路图进行电路仿真

以上述电路图为例:包含D触发器,时钟CLK,与非门 一、启动simulink的三种方式 方式1 在MATLAB的命令行窗口输入“Simulink”命令。 方式2 在MATLAB主窗口的“主页”选项卡中,单击“SIMULINK”命令组中的Simulink命令按钮。 方式3 从MATLAB…

FreeRTOS简单内核实现4 临界段

文章目录 0、思考与回答0.1、思考一0.2、思考二0.3、思考三 1、关中断1.1、带返回值1.2、不带返回值 2、开中断3、临界段4、应用 0、思考与回答 0.1、思考一 为什么需要临界段? 有时候我们需要部分代码一旦这开始执行,则不允许任何中断打断&#xff0…

『大模型笔记』Anthropic团队:什么是大模型的可解释性!

Anthropic团队:什么是大模型的可解释性! 文章目录 一. Anthropic团队:什么是大模型的可解释性!二. 参考文献我的小红书中英文双语视频:Anthropic团队:什么是大模型的可解释性!一. Anthropic团队:什么是大模型的可解释性! 我在Anthropic的可解释性团队工作。可解释性是…

【ArcGISProSDK】OpenItemDialog打开文件对话框

打开单个文件 效果 代码 public async void OpenFunction() {// 获取默认数据库var gdbPath Project.Current.DefaultGeodatabasePath;OpenItemDialog openItemDialog new OpenItemDialog() { Title "打开要素文件",InitialLocation gdbPath,Filter ItemFilte…

花卉识别-python-pytorch-CNN深度学习含数据集+pyqt界面

代码下载地址: https://download.csdn.net/download/qq_34904125/89383063 本代码是基于python pytorch环境安装的。 下载本代码后,有个requirement.txt文本,里面介绍了如何安装环境,环境需要自行配置。 或可直接参考下面博文…

Stable Diffusion【应用篇】【艺术写真】:粘土风之后陶瓷风登场,来看看如何整合AI艺术写真吧

在国外的APP Remini引爆了粘土滤镜后,接着Remini又推出了瓷娃娃滤镜。相当粘土滤镜,个人更喜欢瓷娃娃滤镜,因为陶瓷工艺更符合东方艺术审美。 下面我们就来看看陶瓷特效在AI写真方面的应用。话不多说,我们直接开整。 关于粘土整…

Real3D:利用真实世界图像扩展3D重建模型

原理: 在3D重建领域,单视图重建任务由于其固有的不确定性而充满挑战。为了克服这一难题,研究者们一直在探索如何利用大型数据集训练模型以学习形状和纹理的通用先验知识。然而,现有训练方法依赖于合成数据或多视图捕获&#xff0c…