AIGC笔记--特征线性调制(FiLM)层的实现

目录

1--特征线性调制层的作用

2--特征线性调制层的实现

3--论文实例


1--特征线性调制层的作用

        特征线性调制(Feature-wise Linear Modulation,FiLM)层是一种神经网络模块,它可以用来实现特征的条件调整。FiLM层的主要功能是对输入特征进行缩放(scaling)和偏移(shifting),并且这个缩放和偏移是可以学习的。

        FiLM层的工作原理如下:给定一个输入特征x,FiLM层首先通过一个全连接层或其他形式的网络结构生成两个参数γβ,然后对输入特征进行缩放和偏移,即y = γ * x + β。这里,γ和β是与输入特征x同样大小的向量,它们决定了对输入特征的缩放偏移程度

        FiLM层的主要作用是实现特征的条件调整,使得模型可以根据特定的条件(例如来自其他模态的信息)来调整特征的表示。这种机制在许多任务中都很有用,例如在图像生成任务中,FiLM层可以用来根据文本描述来调整生成的图像特征;在视频理解任务中,FiLM层可以用来根据音频信息来调整视频特征

        总的来说,FiLM层是一种强大的特征调整工具,它可以帮助模型更好地利用条件信息,从而提高模型的性能。

2--特征线性调制层的实现

import torch
import torch.nn as nnclass FiLM(nn.Module):def __init__(self, input_dim, condition_dim):super(FiLM, self).__init__()# 全连接层,用于生成γ和β参数self.fc_gamma = nn.Linear(condition_dim, input_dim)self.fc_beta = nn.Linear(condition_dim, input_dim)def forward(self, x, condition):# 根据条件特征获取缩放scale参数和移位参数shift,即计算γ和β参数gamma = self.fc_gamma(condition)beta = self.fc_beta(condition)# 对输入特征x进行缩放和偏移,实现条件特征调整输入特征y = gamma * x + beta return yif __name__ == "__main__":input_dim = 64 # 输入特征condition_dim = 128 # 条件特征# 创建一个FiLM层实例film_layer = FiLM(input_dim, condition_dim)# 初始化输入特征x和条件特征conditionx = torch.randn(1, input_dim)condition = torch.randn(1, condition_dim)# 使用FiLM层对输入特征x进行条件调整y = film_layer(x, condition)print(y.shape) # [1, 64]

3--论文实例

Audio2Photoreal中,利用音频特征来调整动作特征:

import torch
import torch.nn as nn
from einops import rearrangeclass DenseFiLM(nn.Module):def __init__(self, embed_channels):super().__init__()self.embed_channels = embed_channelsself.block = nn.Sequential(nn.Mish(), nn.Linear(embed_channels, embed_channels * 2)) # nn.Mish()激活函数def forward(self, position): # position [B dim]pos_encoding = self.block(position) # pos_encoding [B 2*dim]pos_encoding = rearrange(pos_encoding, "b c -> b 1 c") # [B 1 2*dim]scale_shift = pos_encoding.chunk(2, dim=-1) # two [B 1 dim]return scale_shiftdef featurewise_affine(x, scale_shift):# 获取缩放因子和移位因子scale, shift = scale_shift # scale [B 1 dim] shift [B 1 dim]return (scale + 1) * x + shift # 调整特征if __name__ == "__main__":B = 2Frame_Residual_depth = 20*4dim = 64input_x = torch.rand(B, Frame_Residual_depth, dim) # 运动特征condition_t = torch.rand(B, dim) # 音频条件特征film = DenseFiLM(dim)# 调用film(condition_t)获取缩放因子和移位因子output_x = input_x + featurewise_affine(input_x, film(condition_t)) # 通过print(output_x.shape) # [B, Frame_Residual_depth, dim]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/632706.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据结构——二叉树的遍历与应用

目录 一.前言 二. 二叉树链式结构的实现 2.1 前置说明 2.2 二叉树的遍历 2.2.1 前序、中序以及后序遍历 前序遍历: 中序遍历递归图: 后序遍历: 2.3节点个数 2.4叶子节点个数 2.5第K层的节点个数 2.6 二叉树查找值为x的节点 2.7 …

[M数学] lc2171. 拿出最少数目的魔法豆(数学+前缀和)

文章目录 1. 题目来源2. 题目解析 1. 题目来源 链接:2171. 拿出最少数目的魔法豆 2. 题目解析 比较简单直接的思路吧,会发现最终的转换成的数组,每个元素要么是 0,不参与结果判断,要么大家都一样。想一想这个都一样…

【计算机网络】子网划分(经典基础练习题)

一、某主机IP地址为110.35.2.68,子网掩码为255.255.255.128,求网络地址? 二、有A类网络18.0.0.0的子网掩码为255.128.0.0,请问可以划分为多少个子网? 并写出每个子网的子网号? 三、将C类网119.181.25.0划分…

.NetCore Flurl.Http 4.0.0 以上管理客户端

参考原文地址:Managing Clients - Flurl 管理客户端 Flurl.Http 构建在堆栈之上System.Net.Http。如果您熟悉HttpClient,那么您可能听说过这个建议:不要为每个请求创建一个新客户端;重复使用它们,否则将面临后…

MySQL篇—性能压测工具mysqlslap介绍

☘️博主介绍☘️: ✨又是一天没白过,我是奈斯,DBA一名✨ ✌✌️擅长Oracle、MySQL、SQLserver、Linux,也在积极的扩展IT方向的其他知识面✌✌️ ❣️❣️❣️大佬们都喜欢静静的看文章,并且也会默默的点赞收藏加关注❣…

oracle rac 12.2.0.1CPU使用率100%

oracle rac 12.2.0.1 CPU使用率100% 查看是集群的java进程"oracle.ops.opsctl.OPSCTLDriver config database"占用cpu 根据进程号查找父进程,发现是/oracle/GRID/122/perl/bin/perl /oracle/GRID/122/tfa/gcmproddb01/tfa_home/bin/tfactl.pl rediscover -mode full …

JUnit 5 单元测试框架

依赖安装 <!-- https://mvnrepository.com/artifact/junit/junit --> <dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>4.13.2</version><scope>test</scope> </dependency>…

Docker 安装 MongoDb4

Docker 安装mongoDb 获取mongodb安装参考 获取mongodb 注意&#xff1a; WARNING: MongoDB 5.0 requires a CPU with AVX support, and your current system does not appear to have that! **hub官网&#xff08;需要梯子&#xff09;&#xff1a;**https://hub.docker.com/_…

WAF攻防相关知识点总结1--信息收集中的WAF触发及解决方案

什么是WAF WAF可以通过对Web应用程序的流量进行过滤和监控&#xff0c;识别并阻止潜在的安全威胁。WAF可以检测Web应用程序中的各种攻击&#xff0c;例如SQL注入、跨站点脚本攻击&#xff08;XSS&#xff09;、跨站请求伪造&#xff08;CSRF&#xff09;等&#xff0c;并采取相…

Node.js基础---fs文件系统 读取和写入

什么是nodejs? 脚本语言需要一个解析器才能运行&#xff0c;JavaScript是脚本语言&#xff0c;在不同的位置有不一样的解析器&#xff0c;如写入html的js语言&#xff0c;浏览器是它的解析器角色。而对于需要独立运行的JS&#xff0c;nodejs就是一个解析器。 每一种解析器都是…

华为认证云计算专家(HCIE-Cloud Computing)--练习题

华为认证云计算专家&#xff08;HCIE-Cloud Computing&#xff09;–练习题 1.(判断题)华为云stack支持鲲鹏架构&#xff0c;业务可从X86过渡到鲲鹏。 正确答案&#xff1a;正确 2.(判断题)业务上云以后&#xff0c;安全方面由云服务商负责&#xff0c;客户自己不需要做任何防…

Mysql核心知识命令汇总

Mysql核心知识命令汇总 1、索引key和index 索引被用来快速找出一个列上用一特定值的行。所有的MySQL索引(PRIMARY、UNIQUE和INDEX)在B树中存储。字符串是自动地压缩前缀和结尾空间。作用&#xff1a; 快速找出匹配一个where子句的行执行联结时&#xff0c;从其他表检索行对特定…

详细介绍IP 地址、网络号和主机号、ABC三类、ip地址可分配问题、子网掩码、子网划分

1、 IP 地址: 网络之间互连的协议&#xff0c;是由4个字节(32位二进制)组成的逻辑上的地址。 将32位二进制进行分组&#xff0c;分成4组&#xff0c;每组8位(1个字节)。【ip地址通常使用十进制表示】ip地址分成四组之后&#xff0c;在逻辑上&#xff0c;分成网络号和主机号 2…

适合初学者的机器学习开源项目合集(已加入Github加速计划)

目录 开源项目合集[>> 机器学习路线图&#xff1a;mrdbourke/machine-learning-roadmap](https://gitcode.com/mrdbourke/machine-learning-roadmap)[>> 机器学习资源的汇总&#xff1a;johnmyleswhite/ML_for_Hackers](https://gitcode.com/johnmyleswhite/ML_for…

vue+elementUI el-select 中 没有加clearable出现一个或者多个×清除图标问题

1、现象&#xff1a;下方截图多清除图标了 2、在全局common.scss文件中加一个下方的全局样式noClear 3、在多清除图标的组件上层div加noClear样式 4、清除图标去除成功

第四讲_ArkTS装饰器(一)

ArkTS装饰器&#xff08;一&#xff09; 1. Builder装饰器1.1 在组件内定义构建函数1.2 全局定义构建函数 2. BuilderParam装饰器 1. Builder装饰器 Builder是一种更轻量的 UI 元素复用机制&#xff0c;可以将重复使用的 UI 元素抽象成一个方法&#xff0c;并用Builder修饰该方…

Linux centos中find命令的多种用途:按照具体应用来详细说明find的用法举例

目录 一、find命令 二、find命令的语法 &#xff08;一&#xff09;语法格式 &#xff08;二&#xff09;选项 1、选项(option)介绍 2、控制符号链接的option 3、调试选项debugopts 4、优化选项 &#xff08;三&#xff09;表达式expression 1、选项options 2、测试…

Linux安装ossutil工具且在Jenkins中执行shell脚本下载文件

测试中遇到想通过Jenkins下载OSS桶上的文件&#xff0c;要先在linux上安装ossutil工具&#xff0c;记录安装过程如下&#xff1a; 一、下载安装ossutil&#xff0c;使用命令 1.下载&#xff1a;wget https://gosspublic.alicdn.com/ossutil/1.7.13/ossutil64 2.一定要赋权限…

鸿蒙使用第三方SO库

一、示例&#xff1a; 使用第三方SO库以导入OpenCV和MNN的SO库为例 1、将MNN和Opencv的so文件(包括.407文件)&#xff0c;放入模块下libs目录对应的版本(arm64-v8a和armeabi-v7a) entry/libs/arm64-v8a/xxx.so2、配置模块目录下的build-profile.json5的buildOption字段&…

6.3.5编辑视频

6.3.5编辑视频 除了上面的功能外&#xff0c;Camtasia4还能进行简单的视频编辑工作&#xff0c;如媒体的剪辑、连接、画中画等。 下面我们就利用Camtasia4的强大功能来实现一个画中画效果&#xff0c;在具体操作之前&#xff0c;需要准备好两个视频文件&#xff0c;一个作为主…