论文:https://arxiv.org/pdf/2401.16224
github:https://github.com/modelscope/DiffSynth-Studio/tree/main/examples/Diffutoon
网络结构
两个主要分支:主要的卡通化管线和编辑分支
重要技术
使用了fastblend(无需模型的视频帧之间的平滑技术)和跨帧注意力机制
使用提示词来生成颜色引导信息,但是在大量帧之中可能会实效,fastblend可以弥补这一问题
可以只使用主分支来卡通化视频,也可以在卡通化的同时对视频色彩信息进行编辑
fastblend技术
跨帧注意力机制参考文献1
跨帧注意力机制参考文献2
本网络结构所需要的模型
训练网络的相关参数配置
不同框架之间的效果对比