作者:Vallee | 来源:计算机视觉工坊
在公众号「计算机视觉工坊」后台,回复「原论文」可获取论文pdf和代码链接
DiffTF: 基于Transformer的大词汇量3D扩散模型
大词汇量3D物体生成
最近基于扩散模型的3D生成方法大火,但如何生成大量类别且高质量的3D模型还没得到很好地解决,那么大词汇量高质量3D物体生成到底有哪些挑战呢?这篇文章的解决思路又是怎样的呢?
TLDR: 该论文提出了一种基于扩散模型的大量类别3D物体生成框架,克服了三个主要挑战:a)需要高效且表达力强的3D表示, b) 几何和纹理的大量多样性, c)真实世界物体的外观复杂性。提出了一种新的基于改进的三平面(triplane)和Transformer的3D感知扩散模型,DiffTF。1) 改进三平面表示提高了拟合速度和准确性,2)3D感知的TransFormer处理跨平面的交叉关系,聚合通用3D知识和专用3D特征, 3) 设计了3D感知的编码器/解码器来增强编码的三平面中的通用3D知识,以处理具有复杂外观的类别。在ShapeNet和OmniObject3D(超过200个多样化真实世界类别)上的实验证明了单个DiffTF模型实现了具有高度多样性、丰富语义和高质量的大词汇量3D物体生成性能。