论文阅读--CLIPasso

让计算机把真实图片抽象成简笔画,这个任务很有挑战性,需要模型捕获最本质的特征

 

以往的工作是找了素描的数据集,而且抽象程度不够高,笔画是固定好的,素描对象的种类不多,使得最后模型的效果十分受限

之所以用CLIP是因为它可以不管图像的风格,都能把物体的视觉特征编码的特别好

本模型不仅是生成简笔画,还可以通过控制使用笔画的多少实现不同程度的抽象

在白纸上随机初始化曲线,最后不断训练成简笔画

一个笔画1~4个点,点在空间中是二维的(x,y),模型训练更改四个点的位置,从而改变笔画的形状

learned parameters就是初始化的笔画

Rasterizer光栅化器是可导的,是图形学那边的工作

这篇文章的贡献在于前面如何更好的初始化,后面如何选择损失函数

像ViLD一样,在这里的ground truth是CLIP模型蒸馏,无论是原图还是简笔画,如果它们描述的是同一物体,那么最后得到的特征应该是差不多的,也就是Ls语义损失

但仅有语义不够,比如马头的位置反了,但还是马,这是语义相近,但是和原始输入图像就不匹配了,因此需要在几何形状上对模型的输出进行限制,即Lg。用前几层去算几何形状的loss,因为前几层语义空间较低,更关注形状的特征

做了几个实验后发现初始化位置很重要,作者提出saliency的方式:把图片扔进训练好的ViT,把最后一层的多头自注意力取一个加权平均,做成一个saliency map,然后看哪个区域更显著,到显著的区域上去采点

局限性:

当图像有背景的时候效果不好;笔画数是超参,无法自行调整

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/15429.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

小米财报:业绩远超预期,汽车推着手机跑!

随着一季度财报陆续出炉,企业间的分化越来越明显。 新环境下,很多公司都陷入停滞时,去讨论“掉队”已经没有多少意义,现在真正值得我们关注的,是那些在逆风情况下,还能“领先”的企业。毫无疑问&#xff0…

ES集群性能优化参考建议

Elasticsearch(ES)集群性能优化是一个多方面的任务,涉及硬件、配置、查询优化等多个方面。以下是一些建议,帮助你优化Elasticsearch集群的性能: 1. 硬件优化 内存:确保分配给Elasticsearch的内存足够大&a…

C++|设计模式(三)|抽象工厂模式

抽象工厂模式仍然属于创建型模式,我们在【简单工厂和工厂方法模式】这篇文章中,描述了简单工厂和工厂方法模式,并在文末,简单介绍了工厂方法模式的局限性。 本文将通过汽车工厂的例子继续来阐述使用抽象工厂模式相比较于工厂方法…

Linux修炼之路之冯系结构,操作系统

目录 一:冯诺依曼体系结构 1.五大组件 2.存储器存在的意义 3.几个问题 二:操作系统 接下来的日子会顺顺利利,万事胜意,生活明朗-----------林辞忧 一:冯诺依曼体系结构 我们当代的计算机的基本构成都是由冯诺依曼…

Kubernetes 容器编排

应用程序部署演变 主要有三个演变: 传统部署:互联网早期,会直接将应用程序部署在物理机上 优点:简单,不需要其它技术的参与 缺点:不能为应用程序定义资源使用边界,很难合理地分配计算资源&…

【开源】多语言大型语言模型的革新:百亿参数模型超越千亿参数性能

大型人工智能模型,尤其是那些拥有千亿参数的模型,因其出色的商业应用表现而受到市场的青睐。但是,直接通过API使用这些模型可能会带来数据泄露的风险,尤其是当模型提供商如OpenAI等可能涉及数据隐私问题时。私有部署虽然是一个解决…

PY32F003+RTL8710(AT) 实现获取天气情况

一、RTL8710主要AT指令 1、ATSR:模块重启 2、ATSE1:开启回显 3、ATPW1:station模式 4、ATPNssid,password,,:连接到AP 5、ATPK1:设置自动接收 6、ATPC0,v1.yiketianqi.com,80:与网站建立TCP连接 7、ATPT125…

关于pytorch加载模型报错问题

load_net[“params”] 报keyerror 加载模型后查看对应参数是什么 model2 torch.load(m1_path "xxx.pth") print(model1.keys())若输出如下: 已经有相应参数不需要执行 load_net[“params”]若输出如下 则需要load_net[“params”]

Linux-命令上

at是一次性的任务,crond是循环的定时任务 如果 cron.allow 文件存在,只有在文件中出现其登录名称的用户可以使用 crontab 命令。root 用户的登录名必须出现在 cron.allow 文件中,如果这个文件存在的话。系统管理员可以明确的停止一个用户&am…

3D 生成重建014-Bidiff使用二维和三维先验的双向扩散

3D 生成重建014-Bidiff使用二维和三维先验的双向扩散 文章目录 0 论文工作1 论文方法2 效果 0 论文工作 大多数三维生成研究集中在将二维基础模型向上投影到三维空间中,要么通过最小化二维评分蒸馏采样(SDS)损失,要么通过对多视图…

判断变量是否为数组的几种方法

1、isArray 方法 isArray() 方法用于判断一个对象是否为数组。如果对象是数组返回 true,否则返回 false。 Array.isArray(arr); // true 1 2、对象原型 通过原型链判断是否具有和数组同一原型链的顶端。 arr.__proto__ Array.prototype; // true 1 3、instanceof…

[数据结构] -- 双向循环链表

🌈 个人主页:白子寰 🔥 分类专栏:C打怪之路,python从入门到精通,数据结构,C语言,C语言题集👈 希望得到您的订阅和支持~ 💡 坚持创作博文(平均质量分82)&#…

一文理清database/sql包的使用场景和宕机查询流程

一文理清database/sql包你可能遇到的问题 那么database/sql包实现了什么功能呢?建立数据库连接检测连接是否能ping通通过连接进行具体的sql查询查询完将连接进行关闭当数据库宕掉重启后再次查询 database/sql包创建的db连接 对于数据库宕掉后重启是否仍然有效&#…

AI绘画工具:创意与技术的完美融合

随着人工智能技术的飞速发展,我们见证了无数领域的革新与变革。其中,AI绘画工具的出现,无疑为艺术界带来了一股清新的风潮。这些工具以其独特的魅力,吸引了无数艺术家和创意人士的目光,成为他们表达自我、探索未知的重…

Compose在xml中使用滑动冲突处理

一、背景 在现有Android项目中使用Compose可能存在滑动冲突问题,例如 SmartRefreshLayoutCoordinatorLayoutComposeView(ComposeView这里又是一个LazyColumn) 二、解决方案 官方介绍:https://developer.android.google.cn/develop/ui/compose/touch-inp…

huggingface 笔记:device_map

1 基本映射方法 设计设备映射时,可以让Accelerate库来处理设备映射的计算通过设置device_map为支持的选项之一("auto"、 "balanced"、 "balanced_low_0"、 "sequential");或者如果想更精…

golang的context和chan 的使用

1. context 作用 context包的context的接口,主要是控制协程执行上下文的时间,以及取消程序的执行,以及上下文中传递数据等作用,golang中耗时或者需要协同的操作都会见到context的身影。 context有几个常用的方法 1.1 context.B…

用爬山算法解决离散的优化问题

爬山算法,也称为梯度上升算法或局部搜索算法,是一种简单有效的优化算法,常用于解决连续或离散的优化问题。爬山算法的基本思想是从一个随机的初始点开始,通过迭代地向局部最优的方向移动,逐步逼近全局最优解。 爬山算…

git管理Codeup云效平台

HTTPS方式实现Git命令 1.进入项目路径,如 cd demo,与此同时,在Codeup平台创建一个空仓库repo,获取空仓库的https协议地址,例如 https://codeup.aliyun.com/xxxx/xxxx/xxx.git。 2.在demo项目下执行 git init命令初始化…

从反向传播(BP)到BPTT:详细数学推导【原理理解】

从反向传播到BPTT:详细推导与问题解析 在本文中,我们将从反向传播算法开始,详细推导出反向传播通过时间(Backpropagation Through Time, BPTT)算法。重点讨论BPTT中的梯度消失和梯度爆炸问题,并解释如何解…