大家好,我是阿潘,2024 年,新年首个工作日,公司引来组织架构调整,两个工程师和一个产品并入业务线,直面业务大佬的压榨!
第一天就搞大事情,希望新的一年,我们都能迎来爆发的一年!顺便聊下最近爆火的一些开源项目。
1、HandRefiner
上图:Stable Diffusion(前两行)和 SDXL(最后一行)生成畸形的手(每对左侧),例如手指数量不正确或形状不规则的问题,可以通过 HandRefiner 有效纠正(每对右侧) 。
作者引入了一种名为 HandRefiner 的轻量级后处理解决方案,用于纠正生成图像中畸形的手。HandRefiner 采用有条件修复方法来纠正畸形的手,同时保持图像的其他部分不变。利用手部网格重建模型,该模型始终遵循正确的手指数量和手部形状,同时还能够在生成的图像中拟合所需的手部姿势。鉴于由于手部畸形而生成的失败图像,我们利用 ControlNet 模块重新注入此类正确的手部信息。此外,当我们改变控制强度时,我们发现了 ControlNet 中的相变现象。它使我们能够利用更容易获得的合成数据,而不会受到现实和合成手之间的领域差距的影响。
更多可视化效果:
项目地址:
https://github.com/wenquanlu/HandRefiner
https://huggingface.co/hr16/ControlNet-HandRefiner-pruned
2、AnyText
阿里最新开源工作,主要解决AI绘画文字生成不够真实的问题。AnyText,一种基于扩散的多语言视觉文本生成和编辑模型,专注于在图像中渲染准确且连贯的文本。
关于功能,我们与其他竞争对手的区别有五个因素,如表 1 所示:
a) 多行:AnyText 可以在用户指定的位置生成多行文本。
b) 变形区域:可以在水平、垂直、甚至弯曲或不规则区域进行书写。
c) 多语言:我们的方法可以生成多种语言的文本,如中文、英语、日语、韩语等。
d) 文本编辑:提供以一致的字体样式修改所提供图像内的文本内容的能力。
e) 即插即用:AnyText 可以与稳定的扩散模型无缝集成,并赋予其生成文本的能力。
除此之外,作者还贡献了第一个大规模多语言文本图像数据集 AnyWord-3M,其中包含 300 万个带有多种语言 OCR 注释的图像文本对。
和其他模型效果对比:
测试,这里展示使用文字生成的方案:
根据官方的使用说明,需要输入两个东西:
1)一个prompt 提示词,并将包含的文字用双引号包裹
2)指定文字放置的区域,支持(手动绘制、矩形框或随机生成)
点击运行:
项目地址:
https://github.com/tyxsspa/anytext
在线体验:
https://modelscope.cn/studios/damo/studio_anytext