阿里巴巴提出AnyText:首个解决多语言视觉文本生成的工作

基于扩散模型的文本到图像在最近取得了令人瞩目的成就。尽管当前的图像合成技术已经非常先进,能够以高保真度生成图像,但当关注生成图像中的文本区域时,往往可能会暴露问题,因为合成文本通常包含模糊、不可读或不正确的字符,使得视觉文本生成成为该领域最具挑战性的问题之一。为了解决这个问题,本文引入了AnyText,这是一个基于扩散的多语言视觉文本生成和编辑模型,专注于在图像中呈现准确而连贯的文本。AnyText包括一个具有两个主要元素的扩散pipeline:辅助潜在模块和文本embedding模块。前者使用文本字形、位置和mask图像等输入,生成用于文本生成或编辑的潜在特征。后者采用OCR模型将笔画数据编码为embedding,这些embedding与来自分词器的图像字幕embedding融合,生成与背景无缝集成的文本。使用文本控制扩散损失和文本感知损失进行训练,以进一步提高写作准确性。AnyText可以书写多种语言的字符,据我们所知,这是首个解决多语言视觉文本生成的工作。值得一提的是,AnyText可以插入社区中现有的扩散模型,以准确呈现或编辑文本。在进行了广泛的评估实验后,我们的方法在所有其他方法中表现出色。此外,我们贡献了第一个大规模的多语言文本图像数据集AnyWord-3M,包含300万个图像文本对,其中包含多种语言的OCR注释。基于AnyWord-3M数据集,我们提出了AnyText-benchmark,用于评估视觉文本生成的准确性和质量。

开源地址:https://github.com/tyxsspa/AnyText

主要贡献

a) 多行:AnyText可以在用户指定的位置生成多行文本。

b) 变形区域:它可以在水平、垂直甚至弯曲或不规则的区域进行书写。

c) 多语言:我们的方法可以生成中文、英文、日文、韩文等多种语言的文本。

d) 文本编辑:提供在所提供的图像中以一致的字体样式修改文本内容的能力。

e) 即插即用:AnyText可以与稳定的扩散模型无缝集成,并赋予它们生成文本的能力。

算法框架

对于文本生成,AnyText可以将指定的文本从提示渲染到指定的位置,并生成外观吸引人的图像。至于文本编辑,AnyText可以在输入图像中指定位置修改文本内容,同时保持与周围文本样式的一致性。如下图:对于提示中的非英语单词,提供括号中的翻译,蓝色框表示文本编辑的位置。

AnyText的框架,包括文本控制扩散pipeline、辅助潜在模块、文本embedding模块和文本感知损失:

效果展示

AnyText和竞争方法的定量比较。下表中†是在LAION-Glyph-10M上训练的,而‡是在TextCaps-5k上进行了微调。所有竞争方法都使用官方发布的模型进行评估。

AnyText和英文文本生成的最新模型或API的定性比较。所有标题均从AnyText-benchmark的英文评估数据集中选择:

GlyphDraw、ControlNet和AnyText在中文文本生成方面的比较示例,所有示例均摘自原始的GlyphDraw论文:

一些无文本生成图像效果:

与 AnyText 集成的可以生成文本的模型示例

文本生成中AnyText的更多效果展示:

文本编辑中的AnyText 效果展示:

 

多精彩内容,请关注公众号:AI生成未来

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/612479.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

firewalld高级配置

IP伪装与端口转发 在互联网发展初期,设计者们并没有想到互联网会发展到现在这个空前繁荣的阶段,所以,设 计的Pv4地址空间只有32位.但是随着互联网的发展,P地址变得严重缺乏,并且地址分配不均匀, 所以就在原…

设计模式-规格模式

设计模式专栏 模式介绍模式特点应用场景规格模式和策略模式的区别和联系代码示例Java实现规格模式Python实现规格模式 规格模式在spring中的应用 模式介绍 规格模式(Specification Pattern)是一种行为设计模式,其目的是将业务规则封装成可重…

AIGC实战——改进循环神经网络

AIGC实战——改进循环神经网络 0. 前言1. 堆叠循环网络2. 门控制循环单元3. 双向单元相关链接 0. 前言 我们已经学习了如何训练长短期记忆网络 (Long Short-Term Memory Network, LSTM) 模型,以学习使用给定风格生成文本,接下来,我们将学习如…

OceanBase原生分布式数据库

1.历史背景 在Java Web项目中,常常使用免费开源的MySQL数据库存储业务数据,按业界经验MySQL单库超过多大数据体量,或单表超过几百万条数据后就会出现查询变慢的情况,单实例数据库只能扩展物理资源(CPU、内存),来提升查…

vivado 工程管理

管理项目 打开项目 当项目打开时,Vivado IDE会从项目已关闭。项目状态包括当前源文件顺序、已禁用和已启用 源文件、活动约束文件和目标约束文件,以及合成、模拟和实现运行。要打开项目,请使用以下方法之一: •在“入门”页面…

麦芯(MachCore)开发教程1 --- 设备软件中间件

黄国强 2024/1/10 acloud163.com 对任何公司来说,在短时间内开发一款高质量设备专用软件,是一件不太容易做到的事情。麦芯是笔者发明的一款设备软件中间件产品。麦芯致力于给设备厂商提供一个开发工具和平台,让客户快速高效的开发自己的设备专…

异构图 神经网络xFraud :Explaniable Fraud transcation detection

适用于异构图 2. 使用图进行异常检测 https://github.com/safe-graph/graph-fraud-detection-papers

Android 通知简介

Android 通知简介 1. 基本通知 图1: 基本通知详情 小图标 : 必须提供,通过 setSmallIcon( ) 进行设置.应用名称 : 由系统提供.时间戳 : 由系统提供,也可隐藏时间.大图标(可选) : 可选内容(通常仅用于联系人照片,请勿将其用于应用图标),通过setLargeIcon( ) 进行设置.标题 : 可选…

【LeetCode每日一题】2645. 构造有效字符串的最少插入数(计算组数+动态规划+考虑相邻字母)

2024-1-11 文章目录 [2645. 构造有效字符串的最少插入数](https://leetcode.cn/problems/minimum-additions-to-make-valid-string/)方法一:计算组数方法二:动态规划方法三: 考虑相邻字母 2645. 构造有效字符串的最少插入数 方法一:计算组数 …

uniapp中实现H5录音和上传、实时语音识别(兼容App小程序)和波形可视化

文章目录 Recorder-UniCore插件特性集成到项目中调用录音上传录音ASR语音识别 在uniapp中使用Recorder-UniCore插件可以实现跨平台录音功能,uniapp自带的recorderManager接口不支持H5、录音格式和实时回调onFrameRecorded兼容性不好,用Recorder插件可避免…

Leetcode 416 分割等和子集

题意理解: 给你一个 只包含正整数 的 非空 数组 nums 。请你判断是否可以将这个数组分割成两个子集,使得两个子集的元素和相等。 即将数组的元素分成两组,每组数值sum(nums)/2 若能分成这样的两组,则返回true,否则返回false 本质上…

RobotStudio机器人码垛课程设计

一、任务需求 1、创建动态夹具(600*400*50) 2、创建物料(600*400*200) 3、起码按顺序码垛放置 4 个不同位置 二、软件常用操作及其快捷键 (推荐自己按这些步骤操作一下,能明白这些操作的具体意义&#…

Java版直播商城:电商源码、小程序、三级分销及 免 费 搭 建 方案

一、技术选型 java开发语言:java是一种跨平台的编程语言,适用于大型企业级应用开发。使用java开发直播商城可以保证系统的稳定性和可扩展性。 spring boot框架:spring boot是一个快速构建spring应用的框架,简化了开发过程&#xf…

[渗透测试学习] Clicker - HackTheBox

文章目录 信息搜集代码审计反弹shell提权 信息搜集 nmap扫描一下端口 nmap -sV -sC -v -p- --min-rate 1000 10.10.11.232扫描结果 22/tcp open ssh 80/tcp open http Apache httpd 2.4.52 ((Ubuntu)) //重定向 111/tcp open rpcbind 2-4 (RPC #100000)我们往…

如何查看Ubuntu内存的使用情况

在Linux系统中,了解内存使用情况对于系统管理和性能优化非常重要。以下是一些常用的命令,以及它们的详细使用说明: 1. free 命令 用途: free 命令用于显示系统中空闲和已用的物理内存及交换内存。示例: 输入命令: free -m输出解释: 这将以M…

python 爬虫 request get或post传参

爬虫传参 import requestsurl http://www.xxx# get 或 post 传参数据 data {"pageNo": 1652,"pageSize": 10, }headers {Cookie: ,Host: ,Origin: ,Referer: ,User-Agent: , }# get 请求 # res requests.get( # url, # paramsdata, # hea…

重磅消息:2024北京国际智能科技展览会(世亚智博会)官宣定档

在数字新时代的浪潮下,智能科技作为推动社会进步的重要力量,正在以前所未有的速度改变着我们的生活和工作方式。为了进一步推动智能科技的发展和交流,2024北京国际智能科技展览会(简称世亚智博会)将于2024年6月份在北京…

[C#]winform使用纯opencvsharp部署yolox-onnx模型

【官方框架地址】 https://github.com/Megvii-BaseDetection/YOLOX 【算法介绍】 YOLOX是一个高性能的目标检测算法,它是基于YOLO(You Only Look Once)系列算法的Anchor Free版本。YOLOX由Megvii Technology的研究团队开发,并在…

在 Windows IIS 生成证书签名请求(CSR)

本操作方法将逐步指导您生成证书签名请求(CSR)。 这些过程已在Windows 10的IIS 10上进行了测试,但也将在IIS 7.x和8.x中运行。 启动IIS管理器。 Start 开始 IIS管理器。 另外一种快速的方法是打开 运行 命令,然后键入 inetmgr 并…

深度学习算法应用实战 | 利用 CLIP 模型进行“零样本图像分类”

文章目录 1. 零样本图像分类简介1.1 什么是零样本图像分类?1.2 通俗一点的解释 2. 模型原理图3. 环境配置4. 代码实战5. Gradio前端页面5.1 什么是 Gradio ? 6 进阶操作7. 总结 1. 零样本图像分类简介 1.1 什么是零样本图像分类? “零样本图像分类”(Zero-shot …