阿里巴巴提出AnyText:首个解决多语言视觉文本生成的工作

阿里巴巴提出AnyText:首个解决多语言视觉文本生成的工作

news/2025/7/7 11:31:41/文章来源:https://blog.csdn.net/AIGCer/article/details/135517916

基于扩散模型的文本到图像在最近取得了令人瞩目的成就。尽管当前的图像合成技术已经非常先进，能够以高保真度生成图像，但当关注生成图像中的文本区域时，往往可能会暴露问题，因为合成文本通常包含模糊、不可读或不正确的字符，使得视觉文本生成成为该领域最具挑战性的问题之一。为了解决这个问题，本文引入了AnyText，这是一个基于扩散的多语言视觉文本生成和编辑模型，专注于在图像中呈现准确而连贯的文本。AnyText包括一个具有两个主要元素的扩散pipeline：辅助潜在模块和文本embedding模块。前者使用文本字形、位置和mask图像等输入，生成用于文本生成或编辑的潜在特征。后者采用OCR模型将笔画数据编码为embedding，这些embedding与来自分词器的图像字幕embedding融合，生成与背景无缝集成的文本。使用文本控制扩散损失和文本感知损失进行训练，以进一步提高写作准确性。AnyText可以书写多种语言的字符，据我们所知，这是首个解决多语言视觉文本生成的工作。值得一提的是，AnyText可以插入社区中现有的扩散模型，以准确呈现或编辑文本。在进行了广泛的评估实验后，我们的方法在所有其他方法中表现出色。此外，我们贡献了第一个大规模的多语言文本图像数据集AnyWord-3M，包含300万个图像文本对，其中包含多种语言的OCR注释。基于AnyWord-3M数据集，我们提出了AnyText-benchmark，用于评估视觉文本生成的准确性和质量。

开源地址：https://github.com/tyxsspa/AnyText

主要贡献

a) 多行：AnyText可以在用户指定的位置生成多行文本。

b) 变形区域：它可以在水平、垂直甚至弯曲或不规则的区域进行书写。

c) 多语言：我们的方法可以生成中文、英文、日文、韩文等多种语言的文本。

d) 文本编辑：提供在所提供的图像中以一致的字体样式修改文本内容的能力。

e) 即插即用：AnyText可以与稳定的扩散模型无缝集成，并赋予它们生成文本的能力。

算法框架

对于文本生成，AnyText可以将指定的文本从提示渲染到指定的位置，并生成外观吸引人的图像。至于文本编辑，AnyText可以在输入图像中指定位置修改文本内容，同时保持与周围文本样式的一致性。如下图：对于提示中的非英语单词，提供括号中的翻译，蓝色框表示文本编辑的位置。

AnyText的框架，包括文本控制扩散pipeline、辅助潜在模块、文本embedding模块和文本感知损失：

效果展示

AnyText和竞争方法的定量比较。下表中†是在LAION-Glyph-10M上训练的，而‡是在TextCaps-5k上进行了微调。所有竞争方法都使用官方发布的模型进行评估。

AnyText和英文文本生成的最新模型或API的定性比较。所有标题均从AnyText-benchmark的英文评估数据集中选择：

GlyphDraw、ControlNet和AnyText在中文文本生成方面的比较示例，所有示例均摘自原始的GlyphDraw论文：

一些无文本生成图像效果：

与 AnyText 集成的可以生成文本的模型示例

文本生成中AnyText的更多效果展示：

文本编辑中的AnyText 效果展示：

多精彩内容，请关注公众号：AI生成未来

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/612479.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

firewalld高级配置

firewalld高级配置

IP伪装与端口转发在互联网发展初期，设计者们并没有想到互联网会发展到现在这个空前繁荣的阶段，所以，设计的Pv4地址空间只有32位.但是随着互联网的发展，P地址变得严重缺乏，并且地址分配不均匀， 所以就在原…

阅读更多...

设计模式-规格模式

设计模式-规格模式

设计模式专栏模式介绍模式特点应用场景规格模式和策略模式的区别和联系代码示例Java实现规格模式Python实现规格模式规格模式在spring中的应用模式介绍规格模式（Specification Pattern）是一种行为设计模式，其目的是将业务规则封装成可重…

阅读更多...

AIGC实战——改进循环神经网络

AIGC实战——改进循环神经网络

AIGC实战——改进循环神经网络 0. 前言1. 堆叠循环网络2. 门控制循环单元3. 双向单元相关链接 0. 前言我们已经学习了如何训练长短期记忆网络 (Long Short-Term Memory Network, LSTM) 模型，以学习使用给定风格生成文本，接下来，我们将学习如…

阅读更多...

WPF 实现Popup不在最上层显示、随窗口移动

WPF 实现Popup不在最上层显示、随窗口移动

文章目录前言一、定义类继承Popup类二、使用1.在XAML头部加入链接2. 在XAML文件使用总结前言由于WPF 默认的Popup总是显示在所有窗口的前面，如何让popup 层只显示在该父级之上，并随着父级而动呢？下面来看实现。一、定义类继承Popup类 …

阅读更多...

OceanBase原生分布式数据库

OceanBase原生分布式数据库

1.历史背景在Java Web项目中，常常使用免费开源的MySQL数据库存储业务数据，按业界经验MySQL单库超过多大数据体量，或单表超过几百万条数据后就会出现查询变慢的情况，单实例数据库只能扩展物理资源(CPU、内存)，来提升查…

阅读更多...

vivado 工程管理

vivado 工程管理

管理项目打开项目当项目打开时，Vivado IDE会从项目已关闭。项目状态包括当前源文件顺序、已禁用和已启用源文件、活动约束文件和目标约束文件，以及合成、模拟和实现运行。要打开项目，请使用以下方法之一： •在“入门”页面…

阅读更多...

麦芯(MachCore)开发教程1 --- 设备软件中间件

麦芯(MachCore)开发教程1 --- 设备软件中间件

黄国强 2024/1/10 acloud163.com 对任何公司来说，在短时间内开发一款高质量设备专用软件，是一件不太容易做到的事情。麦芯是笔者发明的一款设备软件中间件产品。麦芯致力于给设备厂商提供一个开发工具和平台，让客户快速高效的开发自己的设备专…

阅读更多...

异构图神经网络xFraud :Explaniable Fraud transcation detection

异构图神经网络xFraud :Explaniable Fraud transcation detection

适用于异构图 2. 使用图进行异常检测 https://github.com/safe-graph/graph-fraud-detection-papers

阅读更多...

01.大型语言模型背后的基本概念的高级解释（LLMs）

01.大型语言模型背后的基本概念的高级解释（LLMs）

像 ChatGPT 这样的大型语言模型（LLMs）是过去几年开发的深度神经网络模型。他们开创了自然语言处理（NLP）的新时代。在大型语言模型出现之前，传统方法擅长分类任务，例如垃圾邮件分类和简单的模式识别，这些任务可以通过手工制定的规则或更简单的模型来捕获。然而，它们通…

阅读更多...

Android 通知简介

Android 通知简介

Android 通知简介 1. 基本通知图1: 基本通知详情小图标 : 必须提供,通过 setSmallIcon( ) 进行设置.应用名称 : 由系统提供.时间戳 : 由系统提供,也可隐藏时间.大图标(可选) : 可选内容(通常仅用于联系人照片,请勿将其用于应用图标),通过setLargeIcon( ) 进行设置.标题 : 可选…

阅读更多...

浅谈 Android焦点管理机制事件分发机制

浅谈 Android焦点管理机制事件分发机制

什么是焦点焦点能够让视图和窗口可以接受和处理按键事件和导航事件。在 Android 中，按键事件和导航事件通常指的是与物理按键和输入设备（如键盘、遥控器、游戏手柄等）相关的交互事件。焦点的处理对于非触摸屏设备（如电视…

阅读更多...

【LeetCode每日一题】2645. 构造有效字符串的最少插入数（计算组数+动态规划+考虑相邻字母）

【LeetCode每日一题】2645. 构造有效字符串的最少插入数（计算组数+动态规划+考虑相邻字母）

2024-1-11 文章目录 [2645. 构造有效字符串的最少插入数](https://leetcode.cn/problems/minimum-additions-to-make-valid-string/)方法一：计算组数方法二：动态规划方法三: 考虑相邻字母 2645. 构造有效字符串的最少插入数方法一：计算组数 …

阅读更多...

uniapp中实现H5录音和上传、实时语音识别（兼容App小程序）和波形可视化

uniapp中实现H5录音和上传、实时语音识别（兼容App小程序）和波形可视化

文章目录 Recorder-UniCore插件特性集成到项目中调用录音上传录音ASR语音识别在uniapp中使用Recorder-UniCore插件可以实现跨平台录音功能，uniapp自带的recorderManager接口不支持H5、录音格式和实时回调onFrameRecorded兼容性不好，用Recorder插件可避免…

阅读更多...

Leetcode 416 分割等和子集

Leetcode 416 分割等和子集

题意理解： 给你一个只包含正整数的非空数组 nums 。请你判断是否可以将这个数组分割成两个子集，使得两个子集的元素和相等。即将数组的元素分成两组，每组数值sum(nums)/2 若能分成这样的两组，则返回true,否则返回false 本质上…

阅读更多...

RobotStudio机器人码垛课程设计

RobotStudio机器人码垛课程设计

一、任务需求 1、创建动态夹具（600*400*50） 2、创建物料（600*400*200） 3、起码按顺序码垛放置 4 个不同位置二、软件常用操作及其快捷键 （推荐自己按这些步骤操作一下，能明白这些操作的具体意义&#…

阅读更多...

Java版直播商城：电商源码、小程序、三级分销及免费搭建方案

Java版直播商城：电商源码、小程序、三级分销及免费搭建方案

一、技术选型 java开发语言：java是一种跨平台的编程语言，适用于大型企业级应用开发。使用java开发直播商城可以保证系统的稳定性和可扩展性。 spring boot框架：spring boot是一个快速构建spring应用的框架，简化了开发过程&#xf…

阅读更多...

c# 动态更新配置文件

c# 动态更新配置文件

在.Net Framework版本可以使用ConfigurationManager 通常是指app.config或web.config 命名空间 System.Configuration下的ConfigurationManagerprivate void UpdateConfig(string key,string value) {Configuration config ConfigurationManager.OpenExeConfiguration(Config…

阅读更多...

[渗透测试学习] Clicker - HackTheBox

[渗透测试学习] Clicker - HackTheBox

文章目录信息搜集代码审计反弹shell提权信息搜集 nmap扫描一下端口 nmap -sV -sC -v -p- --min-rate 1000 10.10.11.232扫描结果 22/tcp open ssh 80/tcp open http Apache httpd 2.4.52 ((Ubuntu)) //重定向 111/tcp open rpcbind 2-4 (RPC #100000)我们往…

阅读更多...

如何查看Ubuntu内存的使用情况

如何查看Ubuntu内存的使用情况

在Linux系统中，了解内存使用情况对于系统管理和性能优化非常重要。以下是一些常用的命令，以及它们的详细使用说明： 1. free 命令用途: free 命令用于显示系统中空闲和已用的物理内存及交换内存。示例: 输入命令: free -m输出解释: 这将以M…

阅读更多...

python 爬虫 request get或post传参

python 爬虫 request get或post传参

爬虫传参 import requestsurl http://www.xxx# get 或 post 传参数据 data {"pageNo": 1652,"pageSize": 10, }headers {Cookie: ,Host: ,Origin: ,Referer: ,User-Agent: , }# get 请求 # res requests.get( # url, # paramsdata, # hea…

阅读更多...

最新文章