两个眼前一亮的工作!已开源,可在线体验!

大家好,我是阿潘,2024 年,新年首个工作日,公司引来组织架构调整,两个工程师和一个产品并入业务线,直面业务大佬的压榨!

第一天就搞大事情,希望新的一年,我们都能迎来爆发的一年!顺便聊下最近爆火的一些开源项目。

1、HandRefiner

567f95994c6cb683515198fce36bbea3.png

上图:Stable Diffusion(前两行)和 SDXL(最后一行)生成畸形的手(每对左侧),例如手指数量不正确或形状不规则的问题,可以通过 HandRefiner 有效纠正(每对右侧) 。

作者引入了一种名为 HandRefiner 的轻量级后处理解决方案,用于纠正生成图像中畸形的手。HandRefiner 采用有条件修复方法来纠正畸形的手,同时保持图像的其他部分不变。利用手部网格重建模型,该模型始终遵循正确的手指数量和手部形状,同时还能够在生成的图像中拟合所需的手部姿势。鉴于由于手部畸形而生成的失败图像,我们利用 ControlNet 模块重新注入此类正确的手部信息。此外,当我们改变控制强度时,我们发现了 ControlNet 中的相变现象。它使我们能够利用更容易获得的合成数据,而不会受到现实和合成手之间的领域差距的影响。

e081bda0e1a6a877139ccfbb555aeb5a.png

更多可视化效果:

e12ad7aee68967acc69d4d8e67d3ccab.png

项目地址:

https://github.com/wenquanlu/HandRefiner

https://huggingface.co/hr16/ControlNet-HandRefiner-pruned

2、AnyText

阿里最新开源工作,主要解决AI绘画文字生成不够真实的问题。AnyText,一种基于扩散的多语言视觉文本生成和编辑模型,专注于在图像中渲染准确且连贯的文本。

关于功能,我们与其他竞争对手的区别有五个因素,如表 1 所示:

a) 多行:AnyText 可以在用户指定的位置生成多行文本。 

b) 变形区域:可以在水平、垂直、甚至弯曲或不规则区域进行书写。 

c) 多语言:我们的方法可以生成多种语言的文本,如中文、英语、日语、韩语等。

d) 文本编辑:提供以一致的字体样式修改所提供图像内的文本内容的能力。 

e) 即插即用:AnyText 可以与稳定的扩散模型无缝集成,并赋予其生成文本的能力。

除此之外,作者还贡献了第一个大规模多语言文本图像数据集 AnyWord-3M,其中包含 300 万个带有多种语言 OCR 注释的图像文本对。

和其他模型效果对比:

c1c2453713a3c5f17f4abc829026abd9.png

db7a3cf2d3b02ed63382d97f52adbb20.png

测试,这里展示使用文字生成的方案:

69ead8f51abf67da8609f7efb038bb26.png

根据官方的使用说明,需要输入两个东西:

1)一个prompt 提示词,并将包含的文字用双引号包裹

2)指定文字放置的区域,支持(手动绘制、矩形框或随机生成)

a03ac04d75b34b327b6f6d9dc7c566d2.png


点击运行:

75239d10faa7afafae2704b2d48006ea.png

项目地址:

https://github.com/tyxsspa/anytext

在线体验:

https://modelscope.cn/studios/damo/studio_anytext

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/592732.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

介绍一下 MVC MVVM

1. 什么是MVVM? 在MVVM框架下 视图和模型是不能直接通信 的,只能通过ViewModel进行交互,它能够监 听到数据的变化,然后通知视图进行自动更新,而当用户操作视图时,VM也能监听到视图 的变化,然后通知数据做相…

python中,将txt文件转换为csv文件的几种方法

假设有一个文本文件 data.txt 内容如下: Name, Age, City John, 25, New York Alice, 30, San Francisco Bob, 28, Los Angeles 方法一、使用内置的 csv 模块: import csv# 读取txt文件 txt_file_path data.txt csv_file_path data.csvwith open(tx…

android c++打印堆栈

比如在BufferQueueConsumer.cpp打印堆栈 diff --git a/frameworks/native/libs/gui/Android.bp b/frameworks/native/libs/gui/Android.bp index f734582377..b86ad34ee2 100644 --- a/frameworks/native/libs/gui/Android.bp b/frameworks/native/libs/gui/Android.bp -146…

【elfboard linux开发板】7.i2C工具应用与aht20温湿度寄存器读取

1. I2C工具查看aht20的温湿度寄存器值 1.1 原理图 传感器通过IIC方式进行通信,连接的为IIC1总线,且设备地址为0x38,实际上通过后续iic工具查询,这个设备是挂载在iic-0上 1.2 I2C工具 通过i2c工具可以实现查询i2c总线、以及上面…

Mac环境下反编译apk

Mac环境下反编译apk 安装反编译工具dex2jar:[官网下载](https://sourceforge.net/projects/dex2jar/)JD-GUI:[官网下载](https://jd-gui.apponic.com/) 实操1. 将需要反编译的 .apk 文件放在下载的 dex2jar 文件夹目录下2. 使用 cd /xxx/dex2jar-2.0 命令…

基于pytorch 的psnr和ssim计算

基于pytorch 的psnr和ssim计算: import math import numpy as np from pytorch_msssim import ssim, ms_ssim, SSIM, MS_SSIM import datetime import os import sysdef calc_psnr(sr, hr):diff (sr - hr) / 255.00mse diff.pow(2).mean()psnr -10 * math.log1…

【Linux】根文件系统添加root密码

1. 问题 量产时,制作根文件系统,并添加root密码。 2. 开发板设置 2.1 在开发板中设置root密码 sudo passwd root# 根据提示输入密码和确认密码2.2 调试串口开启密码验证 设置好后,发现ssh登录需要密码,但是调试串口依然不需要…

苹果手机怎么备份数据?方法在这,记得收藏!

苹果手机不仅具有卓越的用户体验,还具有强大的功能,因此受到了广大用户的喜爱。然而,在享受其带来的便捷的同时,我们也需要着重关注手机数据的安全。 一旦数据丢失或损坏,可能会对我们的生活和工作造成重大影响。那么…

电脑如何屏幕录制?轻松录制高清视频

在当今信息化的时代,电脑已经成为工作和生活的重要工具。无论是在进行演示、教学还是记录重要操作步骤时,屏幕录制都是非常有用的。可是电脑如何屏幕录制呢?本篇文章将介绍三种常见的电脑屏幕录制方法,通过学习这些方法&#xff0…

播放电视源及其技术

给potplayer配置iptv源,看所有你想看的电视_potplayer iptv-CSDN博客 根据以上链接教程下载播放器,github项目iptv的电视源文件。就行了。 有的源并不可用:可以用直播源检测工具测试一下,看看能否播放 https://github.com/bianc…

07. HTTP接口请求重试怎么处理?

目录 1、前言 2、实现方式 2.1、循环重试 2.2、递归重试 2.3、Spring Retry 2.4、Resilience4j 2.5、http请求网络工具内置重试方式 2.6、自定义重试工具 2.7、并发框架异步重试 2.8、消息队列 3、小结 1、前言 HTTP接口请求重试是指在请求失败时,再次发…

Android 反编译处理Dex

前言 当我们将Android项目打包上架的时候,为了提高被人反编译代码的可能性可以提取 dex 文件对代码进一步做混淆处理。 本文不对相关工具做过多的解释,不了解的可以先熟悉相关工具的使用。 相关工具(点击直接下载) jadx-gui&a…

池化层解析:新手也能理解 PyTorch 中的核心组件

目录 torch.nn详解 nn.MaxPool1d nn.MaxPool2d nn.MaxPool3d nn.MaxUnpool1d nn.MaxUnpool2d nn.MaxUnpool3d nn.AvgPool1d nn.AvgPool2d nn.AvgPool3d nn.FractionalMaxPool2d nn.FractionalMaxPool3d nn.LPPool1d nn.LPPool2d nn.AdaptiveMaxPool1d nn.Adapt…

计算机基础面试题 |05.精选计算机基础面试题

🤍 前端开发工程师(主业)、技术博主(副业)、已过CET6 🍨 阿珊和她的猫_CSDN个人主页 🕠 牛客高级专题作者、在牛客打造高质量专栏《前端面试必备》 🍚 蓝桥云课签约作者、已在蓝桥云…

基本类型和包装类、基本类型和字符串之间的转换

基本类型和包装类之间的转换 基本类型和包装类之间经常需要互相转换,以 Integer 为例(其他几个包装类的操作雷同哦): 在 JDK1.5 引入自动装箱和拆箱的机制后,包装类和基本类型之间的转换就更加轻松便利了。 那什么是…

CMake入门教程【基础篇】CMake+Visual Studio2022构建C++项目

文章目录 1.概述2.Visual Studio 2022简介3.安装Visual Studio 20224.安装CMake5.创建CMake项目6. 构建项目 1.概述 CMake和Visual Studio 2022结合 在现代软件开发中,CMake和Visual Studio 2022的结合提供了一个强大的环境,用于构建和管理各种规模的C项…

传统企业该怎样让 OKR 落地?

OKR(Objectives and Key Results)即目标与关键成果法,是一套明确和跟踪目标及其完成情况的管理工具和方法。它旨在确保员工共同工作,并集中精力作出可衡量的贡献。 OKR由英特尔公司制定,并由约翰道尔(John…

外汇天眼:不懂、不熟悉的交易,避而远之!

在市场中很多人都想表达一句:真的是感觉自己学得越多,就越迷茫。 不管是做交易还是做别的行业好像都是在刚入行的时候兴致勃勃,兴趣满满,什么都不懂但却很容易就能尝到一些甜头,这样就就很大程度上激励了自己&#xf…

Maven 整理(含面试题)

Maven是Java 项目必备,Maven 主要服务于基于Java平台的项目构建、依赖管理和项目信息管理。项目构建工具 、更好的管理依赖 目录 Maven安装与运行maven 重要知识点面试题 Maven安装与运行 Maven 是一个项目管理工具,可以对 Java 项目进行构建、依赖管理…

matrix-breakout-2-morpheus 靶场 练习思路

arp-scan -l 获取目标机器的IP nmap -sV -A IP 查看目标机器开放的端口 gobuster dir -u http://192.168.29.130 -x php,txt,jsp,asp -w /usr/share/wordlists/dirbuster/directory-list-2.3-medium.txt 爆破目标机器的文件目录,找到可以访问的文件路径 http://192.168…