两个眼前一亮的工作！已开源，可在线体验！

两个眼前一亮的工作！已开源，可在线体验！

news/2025/4/29 20:54:14/文章来源:https://blog.csdn.net/flyfor2013/article/details/135353501

大家好，我是阿潘，2024 年，新年首个工作日，公司引来组织架构调整，两个工程师和一个产品并入业务线，直面业务大佬的压榨！

第一天就搞大事情，希望新的一年，我们都能迎来爆发的一年！顺便聊下最近爆火的一些开源项目。

1、HandRefiner

上图：Stable Diffusion（前两行）和 SDXL（最后一行）生成畸形的手（每对左侧），例如手指数量不正确或形状不规则的问题，可以通过 HandRefiner 有效纠正（每对右侧）。

作者引入了一种名为 HandRefiner 的轻量级后处理解决方案，用于纠正生成图像中畸形的手。HandRefiner 采用有条件修复方法来纠正畸形的手，同时保持图像的其他部分不变。利用手部网格重建模型，该模型始终遵循正确的手指数量和手部形状，同时还能够在生成的图像中拟合所需的手部姿势。鉴于由于手部畸形而生成的失败图像，我们利用 ControlNet 模块重新注入此类正确的手部信息。此外，当我们改变控制强度时，我们发现了 ControlNet 中的相变现象。它使我们能够利用更容易获得的合成数据，而不会受到现实和合成手之间的领域差距的影响。

更多可视化效果：

项目地址：

https://github.com/wenquanlu/HandRefiner

https://huggingface.co/hr16/ControlNet-HandRefiner-pruned

2、AnyText

阿里最新开源工作，主要解决AI绘画文字生成不够真实的问题。AnyText，一种基于扩散的多语言视觉文本生成和编辑模型，专注于在图像中渲染准确且连贯的文本。

关于功能，我们与其他竞争对手的区别有五个因素，如表 1 所示：

a) 多行：AnyText 可以在用户指定的位置生成多行文本。

b) 变形区域：可以在水平、垂直、甚至弯曲或不规则区域进行书写。

c) 多语言：我们的方法可以生成多种语言的文本，如中文、英语、日语、韩语等。

d) 文本编辑：提供以一致的字体样式修改所提供图像内的文本内容的能力。

e) 即插即用：AnyText 可以与稳定的扩散模型无缝集成，并赋予其生成文本的能力。

除此之外，作者还贡献了第一个大规模多语言文本图像数据集 AnyWord-3M，其中包含 300 万个带有多种语言 OCR 注释的图像文本对。

和其他模型效果对比：

测试，这里展示使用文字生成的方案：

根据官方的使用说明，需要输入两个东西：

1）一个prompt 提示词，并将包含的文字用双引号包裹

2）指定文字放置的区域，支持（手动绘制、矩形框或随机生成）

点击运行:

项目地址：

https://github.com/tyxsspa/anytext

在线体验：

https://modelscope.cn/studios/damo/studio_anytext

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/592732.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

介绍一下 MVC MVVM

介绍一下 MVC MVVM

1. 什么是MVVM? 在MVVM框架下视图和模型是不能直接通信的，只能通过ViewModel进行交互，它能够监听到数据的变化，然后通知视图进行自动更新，而当用户操作视图时，VM也能监听到视图的变化，然后通知数据做相…

阅读更多...

python中，将txt文件转换为csv文件的几种方法

python中，将txt文件转换为csv文件的几种方法

假设有一个文本文件 data.txt 内容如下： Name, Age, City John, 25, New York Alice, 30, San Francisco Bob, 28, Los Angeles 方法一、使用内置的 csv 模块： import csv# 读取txt文件 txt_file_path data.txt csv_file_path data.csvwith open(tx…

阅读更多...

android c++打印堆栈

android c++打印堆栈

比如在BufferQueueConsumer.cpp打印堆栈 diff --git a/frameworks/native/libs/gui/Android.bp b/frameworks/native/libs/gui/Android.bp index f734582377..b86ad34ee2 100644 --- a/frameworks/native/libs/gui/Android.bp b/frameworks/native/libs/gui/Android.bp -146…

阅读更多...

【elfboard linux开发板】7.i2C工具应用与aht20温湿度寄存器读取

【elfboard linux开发板】7.i2C工具应用与aht20温湿度寄存器读取

1. I2C工具查看aht20的温湿度寄存器值 1.1 原理图传感器通过IIC方式进行通信，连接的为IIC1总线，且设备地址为0x38，实际上通过后续iic工具查询，这个设备是挂载在iic-0上 1.2 I2C工具通过i2c工具可以实现查询i2c总线、以及上面…

阅读更多...

Mac环境下反编译apk

Mac环境下反编译apk

Mac环境下反编译apk 安装反编译工具dex2jar：[官网下载](https://sourceforge.net/projects/dex2jar/)JD-GUI：[官网下载](https://jd-gui.apponic.com/) 实操1. 将需要反编译的 .apk 文件放在下载的 dex2jar 文件夹目录下2. 使用 cd /xxx/dex2jar-2.0 命令…

阅读更多...

基于pytorch 的psnr和ssim计算

基于pytorch 的psnr和ssim计算

基于pytorch 的psnr和ssim计算： import math import numpy as np from pytorch_msssim import ssim, ms_ssim, SSIM, MS_SSIM import datetime import os import sysdef calc_psnr(sr, hr):diff (sr - hr) / 255.00mse diff.pow(2).mean()psnr -10 * math.log1…

阅读更多...

【Linux】根文件系统添加root密码

【Linux】根文件系统添加root密码

1. 问题量产时，制作根文件系统，并添加root密码。 2. 开发板设置 2.1 在开发板中设置root密码 sudo passwd root# 根据提示输入密码和确认密码2.2 调试串口开启密码验证设置好后，发现ssh登录需要密码，但是调试串口依然不需要…

阅读更多...

苹果手机怎么备份数据？方法在这，记得收藏！

苹果手机怎么备份数据？方法在这，记得收藏！

苹果手机不仅具有卓越的用户体验，还具有强大的功能，因此受到了广大用户的喜爱。然而，在享受其带来的便捷的同时，我们也需要着重关注手机数据的安全。一旦数据丢失或损坏，可能会对我们的生活和工作造成重大影响。那么…

阅读更多...

电脑如何屏幕录制？轻松录制高清视频

电脑如何屏幕录制？轻松录制高清视频

在当今信息化的时代，电脑已经成为工作和生活的重要工具。无论是在进行演示、教学还是记录重要操作步骤时，屏幕录制都是非常有用的。可是电脑如何屏幕录制呢？本篇文章将介绍三种常见的电脑屏幕录制方法，通过学习这些方法&#xff0…

阅读更多...

播放电视源及其技术

播放电视源及其技术

给potplayer配置iptv源，看所有你想看的电视_potplayer iptv-CSDN博客根据以上链接教程下载播放器，github项目iptv的电视源文件。就行了。有的源并不可用：可以用直播源检测工具测试一下，看看能否播放 https://github.com/bianc…

阅读更多...

07. HTTP接口请求重试怎么处理？

07. HTTP接口请求重试怎么处理？

目录 1、前言 2、实现方式 2.1、循环重试 2.2、递归重试 2.3、Spring Retry 2.4、Resilience4j 2.5、http请求网络工具内置重试方式 2.6、自定义重试工具 2.7、并发框架异步重试 2.8、消息队列 3、小结 1、前言 HTTP接口请求重试是指在请求失败时，再次发…

阅读更多...

Android 反编译处理Dex

Android 反编译处理Dex

前言当我们将Android项目打包上架的时候，为了提高被人反编译代码的可能性可以提取 dex 文件对代码进一步做混淆处理。本文不对相关工具做过多的解释，不了解的可以先熟悉相关工具的使用。相关工具（点击直接下载） jadx-gui&a…

阅读更多...

池化层解析：新手也能理解 PyTorch 中的核心组件

池化层解析：新手也能理解 PyTorch 中的核心组件

目录 torch.nn详解 nn.MaxPool1d nn.MaxPool2d nn.MaxPool3d nn.MaxUnpool1d nn.MaxUnpool2d nn.MaxUnpool3d nn.AvgPool1d nn.AvgPool2d nn.AvgPool3d nn.FractionalMaxPool2d nn.FractionalMaxPool3d nn.LPPool1d nn.LPPool2d nn.AdaptiveMaxPool1d nn.Adapt…

阅读更多...

计算机基础面试题 |05.精选计算机基础面试题

计算机基础面试题 |05.精选计算机基础面试题

🤍 前端开发工程师（主业）、技术博主（副业）、已过CET6 🍨 阿珊和她的猫_CSDN个人主页 🕠 牛客高级专题作者、在牛客打造高质量专栏《前端面试必备》 🍚 蓝桥云课签约作者、已在蓝桥云…

阅读更多...

基本类型和包装类、基本类型和字符串之间的转换

基本类型和包装类、基本类型和字符串之间的转换

基本类型和包装类之间的转换基本类型和包装类之间经常需要互相转换，以 Integer 为例（其他几个包装类的操作雷同哦）： 在 JDK1.5 引入自动装箱和拆箱的机制后，包装类和基本类型之间的转换就更加轻松便利了。那什么是…

阅读更多...

CMake入门教程【基础篇】CMake+Visual Studio2022构建C++项目

CMake入门教程【基础篇】CMake+Visual Studio2022构建C++项目

文章目录 1.概述2.Visual Studio 2022简介3.安装Visual Studio 20224.安装CMake5.创建CMake项目6. 构建项目 1.概述 CMake和Visual Studio 2022结合在现代软件开发中，CMake和Visual Studio 2022的结合提供了一个强大的环境，用于构建和管理各种规模的C项…

阅读更多...

传统企业该怎样让 OKR 落地？

传统企业该怎样让 OKR 落地？

OKR（Objectives and Key Results）即目标与关键成果法，是一套明确和跟踪目标及其完成情况的管理工具和方法。它旨在确保员工共同工作，并集中精力作出可衡量的贡献。 OKR由英特尔公司制定，并由约翰道尔（John…

阅读更多...

外汇天眼：不懂、不熟悉的交易，避而远之！

外汇天眼：不懂、不熟悉的交易，避而远之！

在市场中很多人都想表达一句：真的是感觉自己学得越多，就越迷茫。不管是做交易还是做别的行业好像都是在刚入行的时候兴致勃勃，兴趣满满，什么都不懂但却很容易就能尝到一些甜头，这样就就很大程度上激励了自己&#xf…

阅读更多...

Maven 整理(含面试题）

Maven 整理(含面试题）

Maven是Java 项目必备，Maven 主要服务于基于Java平台的项目构建、依赖管理和项目信息管理。项目构建工具、更好的管理依赖目录 Maven安装与运行maven 重要知识点面试题 Maven安装与运行 Maven 是一个项目管理工具，可以对 Java 项目进行构建、依赖管理…

阅读更多...

matrix-breakout-2-morpheus 靶场练习思路

matrix-breakout-2-morpheus 靶场练习思路

arp-scan -l 获取目标机器的IP nmap -sV -A IP 查看目标机器开放的端口 gobuster dir -u http://192.168.29.130 -x php,txt,jsp,asp -w /usr/share/wordlists/dirbuster/directory-list-2.3-medium.txt 爆破目标机器的文件目录,找到可以访问的文件路径 http://192.168…

阅读更多...

最新文章