计算机视觉:替换万物Inpaint Anything

目录

1 Inpaint Anything介绍

1.1 为什么我们需要Inpaint Anything

1.2 Inpaint Anything工作原理

1.3 Inpaint Anything的功能是什么

1.4 Segment Anything模型(SAM)

1.5 Inpaint Anything

1.5.1 移除任何物体

1.5.2 填充任意内容

1.5.3 替换任意内容

1.5.4 实践

 1.6 实验总结

 2 Inpaint Anything部署与运行

2.1 conda环境准备

2.2 运行环境安装

2.3 模型下载

3 Inpaint Anything运行效果展示

3.1 Remove Anything

3.2 Fill Anything

 3.3 Replace Anything

3.5 Remove Anything Video

4 总结


1 Inpaint Anything介绍

通过一键点击标记选定对象,即可实现移除指定对象、填补指定对象、替换一切场景,涵盖了包括目标移除、目标填充、背景替换等在内的多种典型图像修补应用场景。

现代图像修复系统在掩膜选择和填充孔洞方面经常遇到困难。基于Segment-Anything模型(SAM),作者首次尝试了无需掩膜的图像修复,并提出了一种名为"Inpaint Anything(IA)"的新范式,即"点击和填充"。

IA的核心思想是结合不同模型的优势,构建一个非常强大且用户友好的流程来解决修复相关的问题。IA支持三个主要功能:

  • 移除任何物体:用户可以点击一个物体,IA将移除它并用上下文平滑填补"空洞";
  • 填充任何内容:在移除某些物体后,用户可以提供基于文本的提示给IA,然后它将通过驱动稳定扩散(Stable Diffusion)[11]等AIGC模型来填充空洞与相应的生成内容;
  • 替换任何背景:借助IA,用户可以选择保留点击选择的物体并用新生成的场景替换其余背景。

 论文:https://arxiv.org/pdf/2304.06790.pdf

 代码:https://github.com/geekyutao/Inpaint-Anything

754e94b3e5134ed3a2e2e55b7fa639b9.png

1.1 为什么我们需要Inpaint Anything

  • 最先进的图像修复方法,如LaMa 、Repaint、MAT、ZITS等,在修复大区域和处理复杂重复结构方面取得了巨大进展。它们可以成功地对高分辨率图像进行修复,并且通常可以很好地推广到其他图像。然而,它们通常需要每个掩膜的精细注释,这对于训练和推断是必不可少的。
  • Segment Anything Model (SAM)是一个强大的分割基础模型,可以根据输入提示(如点或框)生成高质量的对象遮罩,并且可以为图像中的所有对象生成全面准确的遮罩。然而,它们的遮罩分割预测尚未充分探索。
  • 此外,现有的修复方法只能使用上下文来填充已移除的区域。AIGC模型为创作开辟了新的机会,这有潜力满足大量需求,并帮助人们生成所需的内容。
  • 因此,通过结合SAM、最先进的图像修复器LaMa和AI生成的内容(AIGC)模型的优势,我们提供了一个强大且用户友好的流程,用于解决更多通用的与修复相关的问题,例如对象移除、新内容填充和背景替换。

1.2 Inpaint Anything工作原理

Inpaint Anything结合了 SAM、图像修补模型(例如 LaMa)和 AIGC 模型(例如 Stable Diffusion)等视觉基础模型。

  • SAM(Segment Anything Model)可以通过点或框等输入提示生成高质量的对象分割区域,实现指定目标的分割。
  • 图像修补模型LaMa,则能够在高分辨率图像的情况下,随意删除图像中的各种元素。模型的主要架构如下图所示。包含一个mask的黑白图,一张原始图像。将掩码图覆盖图像后输入Inpainting网络中,先是降采样到低分辨率,再经过几个快速傅里叶卷积FFC残差块,最后输出上采样,生成了一张高分辨的修复图像。

933aff637c294f08a5c81d43a5eddb53.png

  •  AIGC模型Stable Diffusion,则只要简单的输入一段文本,Stable Diffusion 就可以迅速将其转换为图像。

将三个模型结合到一起,我们可以做出很多的功能。本文就实现了在图片/视频中移除一切物体、在图片中填充一切物体和在图片中替换一切背景这三种功能,其具体实现步骤如下:

83f13e76c36d4dbaa73d50ed0b90e07d.png

1.3 Inpaint Anything的功能是什么

  • 使用SAM + SOTA修复器移除任意对象: 通过IA,用户可以通过简单地点击对象来轻松地从界面中删除特定对象。此外,IA还提供了一个选项,让用户可以使用上下文数据填充生成的"空洞"。针对此需求,我们结合了SAM和一些最先进的修复器(如LaMa)的优势。通过腐蚀和膨胀的手动细化,由SAM生成的掩膜预测作为修复模型的输入,为要擦除和填充的对象区域提供清晰的指示。
  • 使用SAM + AIGC模型填充或替换任意内容:

        (1) 在移除对象后,IA提供了两种选项来填充生成的"空洞",即使用上下文数据或"新内容"。具体而言,我们利用类似Stable Diffusion [11]的强大AI生成内容(AIGC)模型通过文本提示来生成新对象。例如,用户可以使用"dog"这个词或者"一只可爱的狗,坐在长凳上"这样的句子来生成一只新的狗来填充空洞。

        (2) 此外,用户还可以选择在保留点击选择的对象的同时,用新生成的场景替换剩余的背景。IA支持多种方式来提示AIGC模型,例如使用不同的图像作为视觉提示或使用简短的标题作为文本提示。例如,用户可以保留图像中的狗,但将原来的室内背景替换为室外背景。

d9a44a4c29894ae1997803292e3c3cfe.png

1.4 Segment Anything模型(SAM)

Segment Anything是一种基于大型视觉语料库(SA-1B)训练的基于ViT的CV模型。SAM在各种场景中展示了有前景的分割能力,以及基础模型在计算机视觉领域的巨大潜力。这是通往视觉人工通用智能的开创性一步,SAM曾被誉为"CV版ChatGPT"。

  • SOTA修复器:图像修复作为一个不适定的逆问题,在计算机视觉和图像处理领域得到了广泛的研究。其目标是用具有视觉合理结构和纹理的内容替换损坏图像的缺失区域。在Inpaint Anything(IA)中,作者调研了一种简单的单阶段方法LaMa 用于基于掩膜的修复,该方法通过结合快速傅立叶卷积(FFC)、感知损失和激进的训练掩膜生成策略,在生成重复性视觉结构方面表现出色。
  •  AIGC模型:ChatGPT和其他生成AI(GAI)技术都属于人工智能生成内容(AIGC)的范畴,涉及通过AI模型创建数字内容,例如图像、音乐和自然语言。它被视为一种新型的内容创作方式,并在各种内容生成方面展现了最先进的性能。在我们的IA工作中,作者直接使用强大的AIGC模型Stable Diffusion,基于文本提示来在空洞中生成所需的内容。

1.5 Inpaint Anything

作者提出的Inpaint Anything (IA)的原理是将现成的基础模型组合起来,以解决广泛的图像修复问题。通过组合各种基础模型的优势,IA能够生成高质量的修复图像。具体而言,我们的IA包括三种方案,即Remove Anything、Fill Anything和Replace Anything,分别用于移除、填充和替换任意内容。

1.5.1 移除任何物体

Remove Anything专注于通过允许用户从图像中消除任何物体来解决物体移除问题,同时确保生成的图像在视觉上仍然合理。

Remove Anything由三个步骤组成:点击、分割和移除。

  • 在第一步中,用户通过点击选择他们想要从图像中移除的物体。
  • 接下来,使用基础分割模型,如Segment Anything ,根据点击位置自动分割物体并创建遮罩。
  • 最后,使用先进的修复模型,如LaMa [13],使用遮罩来填补被移除物体留下的空洞。

由于图像中不再存在该物体,修复模型会用背景信息填充空洞。

需要注意的是,在整个过程中,用户只需要点击他们想要从图像中移除的物体。

1.5.2 填充任意内容

Fill Anything允许用户将图像中的任何物体填充为他们想要的任何内容。

该工具包括四个步骤:点击、分割、文本提示和生成。

  • Fill Anything的前两个步骤与Remove Anything相同。
  • 在第三步中,用户输入指示他们想要用什么内容填充物体空洞的文本提示。
  • 最后,采用强大的AIGC模型,如Stable Diffusion [11],基于文本提示修复模型在空洞中生成所需的内容。

1.5.3 替换任意内容

Replace Anything能够将任何物体替换为任何背景。Replace Anything的过程与Fill Anything类似,但在这种情况下,提示AIGC模型生成与指定物体外部相一致的背景。

1.5.4 实践

将基础模型组合解决任务可能会遇到不兼容或不适合的问题。我们应该考虑中间处理,以实现模型和任务之间更好的协调。在本研究中,针对图像修复场景,我们总结了一些良好的组合实践如下:

  • 膨胀操作的重要性。

我们观察到SAM的分割结果(即物体遮罩)可能包含不连续和非平滑的边界,或者物体区域内部存在空洞。这些问题对于有效地移除或填充物体构成了挑战。因此,我们使用膨胀操作来优化遮罩。此外,对于填充物体,大遮罩为AIGC模型提供更大的创作空间,有利于与用户意图的"对齐"。因此,在Fill Anything中采用了大的膨胀操作。

  • 保真度的重要性。

大多数最先进的AIGC模型(如Stable Diffusion)需要图像具有固定的分辨率,通常为512×512。简单地将图像调整到这个分辨率可能会导致保真度的降低,从而对最终的修复结果产生不利影响。因此,采取保留原始图像质量的措施是必要的,例如使用裁剪技术或在调整大小时保持图像的宽高比。

  • 提示的重要性。

我们的研究表明,文本提示对AIGC模型有重要影响。然而,我们观察到在文本提示修复场景中,简单的提示(例如"长凳上的玩具熊"或"墙上的毕加索画作")通常能产生满意的结果。相比之下,更长、更复杂的提示可能会产生令人印象深刻的结果,但它们往往不太用户友好。

e8467fe7b49b42eab9b51e2339f84f4c.png

 1.6 实验总结

作者在Inpaint Anything中对Remove Anything、Fill Anything和Replace Anything进行了评估,分别在移除对象、填充对象和替换背景的三种情况下进行。作者从COCO数据集、LaMa测试集和手机拍摄的照片中收集了测试图像。实验结果表明,所提出的Inpaint Anything具有通用性和鲁棒性,能够有效地对具有多样内容、分辨率和宽高比的图像进行修复。

9e0a6dda61164a9585ac03bef933db72.png

 2 Inpaint Anything部署与运行

2.1 conda环境准备

conda环境准备详见:annoconda

2.2 运行环境安装

git clone https://github.com/geekyutao/Inpaint-Anything
cd Inpaint-Anythingconda create -n ia python=3.9
conda activate iapip install torchvision==0.15.2
pip install torchaudio==2.0.2pip install -e segment_anything
pip install -r lama/requirements.txt pip install diffusers==0.16.1
pip install transformers==4.30.2
pip install accelerate==0.19.0
pip install scipy==1.11.1
pip install safetensors==0.3.1pip install numpy==1.23.5pip install jpeg4py==0.1.4

2.3 模型下载

(1)Remove Anything模型

创建模型存储目录:

mkdir -p pretrained_models/big-lama

SAM模型下载:SAM地址

Lama模型地址:Lama地址

从以上模型地址下载模型文件,下载完成后:

SAM模型文件移动到pretrained_models目录下,

Lama模型文件移动到pretrained_models/big-lama

完成后命令行显示如下:

 [root@localhost Inpaint-Anything]# ll pretrained_models/
总用量 2504448
drwxr-xr-x 3 root root         51 8月   4 18:13 big-lama
-rw-r--r-- 1 root root 2564550879 8月   4 15:32 sam_vit_h_4b8939.pth[root@localhost Inpaint-Anything]# ll pretrained_models/big-lama/
总用量 4
-rw-r--r-- 1 root root 3947 8月   4 15:28 config.yaml
drwxr-xr-x 2 root root   31 8月   4 15:28 models

(2)Fill Anything模型

mkdir -p stabilityai/stable-diffusion-2-inpainting

模型下载地址:huggingface地址,下载完成后,存放到上面的目录中

(3)Remove Anything Video模型

模型下载地址:sttn模型, sttn模型文件移动到pretrained_models目录下,

mkdir -p pytracking/pretrain

模型下载地址:osTrack模型,下载完成后,存放到上面的目录中

3 Inpaint Anything运行效果展示

3.1 Remove Anything

(1)通过指定坐标点移除物体

python remove_anything.py \--input_img ./example/remove-anything/dog.jpg \--coords_type key_in \--point_coords 200 450 \--point_labels 1 \--dilate_kernel_size 15 \--output_dir ./results \--sam_model_type "vit_h" \--sam_ckpt ./pretrained_models/sam_vit_h_4b8939.pth \--lama_config ./lama/configs/prediction/default.yaml \--lama_ckpt ./pretrained_models/big-lama

运行成功后,结果存放在result目录下。

(2)通过点击移除物体

python remove_anything.py \--input_img ./example/remove-anything/dog.jpg \--coords_type click \--point_coords 200 450 \--point_labels 1 \--dilate_kernel_size 15 \--output_dir ./results \--sam_model_type "vit_h" \--sam_ckpt ./pretrained_models/sam_vit_h_4b8939.pth \--lama_config ./lama/configs/prediction/default.yaml \--lama_ckpt ./pretrained_models/big-lama

此中方式需要有显示器展示和操作

3.2 Fill Anything

通过指定坐标点和Prompt填充物体

python fill_anything.py \--input_img ./example/fill-anything/sample1.png \--coords_type key_in \--point_coords 750 500 \--point_labels 1 \--text_prompt "a teddy bear on a bench" \--dilate_kernel_size 50 \--output_dir ./results \--sam_model_type "vit_h" \--sam_ckpt ./pretrained_models/sam_vit_h_4b8939.pth

Text prompt: "a teddy bear on a bench" 

 

 3.3 Replace Anything

通过指定坐标点和Prompt替换物体

python replace_anything.py \--input_img ./example/replace-anything/dog.png \--coords_type key_in \--point_coords 750 500 \--point_labels 1 \--text_prompt "sit on the swing" \--output_dir ./results \--sam_model_type "vit_h" \--sam_ckpt ./pretrained_models/sam_vit_h_4b8939.pth

Text prompt: "a man in office"

 

3.5 Remove Anything Video

python remove_anything_video.py \--input_video ./example/video/paragliding/original_video.mp4 \--coords_type key_in \--point_coords 652 162 \--point_labels 1 \--dilate_kernel_size 15 \--output_dir ./results \--sam_model_type "vit_h" \--sam_ckpt ./pretrained_models/sam_vit_h_4b8939.pth \--lama_config lama/configs/prediction/default.yaml \--lama_ckpt ./pretrained_models/big-lama \--tracker_ckpt vitb_384_mae_ce_32x4_ep300 \--vi_ckpt ./pretrained_models/sttn.pth \--mask_idx 2 \--fps 25

以下案例都是视频文件的移除展示:

4 总结

Inpaint Anything (IA)是一款多功能工具,结合了Remove Anything、Fill Anything和Replace Anything的功能。基于分割模型、SOTA修复模型和AIGC模型,IA能够实现无需遮罩的图像修复,并支持用户友好的操作方式,即“点击删除,提示填充”。

此外,IA可以处理各种不同的高质量输入图像,包括任意宽高比和2K分辨率。这个项目充分利用现有的大规模AI模型的强大能力,并展示了“可组合AI”的潜力。在未来,Inpaint Anything (IA)将进一步开发,以支持更多的实用功能,如细粒度图像抠像、编辑等,并将其应用于更多现实应用中。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/22113.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【设计模式——学习笔记】23种设计模式——访问者模式Visitor(原理讲解+应用场景介绍+案例介绍+Java代码实现)

文章目录 案例引入要求传统方案 介绍基本介绍应用场景登场角色尚硅谷版本《图解设计模式》版本 案例实现案例一实现拓展 案例二(个人感觉这个案例较好)实现分析拓展一拓展二拓展三 总结额外知识双重分发 文章说明 案例引入 要求 测评系统需求:将观众分为男人和女人…

学了一个礼拜 JavaScript 为什么还是学不会?

前言 首先从你的描述里面我先以我的主观臆断来猜测一下你是没有任何编程的基础的,Js按理来说在各语言中并不是非常难学,当然如果你是纯新手入门,那么确实前期需要时间来沉淀一下语法,一个礼拜的话,按理来说应该是在沉…

T31开发笔记:librtmp拉流测试

若该文为原创文章,转载请注明原文出处。 T31使用librtmp拉流并保存成FLV文件或H264和AAC文件。 librtmp编译在前面有教程,自行编译。 实现的目的是想要获取获取rtmp的AAC流并播放,实时双向对讲功能。 一、硬件和开发环境 1、硬件&#xff1…

Linux C++ 链接数据库并对数据库进行一些简单的操作

一.引言(写在之前) 在我们进行网络业务代码书写的时候,我们总是避免对产生的数据进行增删改查,为此,本小博主在这里简历分享一下自己在Linux中C语言与数据之间交互的代码的入门介绍。 二.代码书写以及一些变量和函数的…

Vue3 nodejs 安装和配置---vue3教程一

文章目录 前言1、nodejs安装2、配置缓存路径:3、 阿里镜像cnpm使用4、 yarn安装5、配置nodejs国内镜像6、查看各个版本7、node npm yarn概念8、nodejs 和vue 关系外传 前言 本人主做后端Java,以前搞全栈开发是,还没有vue,rect等前端框架&…

MGRE综合

实验 一、实验思路 1.先按照上图配置IP地址及环回 2.写缺省使公网可通 3.让R1、R4、R5每台路由器均成为中心站点形成全连网状结构拓扑 4.让R1成为中心站点R2R3为分支站点 5.分区域宣告ospf之后更改ospf在虚拟接口Tunnel工作方式为broadcast及让R1 当选DR 二、上虚拟机操作…

[CKA]考试之一个 Pod 封装多个容器

由于最新的CKA考试改版,不允许存储书签,本博客致力怎么一步步从官网把答案找到,如何修改把题做对,下面开始我们的 CKA之旅 题目为: Task 创建一个Pod,名字为kucc1,这个Pod包含4容器&#xff…

《向量数据库指南》——腾讯云向量数据库Tencent Cloud Vector DB正式上线公测!提供10亿级向量检索能力

8月1日,腾讯云向量数据库(Tencent Cloud Vector DB)已正式上线公测。在腾讯云官网上搜索“向量数据库”,就可以正式体验该产品。 腾讯云向量数据库不仅能为大模型提供外部知识库,提高大模型回答的准确性,还可广泛应用于推荐系统、文本图像检索、自然语言处理等 AI 领域。…

Vue的 hash 模式与 history 模式

为了能够在改变视图的同时,不向后端发出网络请求。浏览器提供了 hash 模式与 history 模式。 而 vue 中的路由器就是利用了这两种模式,来实现前端路由的。 路由器的 hash 模式: 一、在 router 目录下的 index.js 文件中,通过 m…

JVM 学习—— 类加载机制

前言 在上一篇文章中,荔枝梳理了有关Java中JVM体系架构的相关知识,其中涉及到的有关Java类加载机制的相关知识并没有过多描述。那么在这篇文章中,荔枝会详细梳理一下有关JVM的类加载机制和双亲委派模型的知识,希望能够帮助到有需要…

时间复杂度接近O(n)的三种排序算法

1.桶排序 桶排序,顾名思义,会用到“桶”,核心思想是将要排序的数据分到几个有 序的桶里,每个桶内的数据再单独进行排序。桶内排完序之后,再把每个桶内的数据按照顺序依次 取出,组成的序列就是有序的了。 …

使用vue creat搭建项目

一、查看是否安装node和npm(显示版本号说明安装成功) node -v npm -v 显示版本号说明安装成功,如果没有安装,则需要先安装。 二、安装vue-cli脚手架 查看安装的版本(显示版本号说明安装成功) vue -V 三…

【雕爷学编程】 MicroPython动手做(35)——体验小游戏3

知识点:什么是掌控板? 掌控板是一块普及STEAM创客教育、人工智能教育、机器人编程教育的开源智能硬件。它集成ESP-32高性能双核芯片,支持WiFi和蓝牙双模通信,可作为物联网节点,实现物联网应用。同时掌控板上集成了OLED…

30. 利用linprog 解决 生产决策问题(matlab程序)

1.简述 线线规划的几个基本性质:【文献[1]第46页】 (1)线性规划问题的可行域如果非空,则是一个凸集-凸多面体; (2)如果线性规划问题有最优解,那么最优解可在可行域的顶点中确定; (3)如果可行域有界,且可行域…

企业电子招投标系统源码之电子招投标系统建设的重点和未来趋势 tbms

​ 功能模块: 待办消息,招标公告,中标公告,信息发布 描述: 全过程数字化采购管理,打造从供应商管理到采购招投标、采购合同、采购执行的全过程数字化管理。通供应商门户具备内外协同的能力,为…

SpringBoot + ajax 实现分页和增删查改

0目录 1.SpringBoot 2.SpringBoot分页;增删改查 1.SpringBoot分页 创建数据库和表 创建SpringBoot工程,引入springboot下的分页依赖 配置application.yml 实体类 Mapper接口 Mapper.xml Service接口 Service实现类 控制层 测试 加…

新手Vite打包工具的使用并解决yarn create vite报错

一、手动创建 1.创建vite-Demo文件夹 2.初始化 yarn init -y 3.安装vite yarn add -D vite 4.打包准备 说明&#xff1a;不需要在src下面创建&#xff0c;在vite-Demo文件夹创建 4.1index.js文件 document.body.insertAdjacentHTML("beforeend","<h1>…

排序八卦炉之冒泡、快排【完整版】

文章目录 1.冒泡排序1.1代码实现1.2复杂度 2.快速排序2.1人物及思想介绍【源于百度】2.2hoare【霍尔】版本1.初识代码2.代码分析3.思其因果 2.3挖坑版本1.初始代码2.代码分析3.思想比较 2.4指针版本1.初识代码2.代码分析3.问题探讨 2.5集体优化2.6极致优化2.7非递归版本1.初识代…

sql语句字符函数,数学函数

一、trim&#xff08;&#xff09;去掉前后单元格 SELECT LENGTH(TRIM( 张三 )) AS 姓名 trim&#xff08;aa from bb) 除掉bb中前后包含的aa&#xff0c;中间的保留 SELECT TRIM(班 FROM class) AS 姓名 FROM user_test 二、lpad&#xff08;&#xff09;用指定字符做左…

【css】css实现一个简单的按钮

四种链接状态分别是&#xff1a; a:link - 正常的&#xff0c;未访问的链接a:visited - 用户访问过的链接a:hover - 用户将鼠标悬停在链接上时a:active - 链接被点击时 <style> a:link, a:visited {//未访问、访问过background-color: #07c160;//设置背景颜色color: wh…