利用开源Stable Diffusion模型实现图像压缩比竞争方法用更低的比特率生成更逼真的图像

概述

论文地址:https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Paper.pdf
迪士尼的研究部门正在提供一种新的图像压缩方法,利用开源Stable Diffusion V1.2 模型,以比竞争方法更低的比特率生成更逼真的图像。

Disney 压缩方法与之前方法的比较。作者声称改进了细节恢复,同时提供了一种不需要数十万美元训练的模型,并且比最接近的等效竞争方法运行速度更快。

新方法(定义为“编解码器”)与传统编解码器相比,其复杂性有所增加,例如 JPEG格式(LDM)。在定量测试中,它在准确性和细节方面优于以前的方法,并且所需的训练和计算成本明显减少。

新研究的关键见解是量化错误 (a 中心过程 在所有图像压缩中)类似于 噪声 (a 中心过程 在扩散模型中)

因此,可以将“传统”量化图像视为原始图像的噪声版本,并在 LDM 的去噪过程中使用它来代替随机噪声,以便以目标比特率重建图像。

进一步比较迪士尼的新方法(以绿色突出显示)与其他方法的对比。

作者认为:

“[我们] 将量化误差的消除作为一项去噪任务,使用扩散来恢复传输图像潜影中丢失的信息。我们的方法使我们能够执行不到 10% 的完整扩散生成过程,并且不需要对扩散模型进行架构更改,从而可以使用基础模型作为强大的先验,而无需对主干进行额外的微调。

“我们提出的编解码器在定量真实感指标方面优于以前的方法,并且我们验证了即使其他方法使用两倍的比特率,我们的重建在质量上也更受最终用户的青睐。”

然而,与其他试图利用扩散模型压缩能力的项目一样,输出可能 幻觉的 细节。相比之下,JPEG 等有损压缩方法将产生明显扭曲或过度平滑的细节区域,普通观众可能会认为这是压缩限制。

相反,由于视频的粗糙性质,迪士尼的编解码器可能会改变源图像中不存在的背景细节。 可变自动编码器 (VAE)用于在超大规模数据上训练的典型模型。

“与其他生成方法类似,我们的方法可以在接收端合成类似信息时丢弃某些图像特征。然而,在特定情况下,这可能会导致重建不准确,例如弯曲直线或扭曲小物体的边界。

“这些都是我们所构建的基础模型的众所周知的问题,可以归因于其 VAE 的特征维度相对较低。”

虽然这对于艺术描绘和休闲照片的逼真度有一定影响,但在具有此功能的编解码器普及的情况下,它可能会在小细节构成重要信息的情况下产生更关键的影响,例如法庭案件的证据、面部识别的数据、光学字符识别(OCR)的扫描以及各种其他可能的用例。

在人工智能增强图像压缩技术发展的初期,所有这些可能的情况都还很遥远。然而,图像存储是一项超大规模的全球性挑战,涉及数据存储、流媒体和电力消耗等问题,以及其他问题。因此,基于人工智能的压缩可以在准确性和物流之间提供诱人的权衡。历史表明,最好的编解码器 并不总是赢 最广泛的用户群,当许可和专有格式的市场占领等问题成为采用的因素时。

迪士尼长期以来一直在尝试使用机器学习作为压缩方法。2020 年,新论文的一位研究人员参与了 基于 VAE 的项目 以改善视频压缩。

迪士尼的新报纸于 10 月初进行了更新。今天该公司发布了一份 附带 YouTube 视频。 该 项目 标题为 使用基础扩散模型进行有损图像压缩,来自苏黎世联邦理工学院(隶属于迪士尼的 AI 项目)和迪士尼研究中心的四位研究人员。研究人员还提供了 补充文件.

实现方式

新方法使用 VAE 将图像编码为其压缩 潜在表征。在此阶段,输入图像由派生的 功能 – 基于低级向量的表示。然后将潜在嵌入量化回比特流,并量化回像素空间。

然后将该量化图像用作噪声的模板,该噪声通常为基于扩散的图像提供种子,并具有不同数量的去噪步骤(其中通常在增加去噪步骤和提高准确性与降低延迟和提高效率之间进行权衡)。

新 Disney 压缩方法的架构。

在新系统中,可以通过训练神经网络来控制量化参数和去噪步骤总数,该神经网络可以预测与编码相关的相关变量。这个过程称为 _自适应量化_迪士尼系统使用 恩特罗弗默 框架作为驱动该过程的熵模型。

作者指出:

“直观地讲,我们的方法学会丢弃在扩散过程中可以合成的信息(通过量化变换)。因为量化过程中引入的误差类似于添加[噪声],而扩散模型在功能上是去噪模型,所以它们可以用来消除编码过程中引入的量化噪声。”

Stable Diffusion V2.1 是系统的传播主干,之所以选择它,是因为整个代码和基础 权重 是公开的。然而,作者强调他们的模式适用于更广泛的模型。

这一过程的经济性的关键在于 时间步长预测,它评估了最佳去噪步骤数——效率和性能之间的平衡行为。

时间步长预测,最佳去噪步长数以红色边框表示。请参阅源 PDF 以获得准确的分辨率。

在预测最佳去噪步骤数时,需要考虑潜在嵌入中的噪声量。

数据与测试

该模型是在 Vimeo-90k 数据集。图像被随机裁剪为 256x256px,每个 时代 (即模型训练架构每次完全摄取精炼的数据集)。

该模型针对 300,000 步进行了优化, 学习率 1e-4。这是计算机视觉项目中最常见的,也是最低且最细粒度的一般可行值,作为数据集概念和特征的广泛概括与精细细节再现能力之间的折衷。

作者对经济而有效的系统的一些后勤考虑进行了评论*:

“在训练过程中,通过扩散模型的多次传递来反向传播梯度的成本非常高,因为它在 直通车 采样。因此,我们只执行一次 DDIM 采样迭代,并直接使用 [此] 作为完全去噪的 [数据]。’

用于测试系统的数据集是 柯达; CLIC2022;和 可可 30k. 数据集根据 2023 年 Google 提供 使用条件生成器进行多现实主义图像压缩.

使用的指标是 峰值信噪比 峰值信噪比(PSNR); 学习感知相似性度量 (低密度聚乙烯保护系统); 多尺度结构相似性指数 (MS-SSIM);和 弗雷谢起始距离 (最终鉴定)。

测试的竞争对手先前的框架分为使用生成对抗网络 (GAN) 的旧系统和基于扩散模型的较新系统。测试的 GAN 系统包括 高保真生成图像压缩 (HiFiC);和 医学硕士 (对 HiFiC 做出了一些改进)。

基于扩散的系统 使用条件扩散模型进行有损图像压缩 (疾病预防控制中心)和 使用基于分数的生成模型进行高保真图像压缩 (高频频谱分析仪)。

与各种数据集上的先前框架相比的定量结果。

对于定量结果(如上图所示),研究人员指出:

“我们的方法在重建图像的真实性方面树立了新的领先水平,在 FID 比特率曲线中超越了所有基线。在某些失真指标(即 LPIPS 和 MS-SSIM)中,我们的表现优于所有基于扩散的编解码器,同时仍与性能最高的生成编解码器保持竞争力。

“正如预期的那样,我们的方法和其他生成方法在以 PSNR 衡量时会受到影响,因为我们更喜欢感知上令人愉悦的重建,而不是精确复制细节。”

对于用户研究,我们采用了两种强制选择 (2AFC) 方法,在锦标赛环境中,受欢迎的图像将进入后续轮次。该研究使用了 ELO 最初为国际象棋锦标赛开发的评级系统。

因此,参与者将查看并从各种生成方法中呈现的两个 512x512px 图像中选择最佳图像。进行了一项额外的实验,其中 所有 通过对同一用户的图像比较进行评估, 蒙特卡洛模拟 超过 10,0000 次迭代,结果中显示中位数分数。

针对用户研究估算的 Elo 评分,包含每次比较的 Elo 锦标赛(左)以及每个参与者的 Elo 锦标赛,值越高越好。

以下是作者的评论:

“从 Elo 得分可以看出,我们的方法明显优于其他所有方法,甚至与 CDC 相比也是如此,CDC 平均使用了我们方法的两倍。无论使用哪种 Elo 锦标赛策略,情况都是如此。”

在原始论文中,以及 补充 PDF中,作者提供了进一步的视觉比较,其中一个在本文前面展示过。然而,由于样本之间的差异很小,我们请读者参考源 PDF,以便公平地判断这些结果。

论文最后指出,其提出的方法比竞争对手 CDC 的运行速度快两倍(分别为 3.49 秒和 6.87 秒)。论文还指出,ILLM 可以在 0.27 秒内处理图像,但该系统需要繁重的训练。

总结

ETH/Disney 的研究人员在论文的结论中明确指出,他们的系统可能会产生虚假细节。然而,材料中提供的所有样本都没有涉及这个问题。

平心而论,这个问题并不局限于迪士尼的新方法,而是使用扩散模型(一种创造性和解释性的架构)来压缩图像的不可避免的附带影响。

有趣的是,仅在五天前,苏黎世联邦理工学院的另外两名研究人员制作了一个 纸 标题 __用于图像压缩的条件幻觉__该研究探讨了基于人工智能的压缩系统中实现“最佳幻觉水平”的可能性。

作者在那里论证了幻觉的可取性,其中领域是足够通用的(并且可以说是“无害的”):

“对于类似纹理的内容,例如草地、雀斑和石墙,生成与给定纹理真实匹配的像素比重建精确的像素值更重要;从纹理分布生成任何样本通常就足够了。”

因此,第二篇论文主张压缩应具有最佳的“创造性”和代表性,而不是尽可能准确地重现原始未压缩图像的核心特征和轮廓。

人们不禁想知道摄影和创意界会如何看待这种相当激进的“压缩”重新定义。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/889646.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Flask+OpenAI】利用Flask+OpenAI Key实现GPT4-智能AI对话接口demo - 从0到1手把手全教程(附源码)

文章目录 前言环境准备安装必要的库 生成OpenAI API代码实现详解导入必要的模块创建Flask应用实例配置OpenAI API完整代码如下(demo源码)代码解析 利用Postman调用接口 了解更多AI内容结尾 前言 Flask作为一个轻量级的Python Web框架,凭借其…

SpringBoot【十三(实战篇)】集成在线接口文档Swagger2

一、前言🔥 环境说明:Windows10 Idea2021.3.2 Jdk1.8 SpringBoot 2.3.1.RELEASE 二、如何生成Swagger文档 上一期我们已经能正常访问swagger在线文档,但是文档空空如也,对不对,接下来我就教大家怎么把相关的接口都给…

Qt之自定义动态调控是否显示日志

创作灵感 最近在芯驰x9hp上开发仪表应用。由于需要仪表警告音,所以在该平台上折腾并且调试仪表声音的时候,无意间发现使用: export QT_DEBUG_PLUGINS1 可以打印更详细的调试信息。于是想着自己开发的应用也可以这样搞,这样更方便…

Linux网络 UDP socket

背景知识 我们知道, IP 地址用来标识互联网中唯一的一台主机, port 用来标识该主机上唯一的一个网络进程,IPPort 就能表示互联网中唯一的一个进程。所以通信的时候,本质是两个互联网进程代表人来进行通信,{srcIp&…

数据链路层(Java)(MAC与IP的区别)

以太网协议: "以太⽹" 不是⼀种具体的⽹络, ⽽是⼀种技术标准; 既包含了数据链路层的内容, 也包含了⼀些物理 层的内容. 例如: 规定了⽹络拓扑结构, 访问控制⽅式, 传输速率等; 例如以太⽹中的⽹线必须使⽤双绞线; 传输速率有10M, 100M, 1000M等; 以太…

Apache APISIX快速入门

本文将介绍Apache APISIX,这是一个开源API网关,可以处理速率限制选项,并且可以轻松地完全控制外部流量对内部后端API服务的访问。我们将看看是什么使它从其他网关服务中脱颖而出。我们还将详细讨论如何开始使用Apache APISIX网关。 在深入讨…

项目15:简易扫雷--- 《跟着小王学Python·新手》

项目15:简易扫雷 — 《跟着小王学Python新手》 《跟着小王学Python》 是一套精心设计的Python学习教程,适合各个层次的学习者。本教程从基础语法入手,逐步深入到高级应用,以实例驱动的方式,帮助学习者逐步掌握Python的…

HTML+CSS+Vue3的静态网页,免费开源,可当作作业使用

拿走请吱一声&#xff0c;点个关注吧&#xff0c;代码如下&#xff0c;网页有移动端适配 HTML <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width…

Python的3D可视化库【vedo】2-1 (plotter模块) 绘制器的使用

文章目录 1 相关用语及其关系2 Plotter类的基本使用3 Plotter类具体的初始化设置3.1 全部初始化参数3.2 使用不同的axes vedo是Python实现的一个用于辅助科学研究的3D可视化库。 vedo的plotter模块封装了绘制器类Plotter。 Plotter实例可以用于显示3D图形对象、控制渲染器行为、…

职业院校人工智能实验室解决方案

随着人工智能技术的迅猛发展&#xff0c;企事业单位对具备高素质技术应用能力的人才需求愈发迫切&#xff0c;目前人工智能已经逐步从感知理解阶段转变为生成创造阶段&#xff0c;可以为各行各业提供多维的智能化应用服务。2024年的《政府工作报告》中首次提出了“人工智能”行…

steel-browser - 专为AI应用构建的开源浏览器自动化 API

Steel是一个开源浏览器 API&#xff0c;可以轻松构建与 Web 交互的 AI 应用程序和代理。您无需从头开始构建自动化基础设施&#xff0c;而是可以专注于 AI 应用程序&#xff0c;而 Steel 会处理复杂性。 2300 Stars 99 Forks 4 Issues 5 贡献者 Apache-2.0 License TypeScript …

ElasticSearch - 使用 Composite Aggregation 实现桶的分页查询

文章目录 官方文档概述Composite Aggregation 概述示例&#xff1a;基本分页查询分页&#xff1a;获取下一页结果使用场景注意事项 官方文档 https://www.elastic.co/guide/en/elasticsearch/reference/current/search-aggregations-bucket-composite-aggregation.html#_pagin…

基于Python+Sqlite3实现的搜索和推荐系统

基于Python实现的搜索和推荐系统 一、引言 伴随着科技的不断进步&#xff0c;互联网&#xff0c;万维网的不断发展。我们越来越热爱万维网&#xff0c;也欣赏他的发展方式。20世纪90年代初&#xff0c;万维网还只是一个将文档联系起来的简单网络。如今&#xff0c;他已经成为…

Oracle:VARCHAR2(100)与VARCHAR2(100 CHAR)的差异导致的报错

目录 >> 问题背景&#xff1a;>> 阴差阳错&#xff1a;>> 问题出现&#xff1a;>> 问题排查&#xff1a;>> 知识点&#xff1a;>> 问题复盘&#xff1a;>> 问题拓展&#xff1a; >> 问题背景&#xff1a; Oracle下&#xff1…

右玉200MW光伏电站项目 微气象、安全警卫、视频监控系统

一、项目名称 山西右玉200MW光伏电站项目 微气象、安全警卫、视频监控系统 二、项目背景&#xff1a; 山西右玉光伏发电项目位于右玉县境内&#xff0c;总装机容量为200MW&#xff0c;即太阳能电池阵列共由200个1MW多晶硅电池阵列子方阵组成&#xff0c;每个子方阵包含太阳能…

最短路----Dijkstra算法详解

简介 迪杰斯特拉&#xff08;Dijkstra&#xff09;算法是一种用于在加权图中找到单个源点到所有其他顶点的最短路径的算法。它是由荷兰计算机科学家艾兹格迪科斯彻&#xff08;Edsger Dijkstra&#xff09;在1956年提出的。Dijkstra算法适用于处理带有非负权重的图。迪杰斯特拉…

从零开始学docker(五)-可用的docker镜像

最近docker镜像都不能访问&#xff0c;目前亲测可用的docker镜像可用&#xff0c;并拉取mysql测试完成。 [缺点] docker search 查不到镜像的索引列表&#xff0c;只能手动查询索引目录&#xff08;解决方案在最后&#xff09;。 linux服务器vim打开镜像文件daemon.json vim /e…

安卓获取所有可用摄像头并指定预览

在Android设备中&#xff0c;做预览拍照的需求的时候&#xff0c;我们会指定 CameraSelector DEFAULT_FRONT_CAMERA前置 或者后置CameraSelector DEFAULT_BACK_CAMERA 如果你使用的是平板或者工业平板&#xff0c;那么就会遇到多摄像头以及外置摄像头问题&#xff0c;简单的指…

【报错记录】Ubuntu22.04解决开机卡在 /dev/sda5 : clean , *files , *blocks

一个愿意伫立在巨人肩膀上的农民...... 一、错误现象 本人的电脑安装Windows10和Ubuntu22.04双系统&#xff0c;一次训练中电脑死机无法开机&#xff0c;重启之后便出现如下错误&#xff0c;在网上寻找过很多方法均无效&#xff0c;在root下禁用了samba服务&#xff0c;也无济…

利用代理IP爬取Zillow房产数据用于数据分析

引言 最近数据分析的热度在编程社区不断攀升&#xff0c;有很多小伙伴都开始学习或从事数据采集相关的工作。然而&#xff0c;网站数据已经成为网站的核心资产&#xff0c;许多网站都会设置一系列很复杂的防范措施&#xff0c;阻止外部人员随意采集其数据。为了解决这个问题&a…