2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等

6月还有一周就要结束了,我们今天来总结2024年6月上半月发表的最重要的论文,重点介绍了计算机视觉领域的最新研究和进展。

Diffusion Models

1、Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation

LlamaGen,是一个新的图像生成模型,它将原始的大型语言模型的“下一个标记预测”范式应用于视觉生成领域。传统的自回归模型,如Llama,在视觉信号上没有归纳偏差,如果适当缩放,可以达到最先进的图像生成性能。论文LLM服务框架在优化图像生成模型的推理速度方面的有效性,并实现了326% - 414%的加速。

https://arxiv.org/abs/2406.06525

2、Margin-aware Preference Optimization for Aligning Diffusion Models without Reference

基于人类偏好的现代对齐技术,如RLHF和DPO,通常采用相对于参考模型的散度正则化来确保训练的稳定性。但这通常限制了模型在对齐过程中的灵活性,特别是当偏好数据和参考模型之间存在明显的分布差异时。

论文将重点放在最近的文本到图像扩散模型的对齐上,例如稳定扩散XL (SDXL),并发现由于视觉模式的非结构化性质,这种“参考不匹配”确实是对齐这些模型时的一个重要问题:例如,对特定风格方面的偏好很容易导致这种差异。

基于这一观察结果,提出了一种新的、记忆友好的扩散模型偏好对齐方法,该方法不依赖于任何参考模型,称为边缘感知偏好优化(MaPO)。

https://arxiv.org/abs/2406.06424

3、MLCM: Multistep Consistency Distillation of Latent Diffusion Model

将大型潜在扩散模型提炼成快速采样的模型正引起越来越多的研究兴趣。大多数现有的方法都面临着两难的境地,它们要么(i)依赖于不同采样预算的多个单独的蒸馏模型,要么(ii)以有限的(例如,2-4)和/或适度的采样步骤牺牲生成质量。

为了解决这些问题,论文将最近的多步一致性蒸馏(MCD)策略扩展到具有代表性的ldm,建立了用于低成本高质量图像合成的多步潜在一致性模型(MLCMs)方法。由于MCD的前景,MLCM可以作为各种采样步骤的统一模型。

https://arxiv.org/abs/2406.05768

4、AsyncDiff: Parallelizing Diffusion Models by Asynchronous Denoising

扩散模型因其在各种应用程序中的强大生成能力而引起了社区的极大兴趣。但是它们典型的多步顺序去噪特性导致了高累积延迟,从而排除了并行计算的可能性。

为了解决这个问题,论文引入了AsyncDiff,这是一个通用的即插即用加速方案,可以跨多个设备实现模型并行。我们的方法将繁琐的噪声预测模型分成多个组件,并将每个组件分配给不同的设备。

该策略显著降低了推理延迟,同时对生成质量的影响最小。具体来说,对于SD v2.1, AsyncDiff在四个NVIDIA A5000 gpu上实现了2.7倍的加速,CLIP分数仅略微降低0.38。

https://arxiv.org/abs/2406.06911

5、Simple and Effective Masked Diffusion Language Models

虽然扩散模型在生成高质量图像方面表现出色,但先前的工作报告了语言建模中扩散和自回归(AR)方法之间的显著性能差距。

论文证明了简单的掩蔽离散扩散比以前认为的更高效。应用了一个有效的训练配方,提高了掩蔽扩散模型的性能,并推导了一个简化的、rao - blackwell化的目标,从而带来了额外的改进。

https://arxiv.org/abs/2406.07524

6、Neural Gaffer: Relighting Any Object via Diffusion

单图像光源重建是一项具有挑战性的任务,涉及几何,材料和照明之间复杂的相互作用推理。许多先前的方法要么只支持特定类别的图像,比如人像,要么需要特殊的捕捉条件,比如使用手电筒。

论文提出了一种新的端到端2D重光照扩散模型,称为神经光栅,该模型采用任何物体的单张图像,并可以在任何新的环境光照条件下合成准确、高质量的重光照图像,只需在目标环境地图上调节图像生成器,而无需明确的场景分解。

我们的方法建立在一个预训练的扩散模型上,并在一个合成的重照明数据集上对其进行微调,揭示和利用扩散模型中存在的对照明的固有理解。我们在合成和原始的互联网图像上评估了我们的模型,并证明了它在泛化和准确性方面的优势。

https://arxiv.org/abs/2406.07520

7、Understanding Hallucinations in Diffusion Models through Mode Interpolation

基于扩散过程的图像生成模型经常被认为表现出“幻觉”,即训练数据中永远不会出现的样本。但是这些幻觉是从哪里来的呢?本文研究扩散模型中一种特殊的失效模式,称之为模态插值。

具体来说,论文发现扩散模型在训练集中的附近数据模式之间平滑地“插值”,可以生成完全不在原始训练分布支持范围内的样本;这种现象导致扩散模型产生了真实数据中从未存在过的内容(即幻觉)。

通过对各种形状的人工数据集的实验,论文展示了幻觉如何导致从未存在过的形状组合的产生。最后证明了扩散模型实际上知道他们什么时候产生幻觉。

https://arxiv.org/abs/2406.09358

8、Hierarchical Patch Diffusion Models for High-Resolution Video Generation

扩散模型在图像和视频合成中表现出了显著的性能。但是将它们扩展到高分辨率的输入是具有挑战性的,并且需要将扩散管道重组为多个独立的组件,这限制了可扩展性,并使下游应用复杂化。

论文以两种原则方式改进pdm,这使得它在训练期间非常高效,并解锁了高分辨率视频的端到端优化。

1、为了加强补丁之间的一致性,开发了深度上下文融合——一种以分层方式将上下文信息从低规模补丁传播到高规模补丁的架构技术。

2、为了加速训练和推理,提出了自适应计算,它将更多的网络容量和计算分配给粗糙的图像细节。结果模型在UCF-101 256²上的类条件视频生成中设置了新的最先进的FVD得分为66.32,Inception得分为87.68,超过了最近的方法100%以上。

https://arxiv.org/abs/2406.07792

9、Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models

本文通过集成一种新的多分辨率网络和时变层归一化,对扩散模型进行了创新的增强。

虽然传统方法依赖于卷积U-Net架构,但最近基于transformer的设计已经展示了卓越的性能和可扩展性。然而,对输入数据进行标记化(通过“补丁化”)的Transformer体系结构面临着视觉保真度和计算复杂性之间的权衡,这是由于涉及标记长度的自注意力操作的二次性质。

虽然更大的补丁尺寸可以提高注意力计算效率,但它们难以捕捉细粒度的视觉细节,从而导致图像失真。为了应对这一挑战,论文提出用多分辨率网络(DiMR)来增强扩散模型,这是一个跨多个分辨率细化特征的框架,从低分辨率到高分辨率逐步增强细节。

还引入了时间相关层归一化(TD-LN),这是一种参数高效的方法,将时间相关参数纳入层归一化,以注入时间信息并获得卓越的性能。

https://arxiv.org/abs/2406.09416

10、DiTFastAttn: Attention Compression for Diffusion Transformer Models

Diffusion transformer, DiT在图像和视频生成方面表现优异,但由于自注意力的二次复杂度而面临计算挑战。论文提出了一种新的训练后压缩方法DiTFastAttn来缓解DiT的计算瓶颈。

确定了DiT推理过程中注意力计算中的三个关键冗余:

空间冗余,即许多注意力集中在局部信息上。

时间冗余,相邻步骤的注意力输出高度相似。

条件冗余,其中条件和无条件推理表现出显著的相似性。

为了解决这些冗余问题,提出了三种技术:

窗口注意与残差缓存,以减少空间冗余。

时间相似性减少,利用步骤之间的相似性。

条件冗余消除,跳过条件生成过程中的冗余计算。

为了证明DiTFastAttn的有效性,论文将其应用于DiT, PixArt-Sigma用于图像生成任务,以及openora用于视频生成任务。评估结果表明,对于图像生成,减少了高达88%的flop,并在高分辨率生成时实现了高达1.6倍的加速。

https://arxiv.org/abs/2406.08552

Vision Language Models (VLMs)

1、An Image is Worth More Than 16x16 Patches: Exploring Transformers on Individual Pixels

这篇文章我们已经介绍过了,就是Pixel Transformer

2、OpenVLA: An Open-Source Vision-Language-Action Model

VLAs在机器人领域的广泛采用一直具有挑战性

现有的vla基本上是封闭的,无法向公众开放,先前的工作未能探索针对新任务有效微调VLAs的方法,这是采用的关键组成部分。

为了解决这些挑战,论文介绍了OpenVLA,这是一个7b参数的开源VLA,在970k个真实世界机器人演示的不同集合上进行了训练。OpenVLA建立在Llama 2语言模型的基础上,结合了一个视觉编码器,该编码器融合了DINOv2和SigLIP的预训练特征。

作为增加数据多样性和新模型组件的产物,OpenVLA在通才操作方面显示出强大的结果,在29个任务和多个机器人实施例中的绝对任务成功率优于RT-2-X (55B)等封闭模型16.5%,参数减少了7倍。

https://arxiv.org/abs/2406.09246

3、Commonsense-T2I Challenge: Can Text-to-Image Generation Models Understand Commonsense?

论文提出了一个新的评估文本到图像(T2I)生成模型生成符合现实生活中常见图像的能力的任务和基准,Commonsense-T2I

给定两个对抗性的文本提示,包含一组相同的动作词,但差异很小,比如“一个没有电的灯泡”和“一个有电的灯泡”,模型是否可以进行视觉常识推理,例如,相应地产生适合“灯泡未亮”和“灯泡亮”的图像。

数据集由专家精心手工管理,并使用细粒度标签(如常识类型和预期输出的可能性)进行注释,以帮助分析模型行为。

论文对各种最先进的(SOTA) T2I模型进行了基准测试,令人惊讶地发现,图像合成与真实照片之间仍然存在很大差距——即使DALL-E 3模型在Commonsense-T2I上也只能达到48.92%,而SDXL模型也只能达到24.92%的精度。

https://arxiv.org/abs/2406.07546

4、MuirBench: A Comprehensive Benchmark for Robust Multi-image Understanding

MuirBench是一个专注于多模式llm的鲁棒多图像理解能力的的基准。MuirBench由12个不同的多图像任务(例如,场景理解,排序)组成,涉及10类多图像关系(例如,多视图,时间关系)。

MuirBench由11,264张图像和2,600个选择题组成,以成对的方式创建,其中每个标准实例与具有最小语义差异的无法回答的变体配对,以便进行可靠的评估。

通过对20个最近的多模态llm进行评估,即使是像gpt - 40和Gemini Pro这样表现最好的模型,也很难解决MuirBench问题,准确率分别达到68.0%和49.3%。

https://arxiv.org/abs/2406.09411

Image Generation & Editing

1、GTR: Improving Large 3D Reconstruction Models through Geometry and Texture Refinement

论文提出了一种基于多视图图像的三维网格重建方法。这个方法从大型重建模型(如LRM)中获得灵感,该模型使用基于Transformer的三平面生成器和在多视图图像上训练的神经辐射场(NeRF)模型。

https://arxiv.org/abs/2406.05649

2、IllumiNeRF: 3D Relighting without Inverse Rendering

论文提出了一种更简单光源合成方法:首先使用光照条件下的图像扩散模型重新为每个输入图像打光,然后用这些重新光照图像重建神经辐射场(NeRF),从这些图像中在目标光照下呈现新的视图。这个方法再多个基准测试中取得了最先进的结果。

https://arxiv.org/abs/2406.06527

3、Unified Text-to-Image Generation and Retrieval

论文探索了mlm的内在判别能力,并引入了一种生成检索方法,以不需要训练的方式进行检索。随后,我们以自回归生成的方式将生成和检索统一起来,并提出了一个自主决策模块,在生成的图像和检索到的图像之间选择最匹配的图像作为文本查询的响应。

https://arxiv.org/abs/2406.05814

4、An Image is Worth 32 Tokens for Reconstruction and Generation

生成模型的最新进展突出了图像标记化在高效合成高分辨率图像中的关键作用。与直接处理像素相比,将图像转换为潜在表示的标记减少了计算量,提高了生成过程的有效性和效率。

先前的方法,如VQGAN,通常使用具有固定下采样因子的二维潜在网格。但是这些二维标记化在管理图像中存在的固有冗余方面面临挑战,其中相邻区域经常显示相似性。

为了克服这个问题,论文引入了一种基于transformer的一维标记器(TiTok),这是一种将图像标记为一维潜在序列的创新方法。TikTok提供了更紧凑的潜在表示,产生比传统技术更高效和有效的表示。

例如,一个256 x 256 x 3的图像可以减少到32个离散的标记,与之前的方法获得的256或1024个标记相比,这是一个显著的减少。尽管它的性质紧凑,但TiTok以最先进的方法实现了竞争性能。使用相同的生成器框架,TiTok获得了1.97 gFID,在ImageNet 256 x 256基准测试中显著优于MaskGIT基线4.21。

当涉及到更高的分辨率时,TiTok的优势变得更加明显。在ImageNet 512 x 512基准测试中,TiTok不仅优于最先进的扩散模型DiT-XL/2 (gFID 2.74 vs. 3.04),而且还将图像标记减少了64倍,从而使生成过程加快了410倍。

https://arxiv.org/abs/2406.07550

5、Toffee: Efficient Million-Scale Dataset Construction for Subject-Driven Text-to-Image Generation

论文提出了一种有效的方法来构建数据集,用于主题驱动的编辑和生成的方法Toffee。

数据集构建不需要任何主题级别的微调。在预训练两个生成模型后,能够生成无限数量的高质量样本。并构建了第一个用于主题驱动的图像编辑和生成的大规模数据集,其中包含500万图像对,文本提示和掩码。

这个数据集是之前最大数据集的5倍,但成本却降低了数万个GPU小时。为了测试所提出的数据集,论文还提出了一个能够进行主题驱动的图像编辑和生成的模型。通过简单地在数据集上训练模型,它得到了有竞争力的结果,说明了数据集构建框架的有效性。

https://arxiv.org/abs/2406.09305

Video Understanding Generation

1、Vript: A Video Is Worth Thousands of Words

多模态学习的进步,需要高质量的视频文本数据集来提高模型性能。Vript通过精心注释的12K高分辨率视频语料库解决了这个问题,为超过420K的片段提供了详细、密集和类似脚本的字幕。

每个片段都有一个约145字的标题,比大多数视频文本数据集长10倍以上。与之前数据集中只记录静态内容的字幕不同,不仅记录了内容,还记录了摄像机操作,包括镜头类型(中景、特写等)和摄像机运动(平移、倾斜等),从而将视频字幕增强为视频脚本。

https://arxiv.org/abs/2406.06040

2、MotionClone: Training-Free Motion Cloning for Controllable Video Generation

基于运动的可控文本到视频生成涉及到控制视频生成的运动。以前的方法通常需要训练模型来编码运动线索或微调视频扩散模型。

当这些方法应用于训练域之外时,往往会导致次优运动生成。论文提出了MotionClone,这是一个无需训练的框架,可以从参考视频克隆运动来控制文本到视频的生成。

大量的实验表明,MotionClone在全局摄像机运动和局部物体运动中都表现得很熟练,在运动保真度、文本对齐和时间一致性方面具有显著的优势。

https://arxiv.org/abs/2406.05338

3、MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos

多模态语言语言模型(mllm)展示了“世界模型”的新兴能力——解释和推理复杂的现实世界动态。为了评估这些能力,论文假设视频是理想的媒介,因为它们包含了现实世界动态和因果关系的丰富表示。然后推出MMWorld,这是一个多学科、多面、多模态视频理解的新标杆。

MMWorld由一个人工注释的数据集和一个合成数据集组成,前者用于评估带有整个视频问题的mllm,后者用于分析单一感知模态下的mllm。MMWorld总共包含1,910个视频,跨越7个大学科和69个子学科,完成6,627对问答和相关字幕。

https://arxiv.org/abs/2406.08407

4、NaRCan: Natural Refined Canonical Image with Integration of Diffusion Prior to Video Editing

论文提出了一个视频编辑框架NaRCan,它集成了混合变形场和扩散,然后生成高质量的自然规范图像来表示输入视频。

利用单应性来建模全局运动,并使用多层感知器(mlp)来捕获局部残余变形,增强模型处理复杂视频动态的能力。

通过在训练的早期阶段之前引入扩散,模型可以确保生成的图像保持高质量的自然外观,使生成的规范图像适合视频编辑中的各种下游任务,这是当前基于规范的方法无法实现的功能。

另外还结合了低秩自适应(LoRA)微调,并引入了噪声和扩散先验更新调度技术,将训练过程加快了14倍。大量的实验结果表明,在各种视频编辑任务中优于现有的方法,并产生连贯和高质量的编辑视频序列。

https://arxiv.org/abs/2406.06523

5、TC-Bench: Benchmarking Temporal Compositionality in Text-to-Video and Image-to-Video Generation

论文提出了TC-Bench,这是一个精心制作的文本提示、相应的真实视频和稳健评估指标的基准。

提示明确了场景的初始和最终状态,有效地减少了框架开发的模糊性,并简化了转换完成的评估。

通过收集与提示相对应的对齐的真实世界视频,将TC-Bench的适用性从文本条件模型扩展到可以执行生成帧插值的图像条件模型。论文还开发了新的指标来衡量生成视频中组件转换的完整性,与现有指标相比,这些指标与人类判断的相关性明显更高。

https://arxiv.org/abs/2406.08656

https://avoid.overfit.cn/post/d279d7b4b6c14bbb91de0d8fd786ecd8

作者:Youssef Hosni

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/35496.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

合合信息智能文档抽取:赋能不良资产管理行业的数字化转型

官.网地址:合合TextIn - 合合信息旗下OCR云服务产品 随着数字化浪潮的汹涌澎湃,全球各行各业正经历着前所未有的变革。人工智能技术的快速发展,以其独特的创新能力和应用潜力,正在深刻地改变着业务模式,推动产业效率的…

把动漫幻想变为现实:一键生成真实图像,让你的动漫梦想成为现实!

大家好我是安琪!你能想到一个动漫图片可以转换成真实图像吗?其实,这就是所谓的漫改真人。有很多非常出名的动漫画或者动漫剧,改成由真人去饰演,就叫做漫改影视。 对于很多的动漫爱好者来说,如果一部漫改影…

css控制整个div下的所有元素中的文字放大缩小

css控制文字放大缩小 话不多说,直接上代码,我用了最简单粗暴的方法,找个下面所有的元素,然后遍历放大所有文字 add() {var div this.$refs[myDiv];var elements div.querySelectorAll("*");for (var i 0; i < elements.length; i) {var fontSize parseInt(win…

还不到6个月,GPTs黄了

相比起来&#xff0c;人们还不如使用一个足够强大、灵活且通用的AI助手来满足各类复杂需求。更严重的是一些独立GPTs显露出的安全隐患。除此之外&#xff0c;最大的问题在于OpenAI模糊不清的货币化政策。 文章正文 上周&#xff0c;不少人发现微软官网忽然更新了一条“GPT Bu…

深度解析拆分盘到底是怎样的运行逻辑!

一、引言 在数字经济的蓬勃发展中&#xff0c;拆分盘投资方式逐渐崭露头角&#xff0c;引起了广大投资者的关注。不同于传统的投资模式&#xff0c;拆分盘以其独特的拆分策略&#xff0c;为投资者提供了一种看似能够持续增值的新途径。本文将深入探讨拆分盘的基本原理、运作实…

BW:CP里添加信息对象小问题记录

之前做视图直接添加进CP里&#xff0c;以为不能直接往CP里加信息对象&#xff0c;还专门建了一个带信息对象的模型&#xff0c;把信息对象拖到CP里&#xff0c;然后再链接视图的字段 今天发现原来不用这样&#xff0c;直接加就可以&#xff0c;小记一下 如图直接诶创建&#x…

Linux驱动开发-02字符设备驱动开发初步

一、驱动开发的前期准备 在进入驱动开发之前&#xff0c;需要烧写UBoot、内核、设备树&#xff0c;做一些前期的准备工作&#xff0c;确保我们开发板上的内核版本和Ubuntu上是一致的才能进行正式开发 1.U-Boot 2.内核版本 3.使用TFTP挂载的内核和设备树 二、Linux驱动开发与裸机…

记一次elementui时间线的实现

实现效果 点击展开&#xff0c;每次累加五条数据进行展示 实现思路 起始本质上就是一个分页查询&#xff0c;只不过按新的形式展示&#xff0c;然后也不统计总数&#xff0c;每次只展示固定的5条数据点击加载更多&#xff0c;就展示下一页&#xff0c;页的页数进行1&#xff…

ONLYOFFICE 文档 8.1 发布:重塑文档处理

官网链接&#xff1a;ONLYOFFICE官网 一、PDF编辑器功能强大&#xff1a;创造跟随想象 在追求无界办公与高效创作的今天&#xff0c;ONLYOFFICE再次引领风潮&#xff0c;正式发布了其桌面编辑器的最新版本——ONLYOFFICE桌面编辑器8.1。这一版本不仅巩固了其作为顶级办公套件…

python3使用ast.parse详解

使用ast库分析python3脚本, 并对脚本进行一些处理, 比如注释pirnt语句 一.基础知识 官方网址连接 ast — Abstract Syntax Trees ast库可以方便的分析python代码结构, 并做一些处理, 很适合对大量脚本文件做批量处理, 比如把print语句全部注释等. 直观的打印出代码结构 impo…

简述Java项目中VO,BO,PO,DO,DTO之类的文件概念、易混点

VO&#xff0c;BO&#xff0c;PO&#xff0c;DO&#xff0c;DTO 概念易混点一&#xff1a;VO和DTO- 让我们通过一个实例来阐释DTO和VO的概念及其应用差异&#xff1a;小结&#xff1a;VO专注于展示&#xff0c;而DTO则用于数据的传输和业务逻辑的处理。 二&#xff1a;BO和PO小…

公益培训|半导体与集成电路项目制培训项目

关于我们 硬蛋产业学院&#xff0c;基于硬蛋创新(http://00400.HK)在芯片产业的资源和技术优势&#xff0c;引进全球领先的芯片应用技术&#xff0c;为国内培养芯片应用技术人才&#xff0c;助力芯片应用产业发展。 硬蛋产业学院在国家各主管部门、广东省、深圳市及社会各界的大…

AI 激发算力需求暴增,施耐德电气解码智算中心发展

随着全球碳达峰目标的持续推进&#xff0c;各行各业都在加速绿色转型的步伐&#xff0c;尤其是高耗能产业更是备受关注。人工智能行业以其迅猛的发展速度令人瞩目&#xff0c;它所带来的不仅是算力需求的飙升&#xff0c;更是日益凸显的能耗问题。 目前&#xff0c;人工智能预…

AVI 是什么格式,AVI 格式用什么播放器打开?

AVI 是什么格式&#xff1f;提到 AVI 格式想必大家多数会想到在 DVD 横行的年代&#xff0c;光盘中所包含的媒体视频格式多是以 AVI 格式存储。AVI 是一个非常通用的容器格式&#xff0c;支持多种视频和音频编解码器。这意味着从DVD中提取视频内容时&#xff0c;可以通过转码为…

发电机保护屏产品介绍,组成

发电机保护屏产品介绍&#xff0c;组成 发电机保护屏是用于保护发电机组的电气装置。它根据发电机的类型和实际运行要求&#xff0c;将多种保护装置组合在一起&#xff0c;形成一个保护屏柜。发电机保护测控屏是指把发电机类保护装置集中在安装在一个控制柜里&#xff0c;主要用…

Java程序递归及mybatis递归查询

之前项目组有个需求&#xff0c;定时同步机构的信息。已知三方接口由于返回数据量很大&#xff0c;所以最后需要三方提供一个可根据机构编号获取当前机构及子机构信息的接口。而不是一次性返回全部机构信息&#xff01; 由于这次需求也用到了递归&#xff0c;所以记录下&#…

Python自动化操作:简单、有趣、高效!解放你的工作流程!

今天跟大家分享一套自动化操作流程解决方案&#xff0c;基于Python语言&#xff0c;涉及pyautogui、pyperclip、pythoncom、win32com依赖包。安装命令为&#xff1a; pip install pyautoguipip install pyperclippip install pythoncompip install win32compyautogui 是一个自…

病理性不对称引导的渐进学习用于急性缺血性脑卒中梗死分割| 文献速递-先进深度学习疾病诊断

Title 题目 Pathological Asymmetry-Guided Progressive Learning for Acute Ischemic Stroke Infarct Segmentation 病理性不对称引导的渐进学习用于急性缺血性脑卒中梗死分割 01 文献速递介绍 中风已经成为第二大致命疾病&#xff0c;大约70%的中风是缺血性的。众所周知…

如何提高网页加载速度?

如何以闪电般的速度加载网站&#xff1f; 看看这 8 个提升前端性能的技巧&#xff1a; 01 压缩 在传输之前压缩文件可以减少其大小&#xff0c;减少需要传输的数据量&#xff0c;从而加快加载时间。 实现方法&#xff1a; Gzip/Brotli 压缩: 配置你的 web 服务器&#xff08…

[Linux] 历史根源

UNIX系统&#xff1a; 1969年&#xff0c;由贝尔实验室的K.Thompson和D.M.Ritchie为PDP-7机器编写的一个分时操作系统&#xff0c; 最初使用汇编语言编写&#xff0c; 后来1972年C语言出世以后&#xff0c;二人由使用C写了UNIX3&#xff0c; 此后UNIX大为流行开来 UNIX流派树&a…