阿里数字人工作 Emote Portrait Alive (EMO):基于 Diffusion 直接生成视频的数字人方案

TL;DR

  • 2024 年 ECCV 阿里智能计算研究所的数字人工作,基于 diffusion 方法来直接的从音频到视频合成数字人,避免了中间的三维模型或面部 landmark 的需求,效果很好。

Paper name
EMO: Emote Portrait Alive - Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions

Paper Reading Note

Paper URL: https://arxiv.org/abs/2402.17485

Project URL: https://humanaigc.github.io/emote-portrait-alive/

Code URL: https://github.com/HumanAIGC/EMO (暂未开源,空代码库)


Introduction

背景

  • 将音频转换为头部动画(如面部表情或头部运动)具有挑战性,因为存在模糊且一对多的映射关系
    • 大多数关于说话人脸的研究将过程分为头部运动和面部表情两个组成部分,比如 VividTalk。
      • 对于头部运动,一些说话人脸技术在这一方面表现不佳,通常会借助现有视频中的预定义姿势序列(比如 Diff2Lip 等)或使用独立的网络分别处理头部姿势和面部表情(比如 VividTalk)。
      • 在面部表情方面,一些方法选择使用显式的中间信号,如三维人脸模型或二维面部标记来引导生成 (比如 SadTalker、VividTalk 等)。虽然这些方法增强了特定方面(如唇部同步)的保真度,但往往限制了生成内容的整体表现力和自然度。例如,言语情感语气所关联的微妙手势或细微表情通常难以准确转换,导致生成结果缺乏生动性。
    • 因此,为了创建高度表现力的说话人脸视频,至关重要的是摆脱强先验信息的约束,充分利用模型的生成潜力。
  • 本文通过关注音频线索与面部运动之间动态且细微的关系,解决了提升人脸视频生成的真实感和表现力的挑战。

本文方案

  • 提出了一种新颖的框架 EMO (Emote Portrait Alive),通过直接的音频到视频合成方法,避免了中间的三维模型或面部 landmark 的需求
    • EMO 利用扩散模型的生成能力直接捕捉复杂的音视频关联,通过整合时间模块和三维卷积来扩展 SD 用于视频
    • 为了学习音频和视频之间的关联,我们引入了一个音频特征提取器,并采用注意力模块将音频特征调制到主干网络中
    • 为了在不损失表现力的情况下确保稳定性,我们引入了如人脸定位器和速度层等新机制,用于作为弱条件指导目标人脸的大致区域和运动的大致速度水平
    • 引入了 Reference Net 确保整个视频中面部身份一致性
    • 实现了运动帧模块以保持相邻视频片段之间的连续性,从而实现无缝的无限视频生成
    • 构建了一个庞大且多样化的音视频数据集,收集了超过 250 小时的素材。该丰富的数据集涵盖了演讲、影视片段和歌唱表演等多种内容,并包括中文和英语等多种语言
    • 引入的一个新指标 E-FID(Expression-FID),该指标旨在评估生成视频的表现力
      在这里插入图片描述

Methods

  • 给定一个角色肖像的单一参考图像,我们的方法可以生成与输入语音音频剪辑同步的视频,同时保留自然的头部动作和生动的表情,配合提供的语音音调变化。

3.1 预备知识

本文方法采用 Stable Diffusion (SD) 作为基础框架。SD 是一种广泛应用的文本到图像(T2I)模型,由 Latent Diffusion Model (LDM) 演化而来。它使用一种 变分自编码器(VAE),将原始图像特征分布 x 0 x_0 x0 映射到潜在空间 z 0 z_0 z0,通过公式 z 0 = E ( x 0 ) z_0 = E(x_0) z0=E(x0) 进行编码,并将潜在特征还原为 x 0 = D ( z 0 ) x_0 = D(z_0) x0=D(z0)。这种架构具有降低计算成本同时保持高视觉保真的优势。

基于 去噪扩散概率模型(DDPM)去噪扩散隐式模型(DDIM),SD 向潜在变量 z 0 z_0 z0 添加高斯噪声 ϵ \epsilon ϵ,以生成某时间步 t t t 的噪声潜在变量 z t z_t zt。在推理过程中,SD 旨在从 z t z_t zt 中移除噪声 ϵ \epsilon ϵ,并通过结合文本特征实现期望的输出。其去噪过程的训练目标公式为:

L = E t , c , z t , ϵ [ ∣ ∣ ϵ − ϵ θ ( z t , t , c ) ∣ ∣ 2 ] L = \mathbb{E}_{t,c,z_t,\epsilon}[||\epsilon − \epsilon_\theta (z_t, t, c)||^2] L=Et,c,zt,ϵ[∣∣ϵϵθ(zt,t,c)2]

其中 c c c 代表从 CLIP ViT-L/14 文本编码器中获取的文本特征。SD 中的 ϵ θ \epsilon_\theta ϵθ 是通过改进的 UNet 模型实现的,该模型利用交叉注意力机制将 c c c 融合到潜在特征中。

3.2 网络架构

在这里插入图片描述

本文方法概览如图 2 所示。骨干网络(Backbone Network) 输入多帧噪声潜在变量,并尝试在每个时间步将它们去噪为连续视频帧。骨干网络的 UNet 结构与 SD 1.5 类似,具有以下特点:

  1. 嵌入时序模块:确保生成帧之间的连续性。
  2. ID一致性维护:部署与骨干网络并行的 UNet 结构 ReferenceNet,通过输入参考图像提取特征。
  3. 语音驱动动作:利用音频层对语音特征进行编码。
  4. 可控和稳定的动作生成:通过脸部定位器和速度层提供弱控制条件。
骨干网络

在本文工作中,不使用提示嵌入 (prompt embedding);因此,我们将 SD 1.5 UNet 结构中的交叉注意力层改为参考注意力层 (reference-attention)。这些修改的层现在以 ReferenceNet 提供的参考特征作为输入,而不是文本嵌入。

音频层

语音的发音和语调是驱动角色生成的主要信号。通过预训练的 wav2vec 从输入音频序列提取的特征 concat 起来,行程第 f f f 帧的音频表示嵌入 A ( f ) A(f) A(f)。考虑到嘴巴的动作可能受到前后语音片段的影响(例如说话前张嘴和吸气),我们通过连接相邻帧的特征来定义每个生成帧的语言特征:

A ( f ) = ⨁ { A ( f − m ) , . . . , A ( f ) , . . . , A ( f + m ) } A(f) = \bigoplus \{A(f − m), ..., A(f), ..., A(f + m)\} A(f)={A(fm),...,A(f),...,A(f+m)}

其中 m m m 是每侧额外特征帧的数量。在骨干网络中,每个参考注意力层后添加音频注意力层,通过跨注意力机制将语音特征 A A A 注入潜在变量中。

ReferenceNet

ReferenceNet 的结构与骨干网络相同,用于从输入图像中提取特征。参考研究 Animate Anyone、TryOnDiffusion 强调了采用类似结构在保持目标对象身份一致性方面的重要作用。ReferenceNet 和骨干网络继承了原始 SD UNet 的权重。参考图像被输入 ReferenceNet 提取参考特征图,这些特征在骨干网络的去噪过程中与对应层的输入通过参考注意力层进行融合。

时序模块

基于 AnimateDiff 的架构概念,将自注意力时间层应用于帧内特征中。具体而言,输入特征图 x ∈ R b × c × f × h × w x \in \mathbb{R}^{b \times c \times f \times h \times w} xRb×c×f×h×w 被重新配置为形状 ( b × h × w ) × f × c (b \times h \times w) \times f \times c (b×h×w)×f×c,其中 b b b 表示批量大小, h h h w w w 表示特征图的空间维度, f f f 表示生成帧的数量, c c c 是特征维度。自注意力操作针对时间维度 f f f,以有效捕捉视频的动态内容。时间层被插入到骨干网络的每个分辨率层级中。

多片段连续性:引入了前一段生成视频中的最后 n n n 帧,称为“运动帧”,以增强跨片段的一致性。这些“运动帧”被输入ReferenceNet以预提取多分辨率运动特征图。在骨干网络的降噪过程中,时间层的输入与匹配分辨率的预提取运动特征沿时间帧维度进行融合。此简单方法有效地确保了不同片段之间的连贯性。对于第一个视频片段的生成,运动帧初始化为零图。需要注意的是,尽管骨干网络可能会多次迭代降噪处理,但目标图像和运动帧仅被一次性输入到 ReferenceNet 中,因此提取的特征在整个过程中重复使用,确保推理时不会显著增加计算时间。

面部定位器与速度层

时间模块能够保证生成帧的连续性以及视频片段之间的无缝过渡,但由于独立生成的特性,它无法确保生成角色在不同片段中的运动一致性与稳定性。先前的研究通过某些信号来控制角色运动,例如 skeleton、blendshape 或 3DMM,然而,使用这些控制信号可能无法很好地生成生动的面部表情和动作,原因在于其自由度有限且训练阶段的标签不足以捕捉完整的面部动态。此外,相同的控制信号可能在不同角色之间产生差异,无法体现个体的细微差别。生成控制信号可能是一个可行的途径,但生成逼真的运动仍然是一大挑战。因此,本文选择了一种“弱”控制信号的方法。

具体而言,如图 2 所示,本文使用一个掩码 M = ⋃ i = 1 f M i M = \bigcup_{i=1}^f M_i M=i=1fMi 表示面部区域,该区域包括视频片段中的面部边界框 (bbox) 区域。本文引入了面部定位器,其由轻量级卷积层组成,用于编码边界框掩码。编码后的掩码被添加到噪声潜表示中,然后输入到骨干网络中。掩码可用于控制角色面部的位置生成。然而,由于不同片段的头部运动频率变化,在片段间生成一致且平滑的运动仍具有挑战性。

为了解决此问题,本文在生成中加入目标头部运动速度。更具体地,考虑帧 f f f 中的头部旋转速度 w f w_f wf,将速度范围划分为 d d d 个离散速度桶,每个桶代表一个不同的速度级别。每个桶有一个中心值 c i ∈ { c 1 , . . . , c d } c_i \in \{c_1, ..., c_d\} ci{c1,...,cd} 和一个半径 r i ∈ { r 1 , . . . , r d } r_i \in \{r_1, ..., r_d\} ri{r1,...,rd}。将 w f w_f wf 重新定向为向量 s ∈ R d s \in \mathbb{R}^d sRd,其中第 i i i 个值记为 s i = tanh ⁡ ( ( w f − c i ) / r i ⋅ 3 ) s_i = \tanh((w_f - c_i)/r_i \cdot 3) si=tanh((wfci)/ri3)。类似于音频层中使用的方法,每帧的头部旋转速度嵌入表示为 S f = ⨁ { s ( f − m ) , . . . , s ( f ) , . . . , s ( f + m ) } S_f = \bigoplus \{s(f - m), ..., s(f), ..., s(f + m)\} Sf={s(fm),...,s(f),...,s(f+m)}。每个片段的速度嵌入表示为 S ∈ R b × f × ( 2 m + 1 ) d S \in \mathbb{R}^{b \times f \times (2m+1)d} SRb×f×(2m+1)d,然后通过一个多层感知器 (MLP) 处理为速度特征图 F ∈ R b × f × l F \in \mathbb{R}^{b \times f \times l} FRb×f×l。在时间层中,将 F F F 重复至形状 ( b × h × w ) × f × l (b \times h \times w) \times f \times l (b×h×w)×f×l,并实现一种跨注意力机制,该机制在速度特征和重塑后的特征图之间的时间维度 f f f 上运行。通过这种方式并指定目标速度,可以在不同片段中同步生成角色头部的旋转速度和频率。结合面部定位器提供的面部位置控制,生成的结果既稳定又可控。

需要注意的是,指定的面部区域和分配的速度并不构成强控制条件。在面部定位器的上下文中,由于 M M M 是整个视频片段的联合区域,表示角色面部运动可以在较大的范围内进行,从而确保头部不会被限制为静态姿态。对于速度层,由于数据集标注阶段难以准确估计人类头部旋转速度,预测的速度序列本质上是有噪声的。因此,生成的头部运动只能近似指定的速度级别。这一限制推动了本文速度桶框架的设计。

训练策略

训练过程分为三个阶段:

  1. 图像预训练阶段
    在此阶段,骨干网络(Backbone Network)、参考网络(ReferenceNet)和脸部定位器(Face Locator)参与训练。骨干网络以单帧图像作为输入,而 ReferenceNet 处理来自同一视频片段的另一随机帧。骨干网络和 ReferenceNet 的权重初始化来源于原始 SD。

  2. 视频训练阶段
    在此阶段,加入了时序模块和音频层。视频片段中采样出 n + f n + f n+f 个连续帧,其中起始的 n n n 帧为运动帧(motion frames)。时序模块的权重初始化自 AnimateDiff。

  3. 速度层训练阶段
    在这一阶段,仅训练时序模块和速度层,有意跳过音频层的训练。这是因为角色的表情、嘴部动作以及头部动作的频率主要受音频影响。这些元素之间存在一定的相关性,模型可能会倾向于根据速度信号而非音频来驱动角色动作。实验结果表明,同时训练速度和音频层会削弱音频对角色动作的驱动能力。

Experiments

实现细节

我们从互联网收集了约 250 小时的说话人头像视频,结合 HDTF 和 VFHQ 数据集进行模型训练。由于 VFHQ 数据集中缺乏音频,仅在第一阶段使用。我们使用 MediaPipe 获取脸部边界框(bbox)。通过 face landmark 提取每帧的 6 自由度头部姿态并计算帧间的旋转角度,标记头部旋转速度。

视频剪辑被调整为 512×512 的分辨率并裁剪。在第一阶段,分别从视频片段中采样参考图像和目标帧,训练骨干网络和 ReferenceNet,批量大小为 48。在第二和第三阶段,生成视频的长度 f f f 设为 12 帧,运动帧数量 n n n 设为 4,批量大小为 4。额外特征数量 m m m 设为 2。所有阶段的学习率均为 1e-5

在推理过程中,我们使用 DDIM 的采样算法,生成视频片段需要 40 步,并为每帧分配一个恒定的速度值。方法的计算时间约为 15 秒 处理一批( f = 12 f = 12 f=12 帧)。

数据预处理流程
  • 标注包括以下步骤:
    • 基于扩展的脸部边界框对视频进行裁剪,并将每个视频片段转换为 30 FPS。
    • 使用 MediaPipe 确定所有帧中的脸部边界框,从而划定面部区域。
    • 使用预训练的 Wav2Vec 模型提取音频嵌入。
    • 确定角色的 6 自由度(6-DoF)头部姿态,以计算逐帧的旋转速度。
实验设置

为进行方法比较,我们将 HDTF 数据集划分为 90% 的训练集和 10% 的测试集,确保两者之间没有角色 ID 的重叠。此外,为了在更多变的场景中评估方法,我们从收集的互联网视频数据集中提取了 1000 个视频片段,每段约 4 秒长。这些片段主要展示了丰富的表情视频,其中包括大量唱歌场景。与 HDTF 数据集相比,这些视频在面部表情和头部动作范围上具有更广泛的多样性。

我们将方法与以下一些工作进行了比较:Wav2LipSadTalkerDreamTalkMakeItTalk。此外,使用 Diffused Heads 的公开代码生成了结果,但由于其模型在仅包含绿色背景的 CREMA 数据集上训练,生成结果表现不佳,并且生成帧中存在累积误差。因此,我们仅与 Diffused Heads 方法进行定性比较。对于 DreamTalk,我们使用原作者规定的说话风格参数。

为了证明我们方法的优越性,我们使用以下评估指标:

  • Fréchet Inception Distance (FID):用于评估生成帧的质量。
  • 面部相似度 (F-SIM):通过提取和比较生成帧与参考图像的面部特征,评估结果的身份保留情况。注意,单一参考图像可能导致 F-SIM 得分过高(例如某些方法仅生成嘴部区域,其他部分与参考图像相同)。因此,我们将 F-SIM 视为基于总体的参考指标,更接近相应的真实值(GT)表示性能更好。
  • Fréchet Video Distance (FVD):用于视频级别的评估。
  • SyncNet 得分:评估唇部同步质量,这是说话人头像应用中的关键方面。
  • Expression-FID (E-FID):用于评估生成视频中面部表情的表现力。具体而言,使用面部重建技术提取表情参数,计算这些表情参数的 FID,量化生成视频与真实数据集之间的表情差异。

定性评估

  • 与早期方法对比
    • Wav2Lip 在仅使用单一参考图像作为输入时,通常会生成模糊的嘴部区域,并且视频表现为静态头部姿态和极少的眼睛运动。
    • DreamTalk 使用的样式剪辑可能会扭曲原始面孔,同时限制面部表情和头部动作的动态性
    • 与 SadTalker 和 DreamTalk 相比,本文方法能够生成更大范围的头部运动和更动态的面部表情
      在这里插入图片描述
  • 跨风格头像生成
    • 参考图像来自 Civitai,由不同的文本到图像(T2I)模型生成,包括真实风格、动漫风格和 3D 风格。相同的语音音频输入被用于为这些角色生成动画,在不同风格中达到了大致一致的唇部同步效果。
      在这里插入图片描述
  • 丰富的面部表情与动作
    • 具有显著音调特征的音频时能够生成更丰富的面部表情和动作。例如,第三行的例子表明,高音调的语音会引发角色更为强烈和生动的表情。此外,利用运动帧可以扩展生成视频的时长,我们能够根据输入音频的长度生成更长的视频。如图 5 和图 6 所示,我们的方法在大幅运动的情况下仍能保持角色身份的一致性。
      在这里插入图片描述
      在这里插入图片描述

定量评估

  • 图 3 展示了互联网数据集中包含更广泛的面部表情和更大的头部运动范围,同时伴随参考角色的多样姿态。这种多样性可能对性能指标产生负面影响,如表 1 所示。但本文结果在视频质量评估中具有显著优势,表现为较低的 FVD 得分。此外,本文方法在单帧质量上也优于其他方法,表现在改进的 FID 得分上。尽管 Wav2Lip 由于使用 SyncNet 作为判别器在 SyncNet 信心分数上表现最佳,但本文方法在生成生动面部表情方面表现卓越,体现于 E-FID 分数上。进一步分析显示,即使在不使用 250 小时数据集的情况下,本文的模型在 FVD 和 E-FID 等指标上仍表现出色。额外数据有助于增强视频内容的动态性和生成更丰富的表情。
    在这里插入图片描述

消融实验

速度层的影响

速度层旨在确保连续生成的视频片段之间头部运动频率的一致性。在推理过程中,为每帧分配一个恒定的速度值。实验表明,速度层显著提高了头部运动的稳定性,与未使用速度层的基线相比,“速度方差”和“平均速度方差”均显著降低。语音驱动的场景速度分配为 0.1-1.0,而唱歌场景速度更高(1.0-1.3),以适应更快的头部动作。超过 1.5 的速度可能导致动作过快和抖动。

  • “无速度”(No Speed)表示未使用速度层的模型结果。
  • “速度方差”(Velocity Variance)反映了单个视频序列内旋转速度的一致性。
  • “平均速度方差”(VMV)测量不同片段之间头部旋转速度均值的变化。
    在这里插入图片描述
面部定位器的控制效果

面部定位器将脸部区域作为输入,并定义面部动作的许可范围,从而影响头部运动的范围。图 7 显示(白色是指定的人脸框,紫色是生成视频中检测的人脸框),当输入适当大小的脸部区域时,角色仅表现出最小的头部运动;而输入更广的区域时,允许角色在说话过程中有更大范围的头部摆动,输入增加高度的区域则促进点头动作。
在这里插入图片描述

此外,输入均匀的白色掩膜未提供具体指导,允许在任意位置生成面部。紫色边框可能超出预定的白色面部区域,表明面部定位器仅对头部动作施加弱约束,允许超越其边界的运动。

Conclusion

  • EMO 摒弃了传统的中间信号依赖,基于 diffusion 方案实现音频到视频的驱动。官网展示的实验效果很惊艳。
  • 代码未开源,空 repo 也能获得 7k+ star,很强
  • 补充材料中说不使用 Voxceleb 数据集是因为该数据集以面部中心为焦点,导致摄像机运动不稳定。另外 250h 的自建数据集主要增强了面部表情的丰富性和视频内容的动态性。所以数据集的选择和构建还是有讲究的。
  • 目前模型的局限性
    • 暂时不支持文本、情感设定来做一些显示的控制,音频音调控制可能不一定符合用户期望
    • 手部和身体动作很少,因为数据集以头部区域为主,包含手部的帧仅占 3%
    • 实时性能暂时无法保证,而实时性是数字人大规模应用很重要的依赖。EMO 在 A100 GPU 上运行 40 次去噪步骤时,每 12 帧(一个片段)耗时约 18 秒。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/60561.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

candence: 如何快速设置SUBCLASS 的颜色

如何快速设置SUBCLASS 的颜色 一、一般操作 正常情况下修改SUBCLASS,需要如下步骤进行设置: 二、快速操作 右键,选择一个颜色即可

多目标优化算法:多目标海星优化算法(MOSFOA)求解ZDT1、ZDT2、ZDT3、ZDT4、ZDT6,提供完整MATLAB代码

一、海星优化算法 海星优化算法(Starfish Optimization Algorithm ,SFOA)是2024年提出的一种元启发式算法,该算法模拟了海星的行为,包括探索、捕食和再生。 算法灵感: SFOA的灵感来源于海星的捕食行为&…

实时质检-静音检测分析流程(运维人员使用)

前言 用户在实时质检时,开启了主叫或被叫静音检测功能,但是听录音时,主叫或被叫明明没有任何声音,但是通话没有被挂断。 说明主叫或被叫的静音阈值太低,导致系统没有把很小的声音认定为静音;或者检测非静音…

了解Redis(第一篇)

目录 Redis基础 什么事Redis Redis为什么这么快 除了 Redis,你还知道其他分布式缓存方案吗? 说-下 Redis 和 Memcached 的区别和共同点 为什么要用Redis? 什么是 Redis Module?有什么用? Redis基础 什么事Redis Redis (REmote DIctionary S…

D77【 python 接口自动化学习】- python基础之HTTP

day77 postman接口请求 学习日期:20241123 学习目标:http 定义及实战﹣﹣postman接口请求 学习笔记: get请求 post请求 总结 get请求用于查询数据post请求用于添加数据

Element-Ui组件(icon组件)

一、前言 本篇文章主要是对官网的Icon组件进行总结归纳Icon 图标 | Element Plus 在现代Web应用开发中,图标是用户界面设计中不可或缺的一部分。它们不仅提升了用户体验,还使得信息的传达更加直观和高效。本文主要对Element Plus 官方提供的Icon组件进行…

SpringMVC——简介及入门

SpringMVC简介 看到SpringMVC这个名字,我们会发现其中包含Spring,那么SpringMVC和Spring之间有怎样的关系呢? SpringMVC隶属于Spring,是Spring技术中的一部分。 那么SpringMVC是用来做什么的呢? 回想web阶段&#x…

应急响应靶机——linux2

载入虚拟机,打开虚拟机: 居然是没有图形化界面的那种linux,账户密码:root/Inch957821.(注意是大写的i还有英文字符的.) 查看虚拟机IP,192.168.230.10是NAT模式下自动分配的 看起来不是特别舒服&…

《Python 股票交易分析:开启智能投资新时代》(二)

Python 进行股票交易分析的优势 简洁易读:Python 的语法简洁明了,即使是编程新手也能较快上手,降低了股票交易分析的门槛。 Python 的简洁易读是其在股票交易分析中受欢迎的重要原因之一。Python 的语法简洁明了,与其他编程语言相…

ECharts柱状图-带圆角的堆积柱状图,附视频讲解与代码下载

引言: 在数据可视化的世界里,ECharts凭借其丰富的图表类型和强大的配置能力,成为了众多开发者的首选。今天,我将带大家一起实现一个柱状图图表,通过该图表我们可以直观地展示和分析数据。此外,我还将提供…

【刷题21】BFS解决FloodFill算法专题

目录 一、图像渲染二、岛屿数量三、岛屿的最大面积四、被环绕的区域 一、图像渲染 题目: 思路: 如果起始位置的颜色(数值)与color相同,直接返回该数组上下左右一层一层的找与当前位置颜色相同的,并且该位置不越界,然…

【大数据技术基础】 课程 第8章 数据仓库Hive的安装和使用 大数据基础编程、实验和案例教程(第2版)

第8章 数据仓库Hive的安装和使用 8.1 Hive的安装 8.1.1 下载安装文件 访问Hive官网(http://www.apache.org/dyn/closer.cgi/hive/)下载安装文件apache-hive-3.1.2-bin.tar.gz 下载完安装文件以后,需要对文件进行解压。按照Linux系统使用的…

C++设计模式行为模式———中介者模式

文章目录 一、引言二、中介者模式三、总结 一、引言 中介者模式是一种行为设计模式, 能让你减少对象之间混乱无序的依赖关系。 该模式会限制对象之间的直接交互, 迫使它们通过一个中介者对象进行合作。 中介者模式可以减少对象之间混乱无序的依赖关系&…

泥石流灾害风险评估与模拟丨AI与R语言、ArcGIS、HECRAS融合,提升泥石流灾害风险预测的精度和准确性

目录 第一章 理论基础 第二章 泥石流风险评估工具 第三章 数据准备与因子提取 第四章 泥石流灾害评价 第五章 HECRAS软件的应用 第六章 操作注意事项与模型优化 泥石流灾害的频发与严重后果,已成为全球范围内防灾减灾工作的重大挑战。随着科技的不断进步&…

HarmonyOS:使用ArkWeb构建页面

一、简介 页面加载是Web组件的基本功能。根据页面加载数据来源可以分为三种常用场景,包括加载网络页面、加载本地页面、加载HTML格式的富文本数据。 页面加载过程中,若涉及网络资源获取,需要配置ohos.permission.INTERNET网络访问权限。 二、…

MATLAB的语音信号采集与处理分析

1、基本描述 本文描述的系统是一个全面而精细的语音信号处理平台,核心组件由MATLAB的高级功能模块构建而成。系统的核心交互界面,借助于MATLAB的uifigure函数搭建,为用户提供了一个直观且响应迅速的操作环境。通过设计的GUI按钮,如…

opencv undefined reference to `cv::noarray()‘ 。window系统配置opencv,找到opencv库,但连接不了

之前都是在ubuntu里用opencv,今天为了方便在平时用Window10系统也用下c版的cv,就想配置一下vscode的cv环境,直接下载了一个编译好的opencv库(带build文件夹的),刚开始用的是visual studio的编译器&#xff…

经典游戏:飞机大战游戏python设计与实现

《飞机大战》是一款经典的二维飞行射击游戏,其核心玩法是控制玩家飞机与敌机作战,通过击落敌机获取分数并尽量避免被敌机击中。根据提供的代码,飞机大战的设计和实现可以分为以下几个主要部分:游戏初始化、游戏界面设计、玩家控制…

填补覆盖空白,小型机器人让智能清洁再“净”一步!

尽管不同商用场景的大多区域都十分相似,但非标准化的场景属性无法避免的导致了不少corner case。面对狭窄场景,“强悍”的商用清洁机器人迎来了自己的“职业危机”。 随着城市化进程的推进和服务业比重提升,商场、写字楼等细分场景不断扩容&a…

【linux学习指南】VSCode部署Ubantu云服务器,与Xshell进行本地通信文件编写

文章目录 📝前言🌠 步骤🌉测试同步 🚩总结 📝前言 本文目的是讲使用Vscode连接Ubantu,与本地Xshell建立通信同步文件编写。 查看本机系统相关信息: cat /etc/lsb*DISTRIB_IDUbuntu: 表示这是 Ubuntu 发行…