3D数字人视频合成用户指南

数字人开放平台3D互动数字人如何接入_虚拟数字人(DVH)-阿里云帮助中心3D互动数字人（对应开放平台的“智能客服”场景）是虚拟数字人开放平台提供能够支持用户与3D数字人进行实时语音交互的数字人产品能力，需要配合智能对话机器人产品使用。本篇文档将介绍如何接入3D互动数字人。https://help.aliyun.com/zh/avatar/avatar/developer-reference/integrate-3d-interactive-dvh

1 进入视频合成页面

进入数字人开放平台控制台，点击视频合成-新建视频，选择3D形象进入视频合成页面。

2 视频设置

2.1 数字人

点击数字人，可在此重新选择数字人形象。

鼠标悬浮在某一形象上方，显示【形象配置】按钮，此时点击将前往资产中心-3D数字人资产，可在此页面对数字人形象进行配置，如发型、妆容、服装、声音等。

2.2 声音

点击声音，可选择数字人播报的音色并调整音色对应的音量、语速和音调，目前平台提供四个类别的音色：男声、女声、童声以及方言；多情感音色支持在文本编辑器中针对文本进行情绪化的编辑，详见3.1节语音编辑；带星号的音色为使用频率较高的音色。

2.3 背景图

点击背景图，可选择平台内置的背景，包括透明背景；同时可上传自定义背景，上传时请注意背景图大小要求。

2.4 字幕

点击字幕，根据需要打开或者关闭字幕开关，可调整字幕样式，如字体、字号、字体颜色、描边颜色。

2.5 尺寸

在预览画面上方，可选择尺寸，目前平台支持两种尺寸：16:9、9:16。

2.6 调整数字人在画面中的大小以及位置

在左侧的预览画面中，通过鼠标拖拽数字人，可移动数字人，调整其在画面中位置；另外平台提供了远景、近景和特写三种景别以及正面、左侧30°和右侧30°三种机位，用户可在预览画面中看到相应的效果并选择适合的组合。

3 播报内容输入

3.1 文本输入

选择文本输入，您可在文本框中输入希望数字人播报的文本来制作视频。

3.1.1 语音合成的编辑功能

文本输入框集成了语音合成的编辑器功能，可在该编辑器中对语音合成进行人工的调整，例如标注多音字、标注文本读法、标注数值读法等，详见下表。
同时文本输入框集成了情绪化音色的编辑能力，可在编辑器中选中某段文本并选择需要的情绪，详见下表。注意：该功能需要在声音设置中选择多情感音色。

功能	子功能	备注	操作方法
多音	/	/	弹出浮层高亮多音字，逐一标注
文本	人名	姓氏自动匹配、连续	划选文字后选择读法
	地址	示例：2单元301读作二单元三零幺
	标点符号	读标点本身发音
	ID	读字母和数值
	日期	示例：2019/10/21读作二零一九年十月二十一日
	时间	示例：01:13:43读作一点十三分四十三秒
	计量单位	示例：mm读作毫秒（在阿里云语音合成服务中会将mm读作毫秒）
数值	读数值	示例：123读作一百二十三	划选数字文本后选择读法
	读数字	示例：123读作一二三
	读手机号	示例：13900001111 读作幺三九<停顿0.5s>零零零零<停顿0.5s>幺幺幺幺
英文	读字母	每个字母分开发音	划选英文文本后选择读法
连续	/	选中的文本连续发音	划选需要调整的文本
停顿	0.5s	停顿0.5s	在光标位置插入停顿
	1s	停顿1s
	2s	停顿2s
情绪	生气	/	划选文字后选择情绪，默认为自然情绪
	害怕
	开心
	厌恶
	悲伤
	惊讶
插入日期	/	/	在光标位置插入当前日期
插入时间	/	/	在光标位置插入当前时间
试听	/	/	划选需要试听的文本进行试听（需完成声音设置）

3.1.2 动作编辑

文本输入框也集成了动作编辑的功能，可在文本中插入数字人动作。目前支持两种形式的插入：（1）自定义动作，用户可以选择该数字人的动作进行自主插入。在自定义动作时，也可以点击"推荐插入"，此时系统将会自动将推荐的动作插入文本中，用户可以在此基础上再次对动作进行修改；（2）智能动作，点击后不会在编辑器中显示动作标签，算法将会根据语义，在合成过程中匹配合适的动作。

3.2 音频输入

选择音频输入，您可上传本地的音频文件，为保证效果，请上传在安静环境下录制的播报人声。此时生成视频中的声音即为上传的音频。

4 生成视频

4.1 生成视频

点击生成视频，将根据输入的文本生成数字人播报的视频；视频生成时间根据输入的文本长度而定。生成好的视频会在视频管理中展示，可在该页面下进行视频的下载；平台支持生成MOV和MP4格式的视频，其中选择透明背景，生成的MOV视频可以直接在第三方剪辑软件中二次加工；而选择MP4格式将同时导出两个视频，一个为带黑灰色背景的视频，另一个为alpha通道视频，可在专业剪辑软件中通过遮罩功能去除原视频中的背景以获得透明背景的效果。需要注意的是，不管背景是否透明，选择生成MOV格式将会需要较长的渲染时间，且生成的视频也会较大。