目录
一、前言
二、AI视频概述
2.1 什么是AI视频
2.2 AI视频核心特点
2.3 AI视频应用场景
三、通义万相介绍
3.1 通义万相概述
3.1.1 什么是通义万相
3.2 通义万相核心特点
3.3 通义万相技术特点
3.4 通义万相应用场景
四、DeepSeek + 通义万相制作AI视频流程
4.1 DeepSeek + 通义万相制作视频优势
4.1.1 DeepSeek 优势
4.1.2 通义万相视频生成优势
4.2 操作过程
4.2.1 使用DeepSeek 生成视频脚本
4.2.2 使用通义万相生成视频
四、通义万相其他功能体验
4.1 图生视频
4.2 文字作画
4.3 Java API 调用
4.3.1 导入依赖SDK
4.3.2 获取apikey
4.3.3 代码集成
五、写在文末
一、前言
AI大模型技术的火爆,让AI视频赛道也变得热闹。以往让很多人觉得视频制作领域是一个很难跨越的障碍,AI大模型的兴起之后,同时也带动了AI视频技术的革新,不少厂商纷纷加入AI视频的争夺,毕竟短视频经历了多年的沉淀之后,已经成为大多数日常生活中不可或缺的一部分,本文以国产大模型之光的通义万相为例进行详细的说明。
二、AI视频概述
2.1 什么是AI视频
AI视频 是指利用人工智能(AI)技术生成、编辑、增强或分析视频内容的过程和结果。通过AI技术,视频制作、处理和优化的效率得到了显著提升,同时也为创意表达和内容创作带来了更多可能性。AI视频的核心在于利用机器学习、计算机视觉、自然语言处理等技术,自动化或智能化地完成视频相关的任务。
2.2 AI视频核心特点
AI 视频的核心特点主要体现在以下几个方面,这些特点使得 AI 技术在视频领域的应用更加高效、智能和创新:
-
自动化处理
-
AI 可以自动完成视频制作、编辑和处理中的许多任务,减少人工干预。例如:
-
自动剪辑视频片段。
-
自动生成字幕和配音。
-
自动识别并分类视频内容。
-
-
-
智能化
-
AI 能够理解视频内容并做出智能决策。例如:
-
识别视频中的物体、场景、人脸和动作。
-
分析视频的情感基调(如欢乐、悲伤、紧张等)。
-
根据用户偏好推荐个性化视频内容。
-
-
-
制作高效
-
AI 技术可以大幅提升视频处理的效率,节省时间和成本。例如:
-
快速生成高质量视频内容。
-
批量处理视频数据(如转码、压缩、增强等)。
-
实时处理视频流(如直播中的实时字幕或特效)。
-
-
-
具备一定的创新
-
AI 为视频创作带来了全新的可能性,突破了传统技术的限制。例如:
-
生成虚拟角色或深度伪造(Deepfake)视频。
-
创建逼真的特效和动画。
-
将文本或图像转化为动态视频。
-
-
-
支持个性化
-
AI 可以根据用户的需求和偏好生成定制化的视频内容。例如:
-
为不同用户生成个性化的广告视频。
-
根据用户兴趣推荐相关视频内容。
-
生成符合特定风格或主题的视频。
-
-
-
生成的视频质量较高
-
AI 技术可以提升视频的质量和观感。例如:
-
增强视频分辨率(如将低清视频转为高清)。
-
修复老旧或损坏的视频。
-
自动调整视频的色彩、光线和稳定性。
-
-
AI 视频的核心特点是自动化、智能化、高效性、创新性、个性化、高质量、实时性和数据驱动。这些特点使得 AI 技术在视频领域的应用越来越广泛,从内容创作到分发和消费,AI 正在彻底改变视频行业的面貌。
2.3 AI视频应用场景
AI视频技术在多个领域展现出广泛的应用场景,涵盖了从娱乐、教育到商业营销等多个方面。以下是AI视频的主要应用场景及其具体表现:
-
娱乐与社交媒体
-
动态封面与个性化内容:
-
AI可以生成炫酷的动态封面或个性化视频,帮助社交媒体用户吸引更多关注。例如,美食博主可以生成食材飞舞的视频封面,旅行博主可以生成地标建筑的切换视频。
-
-
趣味视频生成:
-
普通用户可以通过AI工具快速生成趣味视频,用于分享、娱乐或发布自媒体。例如,生成梦幻朋友圈配图或节日主题视频
-
-
-
内容创作与影视创作
-
剧本生成与可视化:
-
AI可以根据文字描述生成视频脚本,并初步生成视频片段,帮助创作者优化脚本和场景设计。
-
-
特效与场景生成:
-
AI技术可以生成逼真的虚拟场景和特效,减少实景搭建和后期制作成本。例如,利用生成对抗网络(GAN)生成动态粒子效果或深度场景合成。
-
-
智能剪辑与后期处理:
-
AI可以自动识别视频中的关键情节,进行智能剪辑和优化,提升制作效率。
-
-
-
电商与广告营销
-
产品展示与广告生成:
-
AI可以生成高质量的产品展示视频,例如化妆品涂抹效果或电子产品3D拆解图,提升消费者的购买欲望。
-
-
个性化广告投放:
-
通过分析用户行为和视频内容,AI可以自动植入相关广告,提升广告效果。
-
-
-
教育与科普
-
生动教学视频:
-
AI可以生成历史、科学等学科的生动教学视频,例如古代战争场景或细胞结构动画,提升学生的学习兴趣。
-
-
科普动画制作:
-
通过AI生成科普动画,将复杂知识以趣味化的方式呈现,提高传播效率。
-
-
-
短剧与影视创作
-
AI短剧制作:
-
AI技术已渗透到短剧制作的多个环节,包括剧本生成、场景搭建、特效制作和智能剪辑,大幅压缩制作周期和成本。
-
-
情感与叙事优化:
-
尽管AI短剧在情感共鸣上仍有不足,但通过人机协同创作,可以逐步提升叙事张力和情感表现。
-
-
-
其他创新应用
-
虚拟主播与角色生成:
-
AI可以生成虚拟主播或角色,用于直播、新闻播报等场景,目前已经在一些平台开始投入使用,比如AI数字人等。
-
-
实时视频处理:
-
在直播或视频会议中,AI可以实时生成字幕、翻译或虚拟背景,提升互动体验。
-
-
AI视频的应用场景极为广泛,从娱乐、教育到商业营销,AI技术正在改变视频创作、分发和消费的方式。未来,随着技术的不断进步,AI视频将在更多领域展现出更大的潜力。
三、通义万相介绍
3.1 通义万相概述
3.1.1 什么是通义万相
通义万相 是阿里云推出的一款AI多模态内容生成平台,专注于图像和视频的智能化创作。它基于阿里云通义大模型家族,旨在通过先进的人工智能技术,为用户提供高效、创新的视觉内容生成解决方案。
网页端入口:通义万相_AI创意作画_AI绘画_人工智能-阿里云
3.2 通义万相核心特点
通义万相具备多种强大的AI生成能力,主要包括:
-
文本生成图像:
-
根据用户输入的文字描述,生成符合需求的图像,支持多种艺术风格(如水彩、油画、3D卡通等。
-
-
图像风格迁移:
-
用户上传原图和风格图后,AI可以将原图处理为指定风格,实现创意转化。
-
-
视频生成:
-
支持文生视频和图生视频任务,能够生成影视级高清视频,并优化中式元素的表现,特别适合中国风内容的创作。
-
-
相似图像生成:
-
上传任意图片后,AI可以生成内容或风格相似的画作,适合创意发散
-
-
复杂运动生成:
-
能够模拟真实世界的物理规律,生成复杂和大幅度的运动场景,提升视频的真实感
-
3.3 通义万相技术特点
通义万相技术具备如下优势和特点:
-
基于阿里通义大模型:
-
依托阿里巴巴 通义大模型(Tongyi Large Model),结合 扩散模型(Diffusion Model) 和 Transformer 架构 进行高质量图像生成。
-
-
多模态支持:
-
通义万相不仅支持图像生成,还具备视频生成能力,实现了多模态内容的智能化创作。
-
-
高度可控性:
-
基于阿里云研发的组合式生成模型Composer,通义万相能够对配色、布局、风格等设计元素进行精细拆解与智能重组,提供高度可控的图像生成效果。
-
-
中文优化:
-
原生支持中文长文本提示词,能够精准理解并生成符合中国文化和审美的内容,被称为“最懂中国风”的视频大模型。
-
-
开源支持:
-
通义万相2.1模型已全面开源,开发者可以通过Github、HuggingFace等平台获取推理代码和权重,支持文生视频和图生视频任务。
-
通义万相技术优势在于其多模态生成能力、中文优化、高质量输出、高度可控性、技术创新、广泛的应用场景以及开源支持。这些优势使其成为国内AIGC领域的领先平台,为创作者和企业提供了强大的AI赋能工具。未来,随着技术的进一步迭代,通义万相有望在更多领域展现更大的价值。
3.4 通义万相应用场景
通义万相作为阿里云推出的AI多模态内容生成平台,凭借其强大的图像和视频生成能力,在多个领域展现了广泛的应用场景。以下是通义万相的主要应用场景及其具体表现:
-
艺术创作
-
通义万相为艺术家和设计师提供了强大的创意支持,能够根据用户输入的提示词或描述生成个性化的艺术作品。其支持多种艺术风格(如水彩、油画、3D卡通等),帮助创作者探索新的艺术表现形式
-
个性化艺术生成:用户可以通过简单的指令生成独特的艺术作品,满足个人或商业需求。
-
风格迁移:将现有图像转化为指定风格,实现创意转化。
-
-
-
广告与营销
-
通义万相在广告制作和营销领域展现了强大的应用潜力,能够快速生成高质量的视频和图像内容,提升广告的吸引力和效果
-
广告素材生成:生成商品海报、广告图和创意视频,提升营销效率。
-
个性化广告投放:根据用户数据生成定制化广告内容,提高广告投放的精准性。
-
-
-
影视与游戏开发
-
通义万相在影视和游戏开发中发挥了重要作用,能够生成特效、场景预览和角色概念设计,大幅缩短制作周期
-
影视特效生成:生成逼真的特效和背景,提升影视作品的视觉效果。
-
游戏场景与角色设计:生成游戏角色、场景和动画,加速游戏开发进程。
-
-
-
社交媒体平台内容创作
-
通义万相为社交媒体用户和内容创作者提供了强大的工具,能够生成吸引眼球的短视频和动态封面,增强用户互动性
-
短视频生成:生成个性化的短视频内容,吸引粉丝和提高互动。
-
动态封面设计:生成炫酷的动态封面,提升社交媒体内容的吸引力。
-
-
-
商业设计与展示
-
通义万相在商业设计和展示中展现了强大的应用潜力,能够生成高质量的设计素材和展示视频
-
产品展示视频:生成商品展示视频,提升消费者的购买欲望。
-
虚拟店铺装修:生成虚拟店铺装修预览视频,帮助商家展示店铺布局和产品陈列。
-
-
四、DeepSeek + 通义万相制作AI视频流程
4.1 DeepSeek + 通义万相制作视频优势
4.1.1 DeepSeek 优势
Deepseek 生成的内容具有较高的专业性和深度,能够满足不同领域的需求。同时其深度思考能力和联网搜索能力,能够为用户生成最新,且内容丰富程度较高。在使用AI视频生成的场景中,制作视频需要视频脚本,分镜头文案等元素信息,借助Deepseek 强大的对话和深度思考能力,可以生成高质量的视频脚本,然后配合AI视频制作平台的能力,即可快速完成视频的制作。deepseek入口:DeepSeek
4.1.2 通义万相视频生成优势
通义万相作为阿里云推出的AI多模态内容生成平台,在视频生成领域展现了显著的技术优势和应用潜力。以下是通义万相在视频生成方面的主要优势:
-
高质量视频生成
-
通义万相能够生成影视级高清视频,支持1080P分辨率,画面质感细腻,视觉效果出色。其生成的视频在动态场景中表现出极高的流畅度和真实感,适合广告、影视、游戏等多个领域的需求
-
-
中文优化与本土化支持
-
通义万相在中文视频生成方面具有显著优势,能够精准理解中文长文本提示词,并生成符合中国文化和审美的视频内容。例如,用户输入“以红色新年宣纸为背景,出现一滴水墨,晕染墨汁缓缓晕染开来”的指令,通义万相可以生成具有浓郁东方韵味的视频。
-
-
复杂运动与物理规律模拟
-
通义万相通过自研的高效VAE(变分自编码器)和DiT(图像生成对抗网络)架构,增强了时空上下文建模能力,能够精准模拟复杂运动和真实物理规律。例如,雨滴落在伞上会溅起水花,玻璃杯摔碎时碎片飞溅等场景都能逼真呈现。
-
-
多模态生成能力
-
通义万相支持文生视频和图生视频两种生成模式。用户可以通过输入文本描述或上传图片,快速生成高质量视频内容。这种多模态能力使其在广告设计、短视频创作等领域具有广泛的应用价值。
-
-
丰富的视觉效果与特效
-
通义万相提供了多种视频特效选项,如过渡效果、粒子效果、模拟效果等,用户可以根据需求自由组合,增强视频的表现力和艺术感。例如,一键生成艺术字功能,支持中英文文字特效生成,极大提升了视频的视觉吸引力。
-
-
使用简单创作效率高
-
通义万相通过简洁的操作界面和强大的AI技术支持,大幅降低了视频创作的门槛。即使是普通用户,也能通过简单的指令快速生成高质量视频内容,显著提升了创作效率。
-
-
开源与生态支持
-
通义万相2.1模型已全面开源,开发者可以通过Github、HuggingFace等平台获取推理代码和权重,支持文生视频和图生视频任务。这种开源策略不仅降低了技术使用门槛,还促进了AI社区的协作与创新。
-
4.2 操作过程
接下来通过实际案例演示如何使用DeepSeek + 通义万相生成视频
4.2.1 使用DeepSeek 生成视频脚本
提供如下的文案,即我们接下来我们需要让DeepSeek 生成视频的原始需求
我想做一个治愈系的名山大川的短视频,视频中的元素包括蔚蓝的天空,广阔的山河湖泊,飞鸟,无人机拍摄视角以及特写镜头,以国家地理纪录片的风格,时长30秒
打开deepseek,发出上述指令,稍等一会儿,deepseek便给出了完整的解析和思考过程,比如制作视频的注意点,建议点,优化点等
基于上一步的回答,我们进一步输入指令要求DeepSeek 生成分镜头脚本
通过上面的2步指令输入,就得到了接下来用于生成视频的原始分镜脚本,当然,如果第一次生成的脚本不满意,还可以通过多轮对话的方式进行微调,直到得到满意的脚本为止。
4.2.2 使用通义万相生成视频
进入通义万相之后,找到左侧的视频生成的菜单,拷贝上一步的分镜脚本到输入框中,它会自动将markdown格式的文案进行解析出来,在当前的操作窗口页面,里面还有一些参数可以调整,比如视频比例,可以结合实际需求进行选择,像3:4在一些自媒体平台比较流行,参数部分可自行尝试。
将脚本复制进去之后,点击生成视频按钮,生成视频的时长会根据你的实际分镜不同而有差异。
等待一段时间之后,在右侧就可以看到生成好的视频了。
可以直接打开查看视频的效果,也可以下载到本地
通过上面的操作流程,就完成了一个从生成视频的分镜脚本到制作出视频的完整过程,事实上,这也是很多自媒体创作者利用AI大模型完成AI视频制作的基本操作流程,只不过其中的细节还需要进一步的完善和优化,比如分镜脚本的优化,视频参数的调整,视频导入到其他剪辑工具的调色、剪辑、后期制作等。
四、通义万相其他功能体验
在通义万相的操作界面上还有不少好用的功能可以体验,下面再选取两个高频的场景进行演示操作。
4.1 图生视频
简而言之,即根据你上传的图片生成视频
比如以官方提供的图片为例进行视频生成,选择一张
点击生成视频,通义万相会自动解析图片中的元素内容,生成一段类似于视频脚本的描述文案,然后等待视频生成即可,最后可以看到,这是一段一个类似飞碟的飞行物在低空飞行的视频
4.2 文字作画
即文生图的功能,这个在AI大模型出来不久,很多大模型都开始在这个领域探索,截止到现在,这一技术逐渐成熟,对用使用者来说,只需要提供你的文案描述,文案尽可能的覆盖到待生成的图片元素,这样生成的图效果才好,有点考验一个人的文字功底,如下我们在框里输入一段内容
生成一张猫和狗快乐玩耍的温馨图片,图中小猫伸出爪子去挠小狗的头,旁边有草坪,有几只蝴蝶,有盛开的花朵,蓝色的天空,风格为写实风格
输入进去然后点击生成,稍等一会,即可生成默认的4张图片
4.3 Java API 调用
通义万相也提供了API对接方式,可以在应用程序中进行集成和使用
以左侧的视频生成API为例进行说明,点击之后,跳转到下面的对接文档页面
以Java对接为例进行说明,参考下面的步骤。
4.3.1 导入依赖SDK
在你的springboot工程 pom文件中添加如下依赖
-
需要用比较新的版本,否则可能还没有包含视频生成相关的API能力
<dependency><groupId>com.alibaba</groupId><artifactId>dashscope-sdk-java</artifactId><!-- 请将 'the-latest-version' 替换为最新版本号:https://mvnrepository.com/artifact/com.alibaba/dashscope-sdk-java --><version>t2.18.2</version>
</dependency>
4.3.2 获取apikey
登录阿里云的百炼大平台,注册账号后创建一个apikey即可,入口:阿里云登录 - 欢迎登录阿里云,安全稳定的云计算服务平台
4.3.3 代码集成
参考下面的代码
-
只需要将里面的代码中的apkey替换成你自己的即可
package com.congge.chat;// Copyright (c) Alibaba, Inc. and its affiliates.// dashscope sdk >= 2.18.2
import com.alibaba.dashscope.aigc.videosynthesis.VideoSynthesis;
import com.alibaba.dashscope.aigc.videosynthesis.VideoSynthesisParam;
import com.alibaba.dashscope.aigc.videosynthesis.VideoSynthesisResult;
import com.alibaba.dashscope.exception.ApiException;
import com.alibaba.dashscope.exception.InputRequiredException;
import com.alibaba.dashscope.exception.NoApiKeyException;
import com.alibaba.dashscope.utils.JsonUtils;public class Text2Video {/*** Create a video compositing task and wait for the task to complete.*/public static void text2Video() throws ApiException, NoApiKeyException, InputRequiredException {VideoSynthesis vs = new VideoSynthesis();VideoSynthesisParam param =VideoSynthesisParam.builder().model("wanx2.1-t2v-turbo").apiKey("你的apikey").prompt("一只小猫在月光下奔跑").size("1280*720").build();System.out.println("please wait...");VideoSynthesisResult result = vs.call(param);System.out.println(JsonUtils.toJson(result));}public static void main(String[] args) {try {text2Video();} catch (ApiException | NoApiKeyException | InputRequiredException e) {System.out.println(e.getMessage());}System.exit(0);}
}
运行上面的代码,控制台的输出结果中即包含了生成的视频链接
在浏览器中打开链接自动下载到本地,然后即可播放查看效果
通义万相主页还提供了很多其他有意思的功能,这里就不再一一列举了,感兴趣的同学可以继续研究。
五、写在文末
本文详细介绍了通义万相这款AI工具的使用,并使用DeepSeek+通义万相完成了一个视频制作的完整过程,最后介绍了如何在代码中进行集成的过程,本篇到此结束,感谢观看。