宁波海曙网站开发公司电话/短视频seo优化排名

宁波海曙网站开发公司电话,短视频seo优化排名,做视频图片博客网站,单位建设网站申请信用卡吗来源 | 机器之心 视频作为包含大量时空信息和语义的媒介,对于 AI 理解、模拟现实世界至关重要。视频生成作为生成式 AI 的一个重要方向,其性能目前主要通过增大基础模型的参数量和预训练数据实现提升,更大的模型是更好表现的基础&#xff0c…

来源 | 机器之心

视频作为包含大量时空信息和语义的媒介,对于 AI 理解、模拟现实世界至关重要。视频生成作为生成式 AI 的一个重要方向,其性能目前主要通过增大基础模型的参数量和预训练数据实现提升,更大的模型是更好表现的基础,但同时也意味着更苛刻的计算资源需求

受到 Test-Time Scaling 在 LLM 中的应用启发,来自清华大学、腾讯的研究团队首次对视频生成的 Test-Time Scaling 进行探索,表明了视频生成也能够进行 Test-Time Scaling 以提升性能,并提出高效的 Tree-of-Frames 方法拓展这一 Scaling 范式。

目前,这项工作的代码已经开源,感兴趣的小伙伴可以开 Issue 提问,也欢迎共同探索视频和多模态生成。

图片

  • 论文标题:Video-T1: Test-Time Scaling for Video Generation

  • 论文地址:https://arxiv.org/pdf/2503.18942

  • Github 仓库: https://github.com/liuff19/Video-T1 

  • 项目主页: https://liuff19.github.io/Video-T1/

,时长00:52

视频生成的 Test-Time Scaling 范式

继 DeepSeek-R1 爆红后,在视觉 / 多模态等不同领域都涌现了大量 Test-Time Scaling (TTS) 研究,Video-T1 则是首次将 Test-Time Scaling 引入视频生成领域,突破了传统方式 Scaling up 视频模型需要大量资源重新训练或显著扩大模型规模的局限性。

研究团队通过增加推理阶段计算来显著提升视频生成质量,在 VBench 上实现了最高 5.86% 的总分提升,同时发现模型能力随着推理阶段选取的样本数目增加而增长,体现出持续 Scale Up 的特性

图片

视频生成Test-Time Scaling的实验结果

研究团队创新性地将视频生成中的 Test-Time Scaling 问题建模为从高斯噪声空间到目标视频分布的轨迹搜索问题,为优化视频生成引入了新的理论框架。同时构造了随机线性搜索作为 Test-Time Scaling 的基础实现方式,即随机地取样多个视频生成样本,利用 VLM 进行评分选出最优的视频样本作为输出。

图片

随机线性搜索的算法

Tree-of-Frames 方法提升推理效率

然而,随机线性搜索的复杂度较高,需要较多的推理时计算,研究团队发现,许多视频在生成的过程中就会出现内容与提示词不对应或者不符合现实规律等诸多问题,为了进一步提高搜索速度和视频质量,研究团队提出了「帧树」(Tree-of-Frames, ToF),通过自适应扩展和修剪视频分支,在计算成本与生成质量间实现动态平衡

类似于在推理模型中使用 score model,研究团队提出使用测试时验证器(test-time verifiers)评估中间结果质量,并结合启发式算法高效导航搜索空间,在视频生成的适当位置进行评估,选取符合要求的生成轨迹,显著提升生成效率和质量。

图片

研究团队提出的 Tree-of-Frames 算法

相比于直接进行随机线性搜索,Tree-of-Frames 方法能够在取得相同效果的情况下显著提高搜索效率,降低视频模型的推理计算需求。

研究团队通过比较不同 Test-Time Scaling 方法和不同样本数量对应的 Number of Function Evaluations (NFE) 及对应的表现,发现使用 Tree-of-Frames 方法能够在相同 NFE 的情况下更为显著地提高视频表现。

图片

不同模型下 Tree-of-Frames 与随机线性搜索效果对比

研究团队选取了三种视频生成模型实现 Tree-of-Frames 方法,并计算其视频模型的推理计算需求,在 VBench 总分相同的情况下进行比较,发现 Tree-of-Frames 显著降低了视频模型推理计算量。

图片

Tree-of-Frames 方法相比于随机线性搜索显著提高了推理效率

此外,研究团队注意到首帧对于视频整体是否对齐影响较大,视频的前中后部分存在一定程度不同的提示词对齐需求,因此利用单帧的图片生成思维链 (Image Generation Chain-of-Thought) 和层次化提示词 (Hierarchical Prompting) 等方法,对帧的生成和提示词对齐进行增强,构建了 Tree-of-Frames 总体流程。

图片

研究团队提出的 Tree-of-Frames 方法流程图

在上图所示的流程中,第一阶段执行 Text-to-Image (First Frame) 生成,进行图像级别的对齐,让首帧能够包含正确且足够的关于物体、场景的语义信息;第二阶段在测试时 Verifier 中应用层次化提示词 (Hierarchical Prompting),关注运动稳定性与物理合理性等方面,从而提供反馈,指导启发式搜索过程;最后一阶段评估视频的整体质量,并选择与文本提示词最高对齐度的视频

不同模型的 Test-Time Scaling 实验

研究团队进行了大量 Test-Time Scaling 实验,使用不同的视频生成模型、VLM 模型进行测试,得到这些模型相比于基线在 VBench 上各方面指标的提升。

图片

不同维度上 Test-Time Scaling 方法相比于基线的提升

实验结果表明,无论是基于 Diffusion 的模型还是 Autoregressive 范式的模型,都能够通过 Test-Time Scaling 方法实现生成视频性能的全面提升,而无需重新训练一个视频生成模型。

研究团队还注意到,使用不同的 VLM 作为 Verifier 对视频生成质量在多种维度的提升效果有所不同。

因此,为了更充分地发挥 Test-Time Scaling 的潜力并为后续增强 VLM 能力的探索提供思路,研究团队将不同的 Verifier 进行综合,用于 Test-Time Scaling 过程,发现在相同的 NFE (Number of Function Evaluations) 下 Multiple Verifier 相比于单个 Verifier 效果更好。不同 VLM 和视频生成模型对应的结果如下:

图片

Multiple Verifier 与单个 Verifier Scaling Up 效果对比

可视化结果

研究团队提供了 Tree-of-Frames 层次化提示词和过程中验证的可视化结果:

图片

层次化提示词和分层验证过程的可视化结果

研究团队还提供了视频生成基础模型和 TTS 结果的对比,更多的可视化请参阅原论文和项目主页。

图片

部分可视化结果,从上到下为未 Test-Time Scaling 和进行 Test-Time Scaling 的视频对比

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/74871.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【强化学习】基于深度强化学习的微能源网能量管理与优化策略研究【Python】

目录 主要内容 程序要点 2.1 微能源网系统组成 2.2 强化学习及Q学习算法 部分代码 运行结果 下载链接 主要内容 该程序借助深度 Q 网络(DQN),学习预测负荷、风 / 光可再生能源功率输出及分时电价等环境信息,运用…

dom0-kernel: /thermal-zones/soc_max/cooling-maps/map0: could not find phandle 2

问题描述: 由于soc_max下某个节点找不到,到时dom0-kernel后面有很多有关thermal热管理之类报错 问题解决及其原因分析: 这是因为在Xen解析相关节点时,soc_max下的某个节点被跳过了,注释掉相关的cpu节点处理dom0就可以找…

专注自习室:番茄工作法实践

专注自习室:番茄工作法实践 我需要一个任务管理工具,但在网上找了很多都找不到合适的工具。市面上的大多数产品过于强调任务完成性,给我带来了很强的心理压力,这种压力最终反而降低了我的工作效率。于是我决定自己动手&#xff0…

VUE3项目VITE打包优化

VUE3项目VITE打包优化 代码加密依赖配置效果对比图 自动导入依赖配置 代码压缩依赖配置效果对比图 图片压缩依赖配置效果对比图 字体压缩总结与实践运用效果 代码加密 依赖 npm install -D vite-plugin-bundle-obfuscator配置 import vitePluginBundleObfuscator from "…

机器学习——LightGBM

LightGBM(light gradient boosting machine,轻量梯度提升机)是对XGBoost进行改进的模型版本,其三者之间的演变关系为:GBDT-》XGBoost-》LightGBM,依次对性能进行优化,尽管XGBoost已经很高效了,但是仍然有缺…

内网服务器无法通过公网地址访问映射到公网的内网服务

内网服务器无法通过公网地址访问映射到公网的内网服务 问题现象问题原因解决方法总结 前几天遇到一个网络问题,在这里做下记录,希望能帮助到有相同问题的朋友。 问题现象 网络拓扑如上所示,服务器1和服务器2在同一内网,网段均为1…

python每日十题(13)

一般把计算机完成一条指令所花费的时间称为一个指令周期。指令周期越短,指令执行就越快。本题答案为D选项。 顺序程序具有顺序性、封闭性和可再现性的特点,使得程序设计者能够控制程序执行的过程(包括执行顺序、执行时间),对程序执…

多智能体功能分化的核心优势是什么:提升效率,查漏补缺

多智能体功能分化的核心优势是什么:提升效率,查漏补缺 在于通过分工协作提升整体效率、灵活性和鲁棒性。 1. 提升效率与专业性 原理:单一智能体无需处理全流程,通过专业化分工减少冗余计算和决策延迟。 示例: 自动驾驶系统: 感知智能体:专门处理摄像头、激光雷达等传…

COMPASS:通过残差强化学习和技能合成实现跨具身移动策略

25年2月来自 Nvidia、UC Berkeley 和 UT Austin 的论文“COMPASS: Cross-embOdiment Mobility Policy via ResiduAl RL and Skill Synthesis”。 随着机器人越来越多地部署在不同的应用领域,可泛化的跨具身移动策略变得越来越重要。虽然经典的移动栈已被证明在特定…

无人机,雷达定点飞行时,位置发散,位置很飘,原因分析

参考: 无人车传感器 IMU与GPS数据融合进行定位机制_gps imu 组合定位原始数-CSDN博客 我的无人机使用雷达定位,位置模式很飘 雷达的更新频率也是10HZ, 而px飞控的频率是100HZ,没有对两者之间的频率差异做出处理 所以才导致无人…

学习threejs,使用Sprite精灵、SpriteMaterial精灵材质

👨‍⚕️ 主页: gis分享者 👨‍⚕️ 感谢各位大佬 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍⚕️ 收录于专栏:threejs gis工程师 文章目录 一、🍀前言1.1 ☘️THREE.Sprite1.1.1 ☘️代码…

外星人入侵(python设计小游戏)

这个游戏简而言之就是操作一个飞机对前方的飞船进行射击,和一款很久之前的游戏很像,这里是超级低配版那个游戏,先来看看效果图: 由于设计的是全屏的,所以电脑不能截图。。。。 下面的就是你操控的飞船,上面…

23种设计模式-备忘录(Memento)设计模式

备忘录设计模式 🚩什么是备忘录设计模式?🚩备忘录设计模式的特点🚩备忘录设计模式的结构🚩备忘录设计模式的优缺点🚩备忘录设计模式的Java实现🚩代码总结🚩总结 🚩什么是…

某鱼、某宝 sign 签名算法分析记录

【作者主页】:小鱼神1024 【知识星球】:小鱼神的逆向编程圈 【擅长领域】:JS逆向、小程序逆向、AST还原、验证码突防、Python开发、浏览器插件开发、React前端开发、NestJS后端开发等等 本文章中所有内容仅供学习交流使用,不用于其…

【C语言】分支与循环(上)

前言:C语言是由顺序结构、选择结构、循环结构组成的结构化的程序设计语言。 那C语言是如何设计和实现这些结构的呢?话不多说,马上开始。 三种结构如图所示: 我们可以使用 if else语句、 switch语句 来实现选择(分支&am…

Springboot学习笔记3.20

目录 1.实战篇第一课 我们将会在本次实战中学习到哪些知识点? 开发模式和环境搭建: 注册接口 1.Lombok 2.开发流程 1.controller层,这个层会指明访问路径和要执行的逻辑: 2.我们把返回结果根据接口文档包装成一个类result&a…

全新升级 | Built For You Spring ‘25 发布,Fin 智能客服实现新突破!

图像识别、语音交互、任务自动化,立即体验智能客服蜕变! 上周,Intercom 举办了 Built For You Spring 25 发布会,正式揭晓了 AI Agent Fin 的一系列令人振奋的更新。Fin 正在以前所未有的速度革新客户支持模式——它已经成功解决了…

需求导向的K8S网络原理分析:Kube-proxy、Flannel、Calico的地位和作用

最近发现自己似乎从来没学明白过Kubernetes网络通信方案,特开一贴复习总结一下。 在k8s中,每个 Pod 都拥有一个独立的 IP 地址,而且假定所有 Pod 都在一个可以直接连通的、扁平的网络空间中。所以不管它们是否允许在同一个 Node(宿…

Vulnhub:Digitalword.local: FALL靶机渗透

将靶机按照图中连接方式打开,fall在virtualBox中打开 信息收集 扫描得ip arp-scan -l 扫描端口 nmap -A -T4 -sV -p- 扫描目录 gobuster dir -u http://192.168.117.160 -x php,txt,html -w /usr/share/wordlists/dirbuster/directory-list-2.3-medium.txt 一个一个…

4、网工软考—VLAN配置—hybird配置

1、实验环境搭建: 2、实验过程 SW1: 先创建vlan2和vlan3 [Huawei-Ethernet0/0/2]port link-type hybrid //hybird端口 [Huawei-Ethernet0/0/2]port hybrid pvid vlan 2 [Huawei-Ethernet0/0/2]port hybrid untagged vlan 10 //撕掉vlan10的标签 …