今日 AI 简报|零样本视频生成、移动端轻量语言模型、自动驾驶多模态模型等前沿 AI 技术集中亮相

❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

DreamVideo-2:零样本视频生成框架

在这里插入图片描述

DreamVideo-2 是复旦大学和阿里巴巴等机构联合推出的零样本视频定制生成框架。该框架能够根据单一图像和界定框序列生成具有特定主题和精确运动轨迹的视频,无需在测试时进行微调。通过参考注意力机制和混合掩码参考注意力等技术,DreamVideo-2 在主题学习与运动控制上表现优异。

资源

  1. 项目官网:https://dreamvideo2.github.io
  2. arXiv 技术论文:https://arxiv.org/pdf/2410.13830

EMMA:端到端自动驾驶多模态模型

在这里插入图片描述

EMMA 是 Waymo 推出的端到端自动驾驶多模态模型。该模型能够将原始相机传感器数据映射到驾驶特定输出,如规划轨迹和感知对象,同时利用预训练的大型语言模型处理多种驾驶任务。EMMA 在 nuScenes 运动规划和 Waymo 开放数据集上展现了先进性能。

资源

  1. arXiv 技术论文:https://arxiv.org/pdf/2410.23262

Voice Changer:变声器模型

在这里插入图片描述

Voice Changer 是 Cartesia 推出的变声器模型,能够将任何音频剪辑的语音转换成其他音色,同时保留原始音频的情感和表达。用户可以从多种高质量声音库中选择音色,或克隆自己的声音,实现个性化的声音转换。

资源

  1. 项目官网:https://www.cartesia.ai/blog/voice-changer

Genmoai-smol:视频生成模型

在这里插入图片描述

Genmoai-smol 是针对单 GPU 设备优化的开源 AI 视频生成模型。该模型专为资源有限的设备设计,能够生成高保真度的视频内容,并提供 Gradio UI 和命令行界面,方便用户操作。

资源

  1. GitHub 仓库:https://github.com/victorchall/genmoai-smol

MobileLLM:移动设备语言模型

在这里插入图片描述

MobileLLM 是 Meta 推出的适用于移动设备的轻量级语言模型。该模型在零样本常识推理和聊天交互等任务上表现出色,并支持多种语言理解和生成任务,能够在移动设备上提供高效的自然语言处理能力。

资源

  1. GitHub 仓库:https://github.com/facebookresearch/MobileLLM
  2. HuggingFace 模型库:https://huggingface.co/collections/facebook/mobilellm-6722be18cb86c20ebe113e95
  3. arXiv 技术论文:https://arxiv.org/pdf/2402.14905

TimeSuite:长视频理解处理框架

在这里插入图片描述

TimeSuite 是上海 AI Lab 推出的提升 MLLMs 在长视频理解处理的设计框架。该框架通过引入高效的长视频处理机制和高质量的视频数据集 TimePro,显著提升了模型在长视频问答和时间定位任务上的性能。

资源

  1. arXiv 技术论文:https://arxiv.org/pdf/2410.19702

HOVER:人形机器人神经控制模型

在这里插入图片描述

HOVER 是英伟达推出的 1.5M 小模型,用于人形机器人的多功能全身神经控制。该模型能够无缝切换不同的控制模式,实现导航、桌面操作和移动操作等多种任务,并通过策略蒸馏技术整合多种控制技能,提高机器人的效率和灵活性。

资源

  1. 项目官网:https://hover-versatile-humanoid.github.io
  2. arXiv 技术论文:https://arxiv.org/pdf/2410.21229

SmolLLM2:紧凑型大型语言模型

在这里插入图片描述

SmolLLM2 是 Hugging Face 推出的紧凑型大型语言模型,提供 1.7B、360M、135M 三个不同参数级别的模型。该模型专注于在设备端运行,能够在本地设备上高效处理各种自然语言处理任务。通过监督微调和超反馈优化技术,SmolLLM2 在理解指令、知识推理和数学问题解决上表现出色,尤其适用于对延迟和数据隐私要求较高的场景。

资源

  1. HuggingFace 模型库:https://huggingface.co/collections/HuggingFaceTB/smollm2-6723884218bcda64b34d7db9

❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/59038.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何监控员工上网行为?实现精准监控员工上网行为的5个妙招分享!(企业:稳了!)

如何监控员工上网行为? 员工上班时的"摸鱼"行为员工上网行为(做与工作无关的活动,如浏览社交媒体、游戏、网购等),不仅影响工作效率,还可能破坏团队氛围,阻碍企业发展。 那么&#…

Allegro: 开源的高级视频生成模型

我们很高兴地宣布 Allegro 的开源发布,这是 Rhymes AI 先进的文本到视频模型。Allegro 是一款功能强大的人工智能工具,能将简单的文字提示转化为高质量的视频短片,为人工智能生成视频领域的创作者、开发者和研究人员开辟了新的可能性。我们希…

<项目代码>YOLOv8 猫狗识别<目标检测>

YOLOv8是一种单阶段(one-stage)检测算法,它将目标检测问题转化为一个回归问题,能够在一次前向传播过程中同时完成目标的分类和定位任务。相较于两阶段检测算法(如Faster R-CNN),YOLOv8具有更高的…

「Mac畅玩鸿蒙与硬件21」鸿蒙UI组件篇11 - Canvas 组件的静态进阶应用

在鸿蒙应用开发中,Canvas 组件不仅用于基础绘图,还提供了处理复杂路径和渐变效果的多种手段,帮助开发者实现精美的静态图形。本篇将介绍如何在 Canvas 中绘制复杂路径、创建渐变填充效果。 关键词 Canvas 组件复杂路径绘制渐变填充一、Canvas 的复杂路径绘制 Canvas 提供了…

Java 用户随机选择导入ZIP文件,解压内部word模板并入库,Windows/可视化Linux系统某麒麟国防系统...均可适配

1.效果 压缩包内部文件 2.依赖 <!--支持Zip--><dependency><groupId>net.lingala.zip4j</groupId><artifactId>zip4j</artifactId><version>2.11.5</version></dependency>总之是要File类变MultipartFile类型的 好像是…

mint-ui Picker 显示异常

mint-ui Picker 显示异常 现象 最近一个老项目页面显示异常&#xff0c;使用mint-ui Picker显示异常,直接显示成了 数据对象&#xff0c;而不是具体travelName 字段 组件 mint-ui Picker 使用方式(vue方式) // template <mt-picker :slots"slots" value-key…

【重生之我要苦学C语言】深入理解指针2

深入理解指针2 const修饰指针 当const修饰变量时&#xff0c;是无法更该该变量的值的 #define _CRT_SECURE_NO_WARNINGS #include <stdio.h> int main() {const int a 10;//const常属性&#xff0c;不能改变的属性a 1;printf("%d\n", a);return 0; }报错&…

半参数模型

4. 半参数模型 (Semi-parametric Model) 半参数模型结合了参数化和非参数化的方法。可以在整体上采用线性回归&#xff0c;但在局部允许非线性变化。这样做的目的是在保持模型的线性解释性的同时&#xff0c;捕捉细微的弧度趋势。 例如&#xff0c;可以定义&#xff1a; y …

LInux系统编程(二)操作系统和进程

目录 一、前言&#xff1a;冯诺依曼体系结构 1、图中各个单元的介绍 2、值得注意的几点 二、操作系统 1、操作系统分层图 2、小总结 三、 进程&#xff08;重点&#xff09; 1、进程的基本概念 2、存放进程信息的数据结构——PCB&#xff08;Linux 下称作 task_struct…

加法电路和减法电路

一、加法电路 下边为加法电路的拓扑结构 加法电路作用1: 直流量叠加 如上图仿真所示,利用放大器LM324AD进行加法电路的仿真,输入为直流+1V和直流+2V,经过加法运算,根据上边Uo的计算公式进行计算,可得Uo=-3V,和仿真结果保持一致。如下图所示。 加法电路作用2: 信号叠加…

8. 数据结构——邻接表、邻接矩阵的基本操作

一、邻接表 1. 内容 2. 实现代码(直接可以复制使用) //邻接表的相关操作 #include<bits/stdc.h> #define MVnum 100 #define OK 1 #define ERROR -1 using namespace std;typedef int Status; typedef char VerTexType; //假设顶点的数据类型为char typedef int ArcT…

自动化研磨领域的革新者:半自动与自动自磨机的技术突破

据QYResearch调研团队最新报告“全球半自动和自动自磨机市场报告2023-2029”显示&#xff0c;预计2029年全球半自动和自动自磨机市场规模将达到5.3亿美元&#xff0c;未来几年年复合增长率CAGR为3.5%。 图00001. 半自动和自动自磨机&#xff0c;全球市场总体规模 如上图表/数据…

基于RFID的智能门禁系统的设计(论文+源码)

1系统总体设计 本次基于RFID的智能门禁系统的设计与实现课题&#xff0c;在功能上设计如下&#xff1a; 1.可以通过RFID模块&#xff0c;实现对IC卡的注册&#xff0c;注销操作&#xff1b; 2.在IC卡解锁时&#xff0c;如果非注册IC卡刷卡时蜂鸣器将报警提示&#xff1b; 3…

CAD图纸防泄密|哪些措施可以加密公司图纸?五个宝藏方法分享,2024必读!

在工程设计领域&#xff0c;CAD图纸作为企业的核心资产&#xff0c;其安全性至关重要。一旦图纸泄露&#xff0c;不仅可能给企业带来重大的经济损失&#xff0c;还可能损害企业的声誉和竞争力。 那么&#xff0c;怎么实现CAD图纸防泄密呢&#xff1f; 以下是五个CAD图纸防泄密…

java项目之文理医院预约挂号系统源码(springboot)

风定落花生&#xff0c;歌声逐流水&#xff0c;大家好我是风歌&#xff0c;混迹在java圈的辛苦码农。今天要和大家聊的是一款基于springboot的文理医院预约挂号系统。项目源码以及部署相关请联系风歌&#xff0c;文末附上联系信息。 项目简介&#xff1a; 本系统的使用角色可…

spring 学习路线梳理(二)注解

1.通过注解的方式创建bean 1.1 定义dao层的接口和实现 public interface ILoginDao {public String login(); }Slf4j Repository public class LoginDaoImpl implements ILoginDao {public LoginDaoImpl(){System.out.println("spring create bean call");}Override…

Blender进阶:着色器节点

11 着色器节点 11.1着色器 着色器Shader&#xff0c;负责给物体表面着色。 综合以下参数&#xff1a; -基础色-金属度、粗超度、透明度-法向-入射光颜色、强度、角度。。 着色器本质上是一段程序、算法&#xff0c;即着色器编程。 在节点编辑器中&#xff0c;支持算法的可…

状态检测防火墙报文处理发流程

华为大同&#xff1a;全系列状态检测防火墙报文处理流程 华为防火墙在处理报文时&#xff0c;其核心在于其状态检测与会话机制&#xff1a;当防火墙接收到报文后&#xff0c;它会在特定时间和条件下创建会话&#xff0c;并对那些与会话表匹配的报文进行特定的转发处理。基于这一…

深入探讨SEO分析技巧助力网站流量提升

内容概要 在当前的数字化时代&#xff0c;SEO分析的重要性不言而喻。它是提升网站流量的关键工具&#xff0c;帮助站长有效地优化网站内容和结构。通过系统的SEO分析&#xff0c;站长可以掌握用户搜索行为和需求&#xff0c;从而制定出更具针对性的内容策略。例如&#xff0c;…

【天线&通讯】电力设施检测系统源码&数据集全套:改进yolo11-RFCAConv

改进yolo11-DAttention等200全套创新点大全&#xff1a;电力设施检测系统源码&#xff06;数据集全套 1.图片效果展示 项目来源 人工智能促进会 2024.11.01 注意&#xff1a;由于项目一直在更新迭代&#xff0c;上面“1.图片效果展示”和“2.视频效果展示”展示的系统图片或者…