今日 AI 简报|零样本视频生成、移动端轻量语言模型、自动驾驶多模态模型等前沿 AI 技术集中亮相

❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

DreamVideo-2:零样本视频生成框架

在这里插入图片描述

DreamVideo-2 是复旦大学和阿里巴巴等机构联合推出的零样本视频定制生成框架。该框架能够根据单一图像和界定框序列生成具有特定主题和精确运动轨迹的视频,无需在测试时进行微调。通过参考注意力机制和混合掩码参考注意力等技术,DreamVideo-2 在主题学习与运动控制上表现优异。

资源

  1. 项目官网:https://dreamvideo2.github.io
  2. arXiv 技术论文:https://arxiv.org/pdf/2410.13830

EMMA:端到端自动驾驶多模态模型

在这里插入图片描述

EMMA 是 Waymo 推出的端到端自动驾驶多模态模型。该模型能够将原始相机传感器数据映射到驾驶特定输出,如规划轨迹和感知对象,同时利用预训练的大型语言模型处理多种驾驶任务。EMMA 在 nuScenes 运动规划和 Waymo 开放数据集上展现了先进性能。

资源

  1. arXiv 技术论文:https://arxiv.org/pdf/2410.23262

Voice Changer:变声器模型

在这里插入图片描述

Voice Changer 是 Cartesia 推出的变声器模型,能够将任何音频剪辑的语音转换成其他音色,同时保留原始音频的情感和表达。用户可以从多种高质量声音库中选择音色,或克隆自己的声音,实现个性化的声音转换。

资源

  1. 项目官网:https://www.cartesia.ai/blog/voice-changer

Genmoai-smol:视频生成模型

在这里插入图片描述

Genmoai-smol 是针对单 GPU 设备优化的开源 AI 视频生成模型。该模型专为资源有限的设备设计,能够生成高保真度的视频内容,并提供 Gradio UI 和命令行界面,方便用户操作。

资源

  1. GitHub 仓库:https://github.com/victorchall/genmoai-smol

MobileLLM:移动设备语言模型

在这里插入图片描述

MobileLLM 是 Meta 推出的适用于移动设备的轻量级语言模型。该模型在零样本常识推理和聊天交互等任务上表现出色,并支持多种语言理解和生成任务,能够在移动设备上提供高效的自然语言处理能力。

资源

  1. GitHub 仓库:https://github.com/facebookresearch/MobileLLM
  2. HuggingFace 模型库:https://huggingface.co/collections/facebook/mobilellm-6722be18cb86c20ebe113e95
  3. arXiv 技术论文:https://arxiv.org/pdf/2402.14905

TimeSuite:长视频理解处理框架

在这里插入图片描述

TimeSuite 是上海 AI Lab 推出的提升 MLLMs 在长视频理解处理的设计框架。该框架通过引入高效的长视频处理机制和高质量的视频数据集 TimePro,显著提升了模型在长视频问答和时间定位任务上的性能。

资源

  1. arXiv 技术论文:https://arxiv.org/pdf/2410.19702

HOVER:人形机器人神经控制模型

在这里插入图片描述

HOVER 是英伟达推出的 1.5M 小模型,用于人形机器人的多功能全身神经控制。该模型能够无缝切换不同的控制模式,实现导航、桌面操作和移动操作等多种任务,并通过策略蒸馏技术整合多种控制技能,提高机器人的效率和灵活性。

资源

  1. 项目官网:https://hover-versatile-humanoid.github.io
  2. arXiv 技术论文:https://arxiv.org/pdf/2410.21229

SmolLLM2:紧凑型大型语言模型

在这里插入图片描述

SmolLLM2 是 Hugging Face 推出的紧凑型大型语言模型,提供 1.7B、360M、135M 三个不同参数级别的模型。该模型专注于在设备端运行,能够在本地设备上高效处理各种自然语言处理任务。通过监督微调和超反馈优化技术,SmolLLM2 在理解指令、知识推理和数学问题解决上表现出色,尤其适用于对延迟和数据隐私要求较高的场景。

资源

  1. HuggingFace 模型库:https://huggingface.co/collections/HuggingFaceTB/smollm2-6723884218bcda64b34d7db9

❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/59038.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SQL中的IN语句和EXISTS语句

大家好,使用SQL时经常需要根据其他表的值过滤数据,常见方法是使用IN和EXISTS子句。这两者都用于检查子查询中值的存在,但它们的工作方式略有不同,并可能对性能产生不同影响。本文将探讨IN和EXISTS的定义、工作原理及其使用场景&am…

【解决方案】Mac上禁止chrome自动更新的三种方法

【目的需求】 新版chrome直接用打印机打印页面时,打印任务总是响一下就消失了,使用safari浏览器无此问题,使用早期版本chrome也没有这一问题。因此想固定chrome版本,不要自动更新。尝试了网上的多种方法均失败。 【解决方案】 …

【运维管理】如何像管理linux一样,批量管理windows主机

很多小伙伴在维护的时候也会难免遇见批量的windows操作,那么一定有人就会问是否有方法可以用命令来批量操作windows主机,其实非常简单,windows早就为我们提供了一个内置的批量管理工具,那就是这个强大的POWERSHELL,今天…

如何监控员工上网行为?实现精准监控员工上网行为的5个妙招分享!(企业:稳了!)

如何监控员工上网行为? 员工上班时的"摸鱼"行为员工上网行为(做与工作无关的活动,如浏览社交媒体、游戏、网购等),不仅影响工作效率,还可能破坏团队氛围,阻碍企业发展。 那么&#…

迷茫内耗的一天

迷茫的一天 今天看了看动态规划,不知不觉看了三四个小时,英语也没背,项目也已经停止了一个星期就看了几个小时的xml文件(不停ctrlB),好累,感觉要学的好多。这难道是必经之路吗? 一个星期算法已经刷了40道题…

Allegro: 开源的高级视频生成模型

我们很高兴地宣布 Allegro 的开源发布,这是 Rhymes AI 先进的文本到视频模型。Allegro 是一款功能强大的人工智能工具,能将简单的文字提示转化为高质量的视频短片,为人工智能生成视频领域的创作者、开发者和研究人员开辟了新的可能性。我们希…

<项目代码>YOLOv8 猫狗识别<目标检测>

YOLOv8是一种单阶段(one-stage)检测算法,它将目标检测问题转化为一个回归问题,能够在一次前向传播过程中同时完成目标的分类和定位任务。相较于两阶段检测算法(如Faster R-CNN),YOLOv8具有更高的…

「Mac畅玩鸿蒙与硬件21」鸿蒙UI组件篇11 - Canvas 组件的静态进阶应用

在鸿蒙应用开发中,Canvas 组件不仅用于基础绘图,还提供了处理复杂路径和渐变效果的多种手段,帮助开发者实现精美的静态图形。本篇将介绍如何在 Canvas 中绘制复杂路径、创建渐变填充效果。 关键词 Canvas 组件复杂路径绘制渐变填充一、Canvas 的复杂路径绘制 Canvas 提供了…

Java 用户随机选择导入ZIP文件,解压内部word模板并入库,Windows/可视化Linux系统某麒麟国防系统...均可适配

1.效果 压缩包内部文件 2.依赖 <!--支持Zip--><dependency><groupId>net.lingala.zip4j</groupId><artifactId>zip4j</artifactId><version>2.11.5</version></dependency>总之是要File类变MultipartFile类型的 好像是…

mint-ui Picker 显示异常

mint-ui Picker 显示异常 现象 最近一个老项目页面显示异常&#xff0c;使用mint-ui Picker显示异常,直接显示成了 数据对象&#xff0c;而不是具体travelName 字段 组件 mint-ui Picker 使用方式(vue方式) // template <mt-picker :slots"slots" value-key…

【重生之我要苦学C语言】深入理解指针2

深入理解指针2 const修饰指针 当const修饰变量时&#xff0c;是无法更该该变量的值的 #define _CRT_SECURE_NO_WARNINGS #include <stdio.h> int main() {const int a 10;//const常属性&#xff0c;不能改变的属性a 1;printf("%d\n", a);return 0; }报错&…

TVM前端研究--Pass

文章目录 TVM 中 Pass 分类Pass Infrastructure后端主要数据结构前端数据结构Pass 注册机制注册流程AI 编译器一般采用多级 IR 的架构来处理深度学习模型,不同级别的 IR 包含不同层级的信息。比如,越靠近前端的 IR 一般不包含硬件的信息,越靠近后端,IR 所含信息则与硬件愈相…

半参数模型

4. 半参数模型 (Semi-parametric Model) 半参数模型结合了参数化和非参数化的方法。可以在整体上采用线性回归&#xff0c;但在局部允许非线性变化。这样做的目的是在保持模型的线性解释性的同时&#xff0c;捕捉细微的弧度趋势。 例如&#xff0c;可以定义&#xff1a; y …

终于弄懂了Python字符串的操作

字符串的操作 在 Python 中&#xff0c;字符串不仅是存储文本的工具&#xff0c;还提供了多种操作来处理和管理这些文本数据。通过掌握字符串的各种操作&#xff0c;程序员可以更加灵活地处理信息&#xff0c;实现不同的需求。以下将详细介绍字符串的常见操作&#xff0c;包括…

LInux系统编程(二)操作系统和进程

目录 一、前言&#xff1a;冯诺依曼体系结构 1、图中各个单元的介绍 2、值得注意的几点 二、操作系统 1、操作系统分层图 2、小总结 三、 进程&#xff08;重点&#xff09; 1、进程的基本概念 2、存放进程信息的数据结构——PCB&#xff08;Linux 下称作 task_struct…

加法电路和减法电路

一、加法电路 下边为加法电路的拓扑结构 加法电路作用1: 直流量叠加 如上图仿真所示,利用放大器LM324AD进行加法电路的仿真,输入为直流+1V和直流+2V,经过加法运算,根据上边Uo的计算公式进行计算,可得Uo=-3V,和仿真结果保持一致。如下图所示。 加法电路作用2: 信号叠加…

Kafka系列之:对做了条带划分的Kafka节点磁盘实现扩容的技术方案

Kafka系列之:对做了条带划分的Kafka节点磁盘实现扩容的技术方案 一、查看磁盘条带扩容情况二、查看逻辑卷及其关联的物理卷和逻辑卷快照三、显示文件系统磁盘空间使用情况及文件系统类型四、对每块盘扩容五、更改物理卷的大小六、扩展逻辑卷七、扩展XFS文件系统的大小八、扩容…

8. 数据结构——邻接表、邻接矩阵的基本操作

一、邻接表 1. 内容 2. 实现代码(直接可以复制使用) //邻接表的相关操作 #include<bits/stdc.h> #define MVnum 100 #define OK 1 #define ERROR -1 using namespace std;typedef int Status; typedef char VerTexType; //假设顶点的数据类型为char typedef int ArcT…

自动化研磨领域的革新者:半自动与自动自磨机的技术突破

据QYResearch调研团队最新报告“全球半自动和自动自磨机市场报告2023-2029”显示&#xff0c;预计2029年全球半自动和自动自磨机市场规模将达到5.3亿美元&#xff0c;未来几年年复合增长率CAGR为3.5%。 图00001. 半自动和自动自磨机&#xff0c;全球市场总体规模 如上图表/数据…

基于RFID的智能门禁系统的设计(论文+源码)

1系统总体设计 本次基于RFID的智能门禁系统的设计与实现课题&#xff0c;在功能上设计如下&#xff1a; 1.可以通过RFID模块&#xff0c;实现对IC卡的注册&#xff0c;注销操作&#xff1b; 2.在IC卡解锁时&#xff0c;如果非注册IC卡刷卡时蜂鸣器将报警提示&#xff1b; 3…