音视频技术开发周刊 | 326

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

3428c81ca17399dffaae481bf337e441.png

全球最强「开源版Gemini」诞生!全能多模态模型Emu2登热榜,多项任务刷新SOTA

最强的全能多模态模型来了!就在近日,智源研究院重磅发布了开源界的「Gemini」——Emu2,一口气刷新多项SOTA。

成立2年融资近9亿!AI NPC引爆游戏行业巨变,微软等大厂已经入局

成立2年融资近9亿!AI NPC引爆游戏行业巨变,微软等大厂已经入局。

谷歌DeepMind联手复仇!Jeff Dean、Hassabis万字长文总结2023绝地反击

刚刚,谷歌DeepMind联手复仇!Jeff Dean、Hassabis万字长文总结2023绝地反击。

c7ac07f3d4a8eb6789ed22491ba8af03.png

昆仑万维入选机器之心2023年度最佳大模型 TOP 20、最佳大模型产品及应用 TOP 20
近日,机器之心正式揭晓「AI 中国」机器之心 2023 年度榜单,昆仑万维天工大模型入选“最佳大模型 TOP 20”,天工APP入选“最佳大模型产品及应用 TOP 20”。

快手Agents系统、模型、数据全部开源!

快手联合哈尔滨工业大学研发的「KwaiAgents」,使7B/13B模型也能达到超越GPT-3.5的效果,并且这些系统、模型、数据、评测都开源了!

NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

在这篇 NeurIPS23 论文中,来自鲁汶大学、新加坡国立大学和中科院自动化所的研究者提出了一种视觉 「读脑术」,能够从人类的大脑活动中以高分辨率解析出人眼观看到的图像。

CPU推理提升4到5倍,苹果用闪存加速大模型推理,Siri 2.0要来了?

文生视频可以精细到什么程度?最近,阿里巴巴的一项研究给出了答案:1280×720 分辨率没有压力,而且生成效果非常连贯。

bbe66f44280edb5e7156590549c758f8.png

深度学习特征提取匹配开源算法:SuperPoint和SuperGlue

SuperPoint是AR公司——magicleap的工作, SuperGlue是magicleap和苏黎世联邦理工学院(ETH)一起合作的,在2020年附近,SuperPoint+SuperGlue在特征点提取和匹配上有很好的效果,可以达到世界第一的水平。

悉尼大学新作:坐标系在动态SLAM中究竟有多重要?

本文对动态SLAM的多种解决方案进行了深入分析,并且确定了解决该问题的最佳方案。本文旨在突出坐标系对于解决动态SLAM问题的重要性。

太强了!世界第一款开源的自动驾驶一体化框架Autoware!

Autoware最早是由名古屋大学研究小组在加藤伸平教授(Prof. Shinpei Kato)的领导下于2015年8月正式发布。

挪威科技大学开源!用于水下里程计折射相机在线自标定

本文提出了一种适用于水等折射介质的相机模型及其在水下视觉惯性里程计中的应用。该模型是实时自校准的,不需要已知的对应关系或校准目标。它可分为畸变模型(依赖于折射率n和径向像素坐标)和虚拟针孔模型(作为n的函数)。我们推导了利用极线约束的自校准公式来估计折射率,然后对畸变进行校正。

6950ae5723c69544dbd8aec5f5a3a4ee.png

国产AR操作系统告别“卡脖子”,迈向新里程碑

近日, Rokid 联合粒界科技就推动了国产 AR操作系统向前走了一大步,Rokid 新一代空间计算操作系统 YodaOS-Master 将全面支持粒界图形引擎GritGene,实现在 AR 领域软硬件产品全面自主可控和闭环,向行业释放了一系列利好的消息。

微软专利分享元宇宙远程会议中2D与3D的无缝过渡方法

远程会议的发展正在促进元宇宙的普及。然而,当前在线会议应用使用元环境的其中一个主要问题是,并非会议的所有参与者都拥有相同类型的设备。例如,特定用户操作PC,而其他用户操作VR头显。

Meta正式推出MR Utility Kit,帮助你快速构建空间感知型MR应用

Meta在Connect大会发布的实用工具套件MR Utility Kit( Unity和Unreal)现已可用,并提供了诸如Passthrough Rellighting等能够帮助你加快开发并增强应用程序真实感的功能。

dbbcc8dc0e72bb2631999dab2d0fa61e.png

EUV光刻,日本多路出击

在半导体制造过程中,光刻是最关键的步骤之一,决定了芯片的功能和性能。

被放弃的存储技术,3D XPoint细节首度公开

3D XPoint内存技术被称为英特尔与美光科技(以下简称美光)于2015年7月28日(美国时间)共同开发的大容量、高速非易失性内存技术。英特尔于2017年3月商业化了用于服务器的“傲腾SSD DC P4800X”高速SSD,并于2017年4月商业化了用于HDD缓存的“傲腾内存系列”M2卡。“Optane”是英特尔为配备 3D XPoint 内存的产品赋予的品牌名称。

被放弃的存储技术,3D XPoint细节首度公开

3D XPoint内存技术被称为英特尔与美光科技(以下简称美光)于2015年7月28日(美国时间)共同开发的大容量、高速非易失性内存技术。英特尔于2017年3月商业化了用于服务器的“傲腾SSD DC P4800X”高速SSD,并于2017年4月商业化了用于HDD缓存的“傲腾内存系列”M2卡。“Optane”是英特尔为配备 3D XPoint 内存的产品赋予的品牌名称。

一文读懂GPU的过去、现在和未来

大模型AI席卷全球,推理创新的APP、场景落地越来越多。当训练达到一定阶段,推理必然会形成一个爆发。推理的产品要起来,必然要把推理的成本降到今天 1/ 10 甚至 1/100。此时该如何选好、用好 GPU ,进而影响推理成本?

ee84954e0987a0de71a48b724001ceb3.png

ASRU2023 | U2-KWS: 基于关键词偏置的两阶段自定义关键词检出

近期,西工大音频语音与语言处理研究组(ASLP@NPU)和理想汽车合作论文“U2-KWS: Unified Two-pass Open-Vocabulary Keyword Spotting with Keyword Bias”被语音领域旗舰会议IEEE ASRU 2023接收。该论文提出了基于关键词偏置的两阶段自定义关键词检出方案U2-KWS,该方案在两级验证阶段基于注意力机制分别进行关键词偏置(bias)。

击败扩散模型,清华朱军团队基于薛定谔桥的新语音合成系统来了

近日,由清华大学计算机系朱军教授课题组发布的基于薛定谔桥的语音合成系统 [1],凭借其 「数据到数据」的生成范式,在样本质量和采样速度两方面,均击败了扩散模型的 「噪声到数据」范式。

清华大学人机语音交互实验室关于表现力语音合成自动风格控制和篇章情感分析的工作荣获最佳论文

语音合成旨在让机器根据给定的文本生成对应内容的语音。表现力语音合成(Expressive Speech Synthesis)致力于为语音合成提供更丰富的情感波动和风格变化,以提高合成语音的拟人度和感染力,在有声读物、虚拟主播、虚拟人等场景下有着广泛的应用价值,因而受到了越来越多研究者的关注。

https://arxiv.org/abs/2312.03491

郑成诗研究员科研团队发表重要综述:时频域单通道语音增强60年——从传统方法到深度学习方法

近日,中国科学院声学研究所(以下简称声学所)噪声与音频声学实验室郑成诗研究员研究团队在听觉领域期刊Trends in Hearing(中国科学院期刊分区一区top)发表综述:Sixty Years of Frequency-Domain Monaural Speech Enhancement: From Traditional to Deep Learning Methods(0时频域单通道语音增强60年——从传统方法到深度学习方法)。

座舱音频系统的架构设计和音频体验

近年来,智能座舱体验日益成为汽车竞争力的核心,智能座舱的多样体验正在成为用户购车时考虑的重要因素。 

4066cc45f150c425455dc0f8380ce54e.png

低延时视频技术的应用场景和挑战

无线网络对人们的生活产生了巨大的影响,而5G技术的引入将彻底改变我们与世界互联互通的方式。在5G时代,实现万物互联离不开低延时技术的应用。

19e9661d3ff375e02addf0d9be40d217.png

专访Meta CTO:AI已是XR杀手应用,LLM开源社区竞争没有输家

Meta CTO接受访谈,大谈AI开源竞争,认为AI开源将让所有参与者获益。同时,XR已经准备好利用AI搭建杀手应用,Meta最近推出的AR眼镜就是最好的例子。

对话国产EDA和IP厂商,如何攻克大规模数字电路设计挑战?

随着先进制程不断推进,以及AI、大数据、云计算等一系列新技术的快速发展,数字电路的处理能力越来越强,电路规模越来越大,对大规模数字芯片的需求也越来越多。因此,如何加速大规模数字电路设计就成为了业内芯片设计企业关注的焦点。

ae778b2c776c1f55c26d125066cee643.png

阿里mPLUG-Owl新升级,鱼与熊掌兼得,模态协同实现MLLM新SOTA

OpenAI GPT-4V 和 Google Gemini 都展现了非常强的多模态理解能力,推动了多模态大模型(MLLM)快速发展,MLLM 成为了现在业界最热的研究方向。

华为发布问界M9,号称一千万以内最好的SUV,有被震撼到

昨天看了华为问界M9的发布会,余总号称一千万以内最好的SUV(本来以为是个梗,发布会对标的确实很多是几百万的豪车)。计划继续完善Enhance VR,并通过虚拟现实+人工智能的力量来改善大脑健康。

郭明錤:2024年Vision Pro出货量约50万台;Meta 明年将展示一款超前 AR 眼镜原型

苹果年度重磅产品 Vision Pro 将于明年 Q1 于美国市场上市,目前业内对于 Vision Pro 的预估出货量都持不同看法。据天风国际证券分析师郭明錤最新的推文预测,Vision Pro 在明年的出货量约为 50 万台。

腾讯云音视频的创新技术、多元场景以及出海洞察

近年来,腾讯云音视频在音视频技术领域不断突破创新,从采集、编码、传输加速、云端媒体处理、分发到解码,不断探索前沿技术,并将其广泛应用于多元化的场景中。与此同时,在海外市场的实践中,腾讯云音视频积累了丰富的经验和对市场的深刻洞察。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/591550.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用echarts的bmap配置项绘制区域轮廓遮罩

示例图 代码 <template><div id"map" style"width: 100%; height: 100vh"></div> </template><script> import * as echarts from "echarts"; import "echarts/extension/bmap/bmap"; export default…

华为交换机入门(六):VLAN的配置

VLAN&#xff08;Virtual Local Area Network&#xff09;即虚拟局域网&#xff0c;是将一个物理的LAN在逻辑上划分成多个广播域的通信技术。VLAN内的主机间可以直接通信&#xff0c;而VLAN间不能直接互通&#xff0c;从而将广播报文限制在一个VLAN内。 VLAN 主要用来解决如何…

企业工商信息数据哪里获取?工商全量信息有什么渠道?

随着互联网的发展和普及&#xff0c;越来越多的企业选择在网上进行业务推广和品牌宣传。对于一些想要了解企业工商信息的用户来说&#xff0c;如何获取企业工商信息数据成了一个非常重要的问题。下面分享获取企业工商全量信息的渠道和方式&#xff1a; 首先&#xff0c;我们可以…

浏览器---善用的一些调试技巧

https://www.cnblogs.com/dasusu/p/17932742.html

记一次Oracle Cloud计算实例ssh恢复过程

#ssh秘钥丢失# &#xff0c; #Oracle Cloud# 。 电脑上的ssh秘钥文件不知道什么时候丢失了&#xff0c;直到用的时候才发现没有了&#xff0c;这下可好&#xff0c;Oracle Cloud的计算实例连不上了&#xff0c;这个实例只能通过ssh连接上去&#xff1a; 以下是解决步骤&#x…

如何在 VeriStand 中设置反射内存通道--5565PIORC

环境 硬件 cPCI-5565PIORC 软件 VeriStand 我正在设置我的反射内存 PXI 卡&#xff08;例如 cPCI-5565PIORC&#xff09;。 我可以在我的 PXI 系统之间使用反射内存发送/接收什么&#xff1f; 如何设置我的 PXI 系统之间共享的通道&#xff1f; 使用反射内存&#xff0c;您可…

梯度下降算法 寻找函数最小值 找最快下山路线 python写个梯度下降算法示例

梯度下降算法是一种用于寻找函数最小值的优化算法。 它在机器学习和深度学习中被广泛使用&#xff0c;特别是在训练神经网络时。我们可以通过一个简单的生活中的例子来理解它&#xff1a; 想象你在一座山上&#xff0c;需要找到最快的路线下山。你不能一眼看到最低点&#xf…

【深度学习下载大型数据集】快速下载谷歌云盘数据集

个人博客:Sekyoro的博客小屋 个人网站:Proanimer的个人网站 跑深度学习的时候,一些数据集比较大,比如60多个G,而且只是训练集. 然后这些数据是由某些实验室组采集的,并不像一些大公司搞的,一般都直接方法一些网盘中. 如果是谷歌网盘,本身通过代理也不麻烦,但是发现即使通过代…

计算机毕业设计——SpringBoot社区物业管理系统(附源码)

1&#xff0c; 概述 1.1 课题背景 近几年来&#xff0c;随着物业相关的各种信息越来越多&#xff0c;比如报修维修、缴费、车位、访客等信息&#xff0c;对物业管理方面的需求越来越高&#xff0c;我们在工作中越来越多方面需要利用网页端管理系统来进行管理&#xff0c;我们…

​iOS实时查看App运行日志

目录 一、设备连接 二、使用克魔助手查看日志 三、过滤我们自己App的日志 &#x1f4dd; 摘要&#xff1a; 本文介绍了如何在iOS iPhone设备上实时查看输出在console控制台的日志。通过克魔助手工具&#xff0c;我们可以连接手机并方便地筛选我们自己App的日志。 &#x1f4…

AndroidStudio导入程序、项目(教程)

目录 1. 首先解压压缩包&#xff0c;转为文件夹 2. 打开解压好的项目文件夹&#xff0c;删除.gradle和.idea这两个文件 3. 修改bulid.gradle文件&#xff0c;将gradle的版本型号改成自己的 (1) 传统结构 (2) 简洁结构 4. 打开android stdio软件&#xff0c;导入已经修改好…

【搜索引擎】elastic search核心概念

前言 本文不涉及ES的具体安装下载、操作、集群的内容&#xff0c;这部分内容会放在后面一篇文章中。本文只包含ES的核心理论&#xff0c;看完本文再去学ES的细节会事半功倍。 目录 1.由日志存储引出的问题 2.什么是ES&#xff1f; 3.ES的数据结构 4.ES的核心原理 5.联系作…

如何使用SeaFile搭建本地私有云盘并结合cpolar实现远程访问

文章目录 1. 前言2. SeaFile云盘设置2.1 SeaFile的安装环境设置2.2 SeaFile下载安装2.3 SeaFile的配置 3. cpolar内网穿透3.1 Cpolar下载安装3.2 Cpolar的注册3.3 Cpolar云端设置3.4 Cpolar本地设置 4.公网访问测试5.结语 1. 前言 现在我们身边的只能设备越来越多&#xff0c;…

系列三、下载 安装Nacos(单机版)

一、下载 & 安装Nacos&#xff08;单机版&#xff09; 1.1、下载 官网&#xff1a;https://github.com/alibaba/nacos/releases?page3 我分享的&#xff1a; 链接&#xff1a;https://pan.baidu.com/s/1-RNX1Jt3s4cwhWUzUqEHhg?pwdyyds 提取码&#xff1a;yyds 1.2、安…

Vuex(vue2中的状态机)

目录 Vuex state属性 getters属性 mutations属性 actions属性 modules属性 辅助函数 Vuex 状态管理模式 维护公共状态 公共数据 使用状态机模块维护状态 A组件中分发工作&#xff08;发起异步请求)--->获取数据--->提交突变(将数据提交给突变 ) 通过突变修改状态…

k8s的三种发布方式

三种常见的发布方式 应用程序升级面临最大挑战是新旧业务切换&#xff0c;将软件从测试的最后阶段带到生产环境&#xff0c;同时要保证系统不间断提供服务。而最为常见三种发布方式分别为&#xff1a;蓝绿发布&#xff0c;灰度发布和滚动发布。 三种发布方式的最终目的都是为了…

服务器监控软件夜莺部署(一)

文章目录 一、夜莺介绍1. 简介2. 相关网站 二、夜莺部署1. 部署架构2. Docker启动3. 配置数据源4. 内置仪表盘效果5. 时序指标效果 一、夜莺介绍 1. 简介 夜莺监控系统是一款专业的服务器监控软件&#xff0c;它可以帮助用户实时监测服务器的CPU、内存、磁盘利用率等。 夜莺监…

TecoGAN视频超分辨率算法

1. 摘要 对抗训练在单图像超分辨率任务中非常成功&#xff0c;因为它可以获得逼真、高度细致的输出结果。因此&#xff0c;当前最优的视频超分辨率方法仍然支持较简单的范数&#xff08;如 L2&#xff09;作为对抗损失函数。直接向量范数作损失函数求平均的本质可以轻松带来时…

设计模式之工厂设计模式【创造者模式】

学习的最大理由是想摆脱平庸&#xff0c;早一天就多一份人生的精彩&#xff1b;迟一天就多一天平庸的困扰。各位小伙伴&#xff0c;如果您&#xff1a; 想系统/深入学习某技术知识点… 一个人摸索学习很难坚持&#xff0c;想组团高效学习… 想写博客但无从下手&#xff0c;急需…

程序员30而立的北京之路

作为一名程序员&#xff0c;职业规划和心灵成长是我工作和生活中不可或缺的部分。30岁是一个人生中的重要节点&#xff0c;也是所谓的“而立之年”&#xff0c;在这个阶段&#xff0c;我开始更加关注自己的职业发展和内心成长。在这篇文章中&#xff0c;我将分享我在北京这座城…