音视频技术开发周刊 | 325

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

cf73ca108978f381c3b627b8b2d1524f.png

AI读心术震撼登顶会!模型翻译脑电波,人类思想被投屏|NeurIPS 2023

在最近举办的NeurIPS大会上,研究人员展示了当代AI更震撼的应用场景——AI读心术!

OpenAI「登月计划」剑指超级AI!LeCun提出AGI之路七阶段,打造世界模型是首位

OpenAI「登月计划」笃定了超级人工智能必定会到来,甚至近在眼前。而在LeCun看来,实现AGI还很遥远,打造出世界模型仅是这第一步。

AI首次攻克难倒陶哲轩数学难题,DeepMind里程碑算法登Nature!LLM搜代码自我进化

困扰数学家多年、让陶哲轩直呼喜欢的上限集问题数学难题,竟然被DeepMind的新算法破解了?这是史上首个用LLM发现的算法,堪称里程碑级研究,一经发布立马登Nature。

c2a8785717c948527bf305d823efd171.png

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

2023 年底,科技公司都在冲击生成式 AI 的最后一个关卡 —— 视频生成。谷歌提出的视频生成大模型上线,立刻获得了人们的关注。这款名为 VideoPoet 的大语言模型,被人们认为是革命性的 zero-shot 视频生成工具。

NeurIPS 2023 Spotlight | 腾讯AI Lab绝悟新突破:在星际2灵活策略应对职业选手

近日,腾讯 AI Lab 的游戏 AI 团队宣布了其决策智能 AI "绝悟" 在《星际争霸 2》中的最新研究进展,提出一种创新的训练方法显著提升了 AI 的局内策略应变能力,使其在考虑了 APM 公平的对战环境中,与 3 位国内顶尖的神族职业选手各进行多达 20 局神族 vs 神族的对战,稳定地保持 50% 及以上的胜率。该成果已获 NeurIPS 2023 Spotlight 论文收录。

卷生成式AI的旗舰手机,2024年会引发一场交互革命

最近,各家手机厂商都在不约而同地做着一件事:把生成式 AI 搬上手机。先是在 10 月份的骁龙峰会上,小米放出消息,能在手机端侧运行的 60 亿参数大模型。

阿里文生视频挑战Gen-2、Pika,1280×720分辨率无压力,3500万文本-视频对显奇效

文生视频可以精细到什么程度?最近,阿里巴巴的一项研究给出了答案:1280×720 分辨率没有压力,而且生成效果非常连贯。

美图AI动漫功能的落地探索

2022年可以说是AIGC技术的元年,LLM领域的GPT和图像领域的Stable Diffusion,都属于行业的颠覆性技术。在图像领域,业界出现了如DALLE,Midjourney等基于简单描述文本生成图像的模型和工具。美图在2022年以来,发布了多项AIGC相关应用,LiveVideoStackCon 2023深圳站 邀请到了美图 影像研究院李骈臻老师分享相关经验。

ae91a6ed84e490c7bacb099780b13ac3.png

昆士兰大学等发布!激光雷达位置识别图神经网络

本文提出了一种激光雷达位置识别方法,称为P-GAT,旨在增加随时间捕获的点云之间的感知范围。与比较点云对不同,我们比较点云集之间的相似性,利用姿势图SLAM的概念来利用邻近云之间的最大空间和时间信息。通过利用内部和外部关注以及图神经网络,P-GAT关联了欧几里德空间中附近位置捕获的点云及其在特征空间中的嵌入。

深度学习特征提取匹配开源算法:SuperPoint和SuperGlue

SuperPoint和SuperGlue在CVPR2020图像匹配挑战赛中排名第一。并且通过对SuperPont和SuperGlue的优化,许多工作在CVPR2021图像匹配挑战赛中也名列前茅。

同济大学开源!基于极线约束的级联对应匹配

准确和鲁棒的对应匹配对于各种3D计算机视觉任务至关重要。然而,传统的基于显式编程的方法往往难以处理具有挑战性的场景,而基于深度学习的方法需要大量标记良好的数据集进行网络训练。在这篇文章中,我们引入了极线约束的级联对应匹配( E3CM ),这是一种解决这些限制的新方法。

3D Gaussian Splatting为什么牛啵?原理、应用场景及最新进展

3D Gaussian Splatting是最近几个月热度极高的突破性工作,对应论文“3D Gaussian Splatting for Real-Time Radiance Field Rendering”是2023年SIGGRAPH最佳论文,在短短的几个月内席卷三维视觉和SLAM领域。 

c9e73224bc73162adf9f353bb16cb3d5.png

打破“成本质量效率”不可能三角,3D生成式AI加速解决VR内容困境

在研究团队公布的论文中,3D-GPT 被描述为“可以简单地根据用户提供的文本描述生成各种各样的 3D 模型和场景”。简单来说,3D-GPT 主要完成的是从输入文字中提取信息并生成建模指令这一关键一步,而后续的建模过程则主要交给 Blender 等建模软件。

Meta Quest Haptics SDK通过v60向所有开发者开放

日前,Haptics Studio和Haptics SDK这两个工具将结束实验版本状态,并正式通过Meta Quest v60向所有开发者开放,包含新的和改进的功能,例如全新的示例项目The Sense Of Touch。另外,之前仅兼容Unity的Haptics SDK已经支持Unreal。

Steam VR开始为Quest用户提供Advanced Supersample Filtering

在日前发布的SteamVR Beta Updated – 2.2.1中,Valve正在将Advanced Supersample Filtering重新带到Meta头显,允许用户通过Steam Link和Quest Link进行启用。

981f486f68b84e567c971feec813e7c3.png

超声芯片革新脑机接口:向无创植入更进一步

Forest Neurotech 和 Butterfly Network 合作构建了一种能够实现「亚毫米精度」操作的脑机接口,相比于传统的电信号,它将使用超声波来刺激和记录大脑活动。

谈谈先进封装的失效分析

先进封装技术给半导体行业带来了变革,市场对更小、更快、更低能耗、更大算力的电子设备的需求驱动了近年来先进封装的快速发展,它追求结构的进一步微型化、更高集成度、更多功能性,以及更好的散热控制。

芯片制造的核心工艺:一文看懂薄膜沉积

薄膜的制备需要不同技术原理,因此导致薄膜沉积设备也需要不同技术原理,物理/化学等不同沉积方法相互补充。

a60baf65de9131cc173666a5f5911729.png

中科院声学所研究人员提出基于泰勒展开形式的端到端语音增强算法

在当前基于深度神经网络模型的单通道和多通道语音增强算法研究中,通常着重于设计合理的网络拓扑结构以尽可能提升降噪算法的性能,往往忽略了对深度神经网络模型自身结构设计合理性与可解释性的探索。因此在大部分现有工作中,科研人员们在结构设计和参数确定等方面经验较丰富,但这些工作缺乏数学理论的指导和支撑。

Opus编解码器中音乐检测的奥秘

Opus是一个有损音频压缩的数字音频编码格式,由Xiph.Org基金会开发,之后由互联网工程任务组(IETF)进行标准化,目标是希望用单一格式包含声音和语音,取代Speex和Vorbis,且适用于网络上低延迟的即时声音传输,标准格式定义于RFC 6716文件。

基于相关度量的自监督语音模型的噪声稳健提取

与大的语音基础模型相比,小的蒸馏模型表现出降低的噪声鲁棒性。学生的鲁棒性可以通过在预训练期间在输入处引入噪声来提高。尽管如此,使用标准蒸馏损失仍然会导致学生的表现下降。因此,本文提出了通过相关度量的蒸馏来提高学生的鲁棒性。教师行为是通过最大化教师和学生对同一性的表征之间的互相关矩阵来学习的。噪声鲁棒性通过学生的自相关最小化来鼓励。所提出的方法是不可知的教师模型,并始终优于以前的方法。这项工作还提出了一种启发式的自动权衡两个相关项的重要性。实验表明,在SUPERB Challenge上,意图分类、关键词识别和自动语音识别任务的干净和噪声泛化能力始终更好。

https://arxiv.org/abs/2312.12153

daaa159d65435ec02bb5f31ad3344289.png

AVS3实时语音标准制定取得重要进展

由腾讯提交的AI Codec为基础的技术顺利通过评审,被选为AVS3P10实时语音编码标准的RM0基线和WD过点成功。从交叉测试来看,真正实现了低码率下质量是对齐OPUS、EVS中高码率的,达到运营级质量。我们在相近码率下,MOS分差过Google和Meta方案在0.6MO-1.0MOS。

微软Edge 121将支持最先进的图像格式AVIF

Microsoft Edge 121是Microsoft浏览器的下一个稳定版本,将为所有用户带来AVIF支持 。AVIF 是一种基于AV1视频编解码器的图像格式,它比JPEG或PNG等其他格式提供更有效的压缩。这意味着与其他格式相比,AVIF 文件可以更小,同时具有相同或更高的视觉质量。

https://www.gearrice.com/update/microsoft-edge-121-will-bring-support-for-avif-the-most-advanced-image-format/ 

d3f112953b124d3183b1fde195694a98.png

依靠HDR-VMAF,Netflix的HDR视频已全部实现动态优化

据11月30日Netflixtechblog显示,Netflix现已推出动态优化 HDR(高动态范围) 视频流功能。该功能使用了新的算法HDR-VMAF,提升了用户的观看体验。Netflix于2016年开始推出HDR视频,此后其提供的HDR影片数量一直持续增长。HDR视频可以提供更广泛的色彩和更高的对比度,从而提供更趋近真实的图像。受限于不同设备和网络条件的差异,HDR视频的播放质量会受到影响。

对话星纪魅族卢勇,AR眼镜背后的产品、生态与商业思考

“留给创业公司的时间就两到三年,接下来巨头就会入局,它们可以不发产品,只做技术预研,但我们作为初创公司,等它们入场的之后再进场,就没有任何机会了。”星纪魅族集团高级副总裁、XR 事业部总裁卢勇在谈到如此时间点,星纪魅族发布两款 AR 眼镜的缘由时对 VR陀螺说道。

b7435428099b883b697f1f41cf99bdc5.png

Meta发布全新社交平台Hoziron Worlds预告片,为用户准备一系列沉浸式体验

Meta日前为元宇宙社交平台Hoziron Worlds发布了一段全新的预告片。其中,团队以“体验全新的VR冒险”为题展示了他们为用户准备了一系列沉浸式体验,包括现有和即将发行的内容。

专注用VR改善大脑健康,Virtuleap完成250万美元融资

专注于用VR来改善大脑健康的初创公司Virtuleap日前宣布获得由GED Ventures提供的250万美元融资。利用这笔资金,团队计划继续完善Enhance VR,并通过虚拟现实+人工智能的力量来改善大脑健康。

8497be852a16e92a1cb3b75d798cc9ac.png

重磅首发|2024音视频技术发展报告(文末附下载)

11月24日,在LiveVideoStackCon 2023深圳站大会上,我们与腾讯云音视频联合首发《2024音视频技术发展报告》。报告通过300+音视频开发者调研,40+专家一线访谈,下沉8大细分技术领域进行全面解读,涵盖音视频编解码/AI编码/多媒体处理框架/媒体传输协议/超低延迟技术/虚拟现实/AIGC/出海等领域,深入洞察音视频技术现状和未来发展趋势。  

点击 “阅读原文“ 

跳转报告下载链接

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/578045.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CMakeLists.txt

源码结构 生成可执行程序 # CMake最小版本号 cmake_minimum_required(VERSION 3.15.0)#增加-stdc11 set(CMAKE_CXX_STANDARD 11)#设置工程名称 project(calculate)#[[ #方法一&#xff1a;添加源码文件 #aux_source_directory(< dir > < variable >) #dir&#xf…

Python能做大项目(7) - Poetry: 项目管理的诗和远方之二

依赖管理 实现依赖管理的意义 我们已经通过大量的例子说明了依赖管理的作用。总结起来&#xff0c;依赖管理不仅要检查项目中声明的直接依赖之间的冲突&#xff0c;还要检查它们各自的传递依赖之间的彼此兼容性。 Poetry 进行依赖管理的相关命令 在 Poetry 管理的工程中&am…

基于电商场景的高并发RocketMQ实战-Commitlog基于内存的高并发写入优化、基于JVM offheap的内存读写分离机制

&#x1f308;&#x1f308;&#x1f308;&#x1f308;&#x1f308;&#x1f308;&#x1f308;&#x1f308; 【11来了】文章导读地址&#xff1a;点击查看文章导读&#xff01; &#x1f341;&#x1f341;&#x1f341;&#x1f341;&#x1f341;&#x1f341;&#x1f3…

【Hadoop】ZooKeeper数据模型Znode

ZooKeeper 数据模型ZnodeZooKeeper 中的时间ZooKeeper 节点属性 ZooKeeper 数据模型Znode 前面提过&#xff0c;Zookeeper相当于文件系统通知机制。既然是文件系统&#xff0c;那就涉及数据模型。 ZooKeeper 的数据模型在结构上和Unix标准文件系统非常相似&#xff0c;都是采用…

分类预测 | Matlab实现SCSO-SVM基于沙猫群优化算法优化支持向量机的多变量分类预测【23年新算法】

分类预测 | Matlab实现SCSO-SVM基于沙猫群优化算法优化支持向量机的多变量分类预测【23年新算法】 目录 分类预测 | Matlab实现SCSO-SVM基于沙猫群优化算法优化支持向量机的多变量分类预测【23年新算法】分类效果基本描述程序设计参考资料 分类效果 基本描述 1.Matlab实现SCSO-…

C# WPF上位机开发(windows pad上的应用)

【 声明&#xff1a;版权所有&#xff0c;欢迎转载&#xff0c;请勿用于商业用途。 联系信箱&#xff1a;feixiaoxing 163.com】 大部分同学可能都认为c# wpf只能用在pc端。其实这是一种误解。c# wpf固然暂时只能运行在windows平台上面&#xff0c;但是windows平台不仅仅是电脑…

听GPT 讲Rust源代码--src/tools(27)

File: rust/src/tools/clippy/clippy_lints/src/methods/suspicious_to_owned.rs 文件rust/src/tools/clippy/clippy_lints/src/methods/suspicious_to_owned.rs的作用是实施Clippy lint规则&#xff0c;检测产生潜在性能问题的字符转换代码&#xff0c;并给出相关建议。 在Rus…

概率论中的 50 个具有挑战性的问题 [第 6 部分]:Chuck-a-Luck

一、说明 我最近对与概率有关的问题产生了兴趣。我偶然读到了弗雷德里克莫斯特勒&#xff08;Frederick Mosteller&#xff09;的《概率论中的五十个具有挑战性的问题与解决方案》&#xff09;一书。我认为创建一个系列来讨论这些可能作为面试问题出现的迷人问题会很有趣。每篇…

详解ibm_t60(945)的板子的保护隔离和ec的待机供电

1.,首先看ec待机条件: 待机供电&#xff0c;32k时钟&#xff0c;复位&#xff0c;适配器检测&#xff0c;开关信号。但是视频居然是找适配器的接口&#xff0c;跟着视频走&#xff0c;所以我先找打了适配器接口j24。vint20为公共点&#xff0c;我查了vint20的所有接线发现没有小…

现代 NLP:详细概述,第 1 部分:transformer

阿比吉特罗伊 一、说明 近五年来&#xff0c;随着 BERT 和 GPT 等思想的引入&#xff0c;我们在自然语言处理领域取得了巨大的成就。在本文中&#xff0c;我们的目标是逐步深入研究改进的细节&#xff0c;并了解它们带来的演变。 二、关注就是你所需要的 2017 年&#xff0c;来…

CSRF(Pikachu)

CSRF&#xff08;get&#xff09; 首先我们先登录账号 admin 密码是&#xff1b;123456 点击修改个人信息 用F12或者BP 抓包看看我们的url 那么构成的CSRF攻击payload为http://pikachu.shifa23.com/pikachu/vul/csrf/csrfget/csrf_get_edit.php?sexboy&phonenum”手机…

Django-REST-Framework 如何快速生成Swagger, ReDoc格式的 REST API 文档

1、API 接口文档的几种规范格式 前后端分离项目中&#xff0c;使用规范、便捷的API接口文档工具&#xff0c;可以有效提高团队工作效率。 标准化的API文档的益处&#xff1a; 允许开发人员以交互式的方式查看、测试API接口&#xff0c;以方便使用将所有可暴露的API接口进行分…

普冉PY32系列(十四) 从XL2400迁移到XL2400P

目录 普冉PY32系列(一) PY32F0系列32位Cortex M0 MCU简介普冉PY32系列(二) Ubuntu GCC Toolchain和VSCode开发环境普冉PY32系列(三) PY32F002A资源实测 - 这个型号不简单普冉PY32系列(四) PY32F002A/003/030的时钟设置普冉PY32系列(五) 使用JLink RTT代替串口输出日志普冉PY32…

电商数据分析-02-电商业务介绍及表结构

参考 电商业务简介 大数据项目之电商数仓、电商业务简介、电商业务流程、电商常识、业务数据介绍、电商业务表、后台管理系统 举个例子:&#x1f330; 1.1 电商业务流程 电商的业务流程可以以一个普通用户的浏览足迹为例进行说明&#xff0c;用户点开电商首页开始浏览&…

shell 编程中内置的变量(冷门又好用)

简介 分别盘点一下 shell 中的内置变量&#xff0c;真的巨好用&#xff01;&#xff01;&#xff01;包括&#xff1a;环境变量类、shell 变量类、终端设置类和其他一些变量。 常用的内置变量目录如下 1. 环境变量类 $MACHTYPE&#xff1a;机器类型 $OSTYPE&#xff1a;操作…

JVM初识-----01章

一.虚拟机与java虚拟机的区别以及共同点 1.虚拟机&#xff08;Virtual Machine&#xff0c;简称VM&#xff09; 是一种能够在物理计算机上模拟一台完整的计算机系统的软件。它运行在宿主操作系统之上&#xff0c;可以提供一个独立的运行环境&#xff0c;使得在不同的操作系统上…

【深度学习-目标检测】03 - Faster R-CNN 论文学习与总结

论文地址&#xff1a;Faster R-CNN: Towards Real-Time ObjectDetection with Region Proposal Networks 论文学习 1. 摘要与引言 研究背景与挑战&#xff1a;当前最先进的目标检测网络依赖于 区域提议&#xff08;Region Proposals&#xff09;来假设目标的位置&#xff0c…

CentOS系统环境搭建(二十六)——使用nginx在无域名情况下使用免费证书设置https

centos系统环境搭建专栏&#x1f517;点击跳转 文章目录 使用nginx在无域名情况下使用免费证书设置https1.获取SSL证书1.1 生成SSL密钥1.2 生成SSL证书1.3 重命名密钥文件 2.nginx配置https2.1 放证书2.2 修改nginx.conf文件2.2.1 将80端口重定向到4432.2.2 端口443配置ssl证书…

Upload-Labs-Linux

题目 1.打开靶机 随便上传一个图片&#xff0c;查看get请求发现/upload/XXX.jpg 2.创建一个脚本文件 命名为flag.php.jpg,并上传 脚本文件内容&#xff1a; <?php eval($_POST[1234])?> 3上传后复制文件get请求的链接并打开蚁剑 连接密码为123 双击链接 4&#xff…

我在 VSCode 插件里接入了 ChatGPT,解决了Bug无法定位的难题

作为一名软件开发者&#xff0c;我时常面临着代码中Bug的定位和解决问题。这个过程往往既费时又充满挑战。然而&#xff0c;最近我在我的VSCode插件中接入了ChatGPT&#xff0c;这个决定彻底改变了我处理Bug的方式。 Bug&#xff1a;开发者的噩梦 在开发过程中&#xff0c;遇…