音视频技术开发周刊 | 306

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

d209dad83951c929fb35ce711deff569.png

人工智能研究人员声称,通过Zoom音频检测击键的准确率为93%

通过记录按键并训练深度学习模型,三位研究人员声称,基于单个按键的声音特征,他们在解释远程按键方面的准确率达到了90%以上。

https://arstechnica.com/gadgets/2023/08/type-softly-researchers-can-guess-keystrokes-by-sound-with-93-accuracy/

GitHub 1.1万星,模拟软件开发流程,开源框架MetaGPT爆火

随着大型语言模型(LLM)的日渐成熟,利用其构建 AI 智能体成为一个新的研究方向。已有研究使用 LLM 驱动多智能体自主完成了一些任务。然而,现有研究主要集中在简单任务上,缺乏对复杂任务的探索。这主要是因为大型语言模型存在「幻觉」问题,特别是当多个智能体相互作用时,幻觉会进一步被放大,以至于无法用于复杂任务。最近,一个名为「MetaGPT」的开源框架尝试解决这个问题。

对话Sam Altman与Greg Brockman:初心和过去,信念和现在,责任和未来

近日,硅谷著名投资人Reid Hoffman和Aria Finger联手对Sam Altman和Greg Brockman进行了一场访谈,访谈涉及到主题有:OpenAI的使命,人工智能对教育、医疗等行业的变革性影响,人工智能如何面对监管,OpenAI成功的关键,未来的发展畅想。 

cd426fb5fe7d38db3a978bc59a0aaf97.png

麦肯锡:ChatGPT等生成式AI加速,美国30%工作时间将实现自动化

全球顶级咨询调查机构麦肯锡发布了《生成式AI与美国未来工作》的深度调查报告,详细分析了生成式AI对美国劳动力市场的影响。

AI日报|ChatGPT更聪明了;为什么苹果不主动在AI领域炫技?

此前有消息称,OpenAI 购买了 AI.com,以便将其重定向到 ChatGPT 网页界面,这引起了一阵骚动。

OpenAI CEO亲自示范!自定义指令上手攻略,调教专属定制化AI助手

OpenAI推出了ChatGPT的自定义指令功能后,似乎没有收到用户们的热情回应,Altman本人都下场亲自教大家使用。

NeRF与三维重建相关

本文对室外神经辐射场使用深度先验进行了全面的研究和评估,涵盖了常见的深度传感技术和大多数应用方式。

b0992e62a62bef624f5976ba7595f649.png

ICASSP 2023说话人识别方向论文合集(二)

本文是 ICASSP 2023说话人识别方向论文合集系列第二期,整理了 Speaker Verification 后16篇和 Speaker Diarization 部分的17篇。

基于AI和NPU的Codec变革——VPU与NPU的协同创新

在这个快速变化的数字媒体时代,Codec技术在视频和音频处理中扮演着至关重要的角色。AI的崛起为Codec带来了前所未有的机遇和挑战,同时VPU与NPU的发展与协同创新,使得Codec能够更好地适应复杂的场景和需求。

面对算力瓶颈,如何利用CPU解决全链路智能编码?

英特尔是半导体行业和计算创新领域的全球领先厂商。与合作伙伴一起,英特尔推动了人工智能、5G、智能边缘等转折性技术的创新和应用突破,驱动智能互联世界。

业内首次!快手直播盛夏巅峰之夜应用全链路4K+HDR直播技术

2023快手直播盛夏巅峰之夜近期在上海举行,在4小时的直播中,快手首次采用了全链路4K+HDR直播技术,实现了从清晰度到光影色彩的全面提升,为观众呈现了一场极致的视觉盛宴,这也是该项技术在业内大型直播活动中的首次应用。

eda8d9cae90dad1697e321c9919b297c.png

MediaUni——面向未来的流媒体传输网络设计与实践

本文从应用对流媒体传输网络的要求、MediaUni定位与系统架构、MediaUni技术剖析、基于MediaUni的应用落地和流媒体传输网络的未来5个方面展开介绍。

超低延时直播技术的前世今生

据中国互联网络信息中心发布的《中国互联网络发展状况统计报告》显示,截止到 2022 年 6 月我国网络直播用户规模达到了 7.16 亿,占网民整体的 68.1% 。

华为参与制定标准,无线短距通讯“卷王”来了

一年一度的华为HDC(开发者大会)如约而至,带来了万众瞩目的HarmonyOS 4.0,盘古大模型、方舟引擎等一系列前沿技术,也亮相新一代无线短距通信技术:星闪 NearLink。

a36a35ca3e0d582d23c098b5ba13fa00.png

自动驾驶与GNSS之恋

GNSS是所有卫星导航定位系统的总称,凡是可以通过捕获跟踪其卫星信号实现定位的系统,均可纳入GNSS系统的范围。GNSS信号是广播式,即只要你能收到信号,就可以实现定位,不需要用户和卫星进行交互,即理论上来说,GNSS系统的用户容量是无限的。

目前主流车企都使用的哪些车机芯片和智能驾驶芯片?

目前市面关于自动驾驶行泊一体的解决方案基本都用到多颗SoC的策略,常见组合包括低算力TDA4 * 2方案、TDA4 + 3J3方案、高算力Orin * 2(*4)方案、MDC610 * 2方案等等,多颗SoC是如何联合工作的是个很有意思的问题,今天拿TI的双TDA4方案做一下解读,其中的思路可以帮助理解其它多SoC方案。

9192d57b185bfb8016905885315b85ac.png

大有可为的模拟芯片

模拟芯片负责处理连续的模拟信号。半导体市场主要包括集成电路(即芯片)、分立器件、光电子器件、传感器等四大类产品,其中集成电路市场占比最大。

00b27d5ebe475dd3e7cac6b62c0bbda1.png

Pro Tools现已免费提供MPEG-H制作插件

Fraunhofer IIS的MPEG-H制作插件现已免费提供给Pro Tools Ultimate客户。前不久,Fraunhofer IIS宣布与Avid建立战略合作伙伴关系。Avid为Pro Tools Ultimate客户提供MPEG-H制作功能,代表着合作关系愈加深入,从而为音频创作开启无限创意可能。

https://www.audioblog.iis.fraunhofer.com/cn/mpegh-pro-tools

1d2a994fc69857dba802ebdbd0b92bf0.png

音频编解码学习--MDCT 学习

在音频编解码中,MDCT变换是一个非常重要的基础概念,它在MP3和OGG介绍中都有涉及到。MDCT变换是一种数学变换,它将时域信号转换为频域信号,这对于音频编解码来说非常关键。

b1f22c2e368137977b3d1942ac3f03e9.png

Spectral sensor及其在手机领域的应用

Spectral sensor可以说是多光谱成像的一个变种。多光谱成像一般是用在食品、工业检测,以及地球遥感成像领域。

CVPR 2023 Tutorial Talk | 走向统一的视觉理解界面

如果我们对计算机视觉模型进行类似的预测,现在我们正在应对不同类型的图像级任务,如图像分类、图像描述,以及像素级任务图像分割等。实际上我们感兴趣的是,如何遵循类似语言模型的发展路径,进行统一,并增进计算机视觉模型的人类-AI 交互。

3d7d7da44bd0733159179bb649a04747.png

告别VR噩梦!Meta Reality Labs破解虚拟痛点,重塑全新VR世界

在SIGGRAPH 2023大会上,来自Meta Reality Labs的两个原型机让我们看到了「未来的一瞥」。

显示技术专家Karl谈Vision Pro:用虚拟屏替代物理屏是荒谬想法

近眼显示技术专家卡尔·古塔格(Karl Guttag)对苹果Vision Pro的分析。

CVPR 2023教程 | 多模态智能体-链接大模型

在 Linjie Li 的演讲中,她回答了多模态智能体中的重要问题之一:如何用大模型将多模态智能体串联起来。

33fb2bd7fabd7f3d49c5ba8228f2571b.png

全球半导体行业格局与演变趋势

过去五年里,芯片制造行业发生了重大变化,例如英特尔将桂冠输给了两个相对较新的竞争者——三星和台积电。

NVIDIA使扩展现实流更具可扩展性,可定制给企业和开发人员

各行各业的组织都在使用扩展现实(XR)来重新设计工作流程并提高生产力,无论是沉浸式培训还是协作式设计。

https://blogs.nvidia.com/blog/2023/08/08/cloudxr-suite-simplifies-enterprise-streaming/

d7e20edd6e462c7f31f3d645632d37de.png

室温超导:一个反复上演 “狼来了” 的研究领域

一队韩国学者发布两篇论文,宣布物理学领域重大突破,世界震动之余又将信将疑。一些同行试图通过重复实验或计算验证可行性,也有一些学者提醒公众别激动得太早。如今复现实验有了新进展 —— 整体不乐观,不过出现了积极的证据 —— 学界还在疑惑,资本市场已被点燃。

专访腾讯技术专家张贤国:十余年视频编码老兵,对技术仍保有敬畏之心

Vision Pro的发布,点燃了空间计算新时代的热潮。作为腾讯云架构平台部香农实验室(以下简称香农实验室)的技术负责人,张贤国向我们分享了香农实验室在视频编解码和空间媒体处理能力的最新进展与布局。

对话咔嚓剪辑金邦飞 | 如果把我的人生类比成播放器去开发与设计...

至今,多媒体的发展史大约有40年的时间,这40年里, 一代代技术人不断投身于多媒体事业的汪洋。LiveVideoStack此次采访金邦飞——深耕该领域的技术老兵。关注多媒体技术标杆的时代故事。

d3d9e95c599883ab3b79c5b372405e8d.png

LiveVideoStackCon 2023 深圳站 已启动

LiveVideoStackCon 2023 深圳站音视频技术大会以「沉浸·新视界」为主题。经过近十年的快速发展,多媒体生态正在向精致优化发展,更注重细节、成本,内卷和出海成为压力输出口。一方面,在现有市场及业务竞争仍旧相当激烈的环境下,企业开始更多关注于如何降低成本、追求更高的利润,以及面向用户提供更优质的服务与体验;另一方面,对于不断涌现的更多新的技术、场景,逐步探索并利用其创造更多的业务、产品与商业价值是各企业持续关注的目标。本次深圳站,我们拟邀请几十位来自海内外的音视频领域的专家聚集一堂,与你共同分享他们的专业见解。(点此查看大会讲师名单,更多精彩敬请期待)。

4bf8e0a9e76d2851eaa981dc3762e203.png

d2e7f8c6fb8b07ac4464ab72899e9877.png

点击阅读原文 

跳转LiveVideoStackCon 2023 深圳站 官网,了解更多信息

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/39226.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

eclipse 导入项目js报错问题

eclipse 导入项目后会出现项目中的js文件报错(红叉),如下图所示,有时候报错的文件很多,需要集中处理。 解决办法: 右键项目名称》Properties》MyEclipse》JavaScript》Include Path,在右侧选择“…

vim键盘图

国外:http://www.viemu.com/a_vi_vim_graphical_cheat_sheet_tutorial.html,原创,有SVG图,有分步骤的图。 国内翻译:[https://blog.csdn.net/qq_41052753/article/details/101031847 有几个配色,很高清&…

【华为Datacom 综合拓扑案例—分享篇】

拓扑图 题目要求 实验要求: 1、PC1\PC2\PC3\PC4采用DHCP自动获取IP地址,SW5作为服务器,SW3和SW4作为中继 创建地址池ip pool huawei1和ip pool huawei2,租期都为2天 2、SW3与SW4做链路聚合,采用LACP模式。SW3作为主…

【Java 集合框架API接口】Collection,List,Set,Map,Queue,Deque

博主:_LJaXi Or 東方幻想郷 专栏: Java | 从跨行业到跨平台 开发工具:IntelliJ IDEA 2021.1.3 Java集合框架 API接口 Collection接口List接口HashSet, TreeSetSet接口使用 HashSet 实现使用 TreeSet 实现 HashMap、TreeMapMap接口…

SQL-每日一题【1341. 电影评分】

题目 表:Movies 表:Users 请你编写一个解决方案: 查找评论电影数量最多的用户名。如果出现平局,返回字典序较小的用户名。查找在 February 2020 平均评分最高 的电影名称。如果出现平局,返回字典序较小的电影名称。 …

MySQL 约束

查看约束 select * from information_schema.table_constraints where table_name要查看的表名按约束的作用范围 列级约束: 将此约束声明在对应字段的后面 表级约束:在表中所有字段都声明完,在所有字段的后面声明的约束,可以声明…

数据结构的树存储结构

数据结构的树存储结构 之前介绍的所有的数据结构都是线性存储结构。本章所介绍的树结构是一种非线性存储结构,存储的是具有“一对多”关系的数据元素的集合。 (A) (B) 图 1 树的示例 图 …

【Java】2021 RoboCom 机器人开发者大赛-高职组(复赛)题解

7-8 人工智能打招呼 号称具有人工智能的机器人,至少应该能分辨出新人和老朋友,所以打招呼的时候应该能有所区别。本题就请你为这个人工智能机器人实现这个功能:当它遇到陌生人的时候,会说:“Hello X, how are you?”其…

chatglm2-6b模型在9n-triton中部署并集成至langchain实践 | 京东云技术团队

一.前言 近期, ChatGLM-6B 的第二代版本ChatGLM2-6B已经正式发布,引入了如下新特性: ①. 基座模型升级,性能更强大,在中文C-Eval榜单中,以51.7分位列第6; ②. 支持8K-32k的上下文&#xff1b…

【Linux】进程地址空间

目录 一、回顾我们以前学习的地址空间二、进程地址空间三、进程地址空间的作用四、解决一个地址出现两个值的问题 一、回顾我们以前学习的地址空间 这个内存布局真是的我们实实在在的内存嘛&#xff1f; 答案是不是的 下面我们来验证 1 #include<stdio.h>2 #include<a…

从三个主要需求市场分析,VR全景创业的潜力发展

VR全景&#xff0c;5G时代朝阳产业&#xff0c;其实拍摄制作很简单&#xff0c;就是利用一套专业的相机设备去给商家拍摄&#xff0c;结合后期专业的3DVR全景展示拍摄制作平台&#xff0c;打造3D立体环绕的效果&#xff0c;将线下商家真实环境1&#xff1a;1还原到线上&#xf…

使用docker快速搭建wordpress服务,并指定域名访问

文章目录 引入使用docker快速跑起服务创建数据库安装wordpress服务配置域名 引入 wordpress是一个基于PHP语言编写的开源的内容管理系统&#xff08;CMS&#xff09;&#xff0c;它有丰富的插件和主题&#xff0c;可以非常简单的创建各种类型的网站&#xff0c;包括企业网站、…

AI Chat 设计模式:15. 桥接模式

本文是该系列的第十五篇&#xff0c;采用问答式的方式展开&#xff0c;问题由我提出&#xff0c;答案由 Chat AI 作出&#xff0c;灰色背景的文字则主要是我的一些思考和补充。 问题列表 Q.1 如果你是第一次接触桥接模式&#xff0c;那么你会有哪些疑问呢&#xff1f;A.1Q.2 什…

内网隧道—HTTP\DNS\ICMP

本文仅限于安全研究和学习&#xff0c;用户承担因使用此工具而导致的所有法律和相关责任&#xff01; 作者不承担任何法律和相关责任&#xff01; HTTP隧道 Neo-reGeorg Neo-reGeorg 是一个旨在积极重构 reGeorg 的项目&#xff0c;目的是&#xff1a; 提高可用性&#xff0…

山西电力市场日前价格预测【2023-08-17】

日前价格预测 预测明日&#xff08;2023-08-17&#xff09;山西电力市场全天平均日前电价为376.70元/MWh。其中&#xff0c;最高日前电价为431.75元/MWh&#xff0c;预计出现在19: 45。最低日前电价为339.25元/MWh&#xff0c;预计出现在13: 15。 价差方向预测 1&#xff1a; 实…

【Unity造轮子】制作一个简单的2d抓勾效果(类似蜘蛛侠的技能)

文章目录 前言开始1. 实现简单的抓勾效果2. 高阶钩爪效果 源码参考完结 前言 欢迎阅读本文&#xff0c;本文将向您介绍如何使用Unity游戏引擎来实现一个简单而有趣的2D抓勾效果&#xff0c;类似于蜘蛛侠的独特能力。抓勾效果是许多动作游戏和平台游戏中的常见元素&#xff0c;…

【AI绘画】3分钟学会ikun幻术图

目录 前言一、效果展示二、准备工作三、操作步骤3.1平台创建实例3.2 启动SD 四、安装QR Code Monster 模型五、成图 前言 大家热爱的ikun幻术在今天的分享中将呈现。在本文中&#xff0c;我们将揭示一个备受欢迎的图像幻术技术&#xff0c;让您感受到令人惊叹的视觉创造力。 …

springboot+vue游戏攻略推荐网站的设计与开发_s5832

热门网游推荐网站是一个利用JAVA技术建设的网上管理系统&#xff0c;在热门网游推荐管理中实现信息化。系统的设计就是为了迎合广大用户需求而创建的一个界面简洁、有定向内容、业务逻辑简单易操作的热门网游推荐网站。本文以热门网游推荐为例&#xff0c;提出了利用JAVA技术设…

Linux下grep通配容易混淆的地方

先上一张图: 我希望找到某个版本为8的一个libXXX.8XXX.so ,那么应该怎么写呢? 先看这种写法对不对: 是不是结果出乎你的意料之外? 那么我们来看一下规则: 这里的 "*" 表示匹配前一个字符的零个或多个 于是我们就不难理解了: lib*8*.so 表示 包…

医疗PACS源码,支持三维多平面重建、三维容积重建、三维表面重建、三维虚拟内窥镜

C/S架构的PACS系统源码&#xff0c;PACS主要进行病人信息和影像的获取、处理、存储、调阅、检索、管理&#xff0c;并通过网络向全院提供病人检查影像及诊断报告&#xff1b;各影像科室之间共享不同设备的病人检查影像及诊断报告;在诊断工作站上&#xff0c;调阅HIS中病人的其它…