音视频技术开发周刊 | 315

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

8ca8535c5711c67d268e132cc12efa57.png

OpenAI科学家最新演讲:GPT-4即将超越拐点,1000倍性能必定涌现!

GPT-4参数规模扩大1000倍,如何实现?OpenAI科学家最新演讲,从第一性原理出发,探讨了2023年大模型发展现状。

PS+AI生图一步完成,效果惊人!Adobe Firefly 2重磅更新:模型全面升级,矢量图完美支持

Adobe的AIGC生图平台Firefly最近升级为Firefly 2,提升了图像质量、引入了矢量图生成功能,并增加了多项新功能,极大改善了用户体验,为创作和设计工作提供更出色的工具。

生成式AI全球投融资220亿美元,美国占比89%!OpenAI贡献超60%,中国AI芯片投融资世界第一,超美国两倍

美国在这次生成式人工智能的热浪中独占鳌头,获得了全球投融资的89%,但在AI芯片的投融资中,中国领先世界。


微软OpenAI联手围剿英伟达,首款自研AI芯片下月发布!

一家独大的英伟达,把微软和OpenAI都逼得亲自下场造芯片了。也许AI芯片大战才刚刚拉开帷幕。

929a805e299123acfb740100bf506e21.png

GPT-4推理更像人了!中国科学院提出「思维传播」,类比思考完胜CoT,即插即用

大模型推理难题攻克了?中国科学院联手耶鲁大学的研究人员提出了全新框架「思维传播」,让大模型能够像人类一样类比思考。


文生3D模型大突破!MVDream重磅来袭,一句话生成超逼真三维模型

文生3D模型进步!分数蒸馏采样下的MVDream,真的有这么神奇吗?真的有。


CMU华人打破大模型黑盒,Llama 2撒谎被一眼看穿!脑电波惨遭曝光,LLM矩阵全破解

大语言模型黑盒,居然被CMU等机构的学者打破了?他们发现,LLM内部有可解释的表征,如果撒谎,还能被测谎仪检测出来!


打破大模型黑盒,彻底分解神经元!OpenAI对头Anthropic击破AI不可解释性障碍

距离破解大模型「黑箱」难题又近了一步!近日,来自Anthropic的研究团队通过采用稀疏自动编码器的弱字典学习算法,从512个神经元中提取出来了4000多个可解释特征。

ecdda0afcc68f2086204e525ba5b42b7.png

清华阿里等发布PoSynDA: 多假设姿态合成域自适应的鲁棒3D人体姿态估计

由于目标域训练集中2D - 3D姿态对的稀缺性,目前的3D人体姿态估计器在适应新数据集方面面临挑战。为了克服这个问题,我们提出了多假设位姿合成域适应( PoSynDA )框架,该框架不需要大量的目标域注释。PoSynDA利用以扩散为中心的结构,模拟了目标域中的三维姿态分布,填补了数据多样性的空白。

德国马普所最新开源!神经规范场: 渲染引导空间规范变换

近期,神经场(Neural Fields)领域的巨大进展,已经显著推动了神经场景表示和神经渲染的发展。为了提高3D场景的计算效率和渲染质量,一个常见的范式是将3D坐标系统映射到另一种测量系统,例如2D流形和哈希表,以建模神经场。本文将这种坐标或者测量系统的转换定义为“规范变换”(gauge transformation)。这种规范变换通常采用预定义的函数,例如EG3D中的垂直投影和Instant-NGP中的空间哈希函数。然而,这种预先定义的函数往往并非最优选择,所以一个很自然的问题浮现出来:是否能以端到端的方式直接学习规范变换,让它与神经场一同进行优化?本研究将此问题拓展为一个广义的范式,包括连续型和离散型规范变换,并设计了统一的学习框架以共同优化规范变换和神经场。

威斯康星大学发布|利用瞬态直方图释放接近传感器的性能

本文提供了利用一类近距离飞行时间 (ToF) 距离传感器捕获的瞬态直方图来恢复平面场景几何形状的方法。瞬态直方图是一维时间波形,对入射到 ToF 传感器上的光子的到达时间进行编码。通常,传感器使用专有算法处理瞬态直方图以产生距离估计,这通常用于多种机器人应用。

巴斯大学发布:运动目标轨迹预测的视觉SLAM

视觉同时定位与建图( Simultaneous Localization and Mapping,SLAM )由于能够单独使用视觉数据估计相机轨迹并创建环境地图,近年来受到了极大的关注,为自动驾驶应用做出了巨大贡献,特别是在有移动人群和车辆的现实场景中。在这项工作中,本文提出了一个融合移动对象轨迹跟踪和预测的视觉SLAM系统。

05d222a265fc3d1591158c928d4c94e4.png

独家:国产“Vision Pro”来袭,头显的Turn-key时刻即将到来?

随着Vision Pro的发布,市场上最为兴奋的或许有两拨人:一波是VR/AR从业者以及发烧友,另外还有一波则是摩拳擦掌随时准备对产品进行开模打样的“华强北们”。

微信内测版适配Vision Pro;Meta推出企业级头显服务

据 IT 之家消息,10 月 8 日微信发布了 iOS 8.0.43 内测版更新,虽仅显示“bug fixed”看似微不足道的更新,但其内部却包含了不少界面的调整和细节优化。

升级混合现实体验!Meta Quest 3 MR功能的方方面面

随着Meta Connect大会的召开,下一代头显Quest 3也已经确定将于10月10日正式发布,定价499美元起。除了性能上的升级以外,混合现实是官方反复重点强调的功能,它可以令虚拟内容与物理世界无缝融合,同时让用户以丰富的色彩自然直观地观看和交互。

494f5e5744c6a56a235cb2aeb6d49139.png

VoiceFlow:高效的文本到语音与纠偏匹配

Rectified Flow Matching 语音合成,上海交大开源。

https://arxiv.org/abs/2309.05027

NeurIPS 2023丨说话人识别:语音解耦与自监督

该研究由新加坡国家科技局(A⋆STAR)、新加坡国立大学、香港理工大学和香港中文大学(深圳)的研究人员共同完成。该项工作已被NeurIPS 2023(main track)接收。

单通道语音唤醒与语音增强结合时的性能变化

单通道语音唤醒常应用于TWS耳机、智能手表等边缘设备上,作为语音助手的“守门员”。各信噪比下的唤醒率、每日误唤醒、唤醒延迟、模型参/算量是衡量语音唤醒算法性能的若干关键指标。低信噪比下唤醒率低,一直是语音唤醒的应用痛点和技术难点。

专业音视频领域中,Pro AV的崛起之路

在技术进步的加持下,AV行业发展得如何了?本文采访了两位深耕于广播电视行业的技术人,为我们介绍了专业音视频的进展:一位冉冉升起的新星:Pro AV以及FPGA在其中发挥的作用。

fb9be03824735e71bd8f15b9307a1e80.png

自适应流媒体智能传输优化研究

在视频流量爆发式增长的当下,面对多用户多场景的网络挑战,如何降低卡顿、提升用户体验是流媒体传输研究的关键。LiveVideoStackCon 2023上海站邀请到了清华大学博士黄天驰,为大家分享自适应流媒体智能传输优化研究进展。

云化XR和沉浸式全息交互技术的探索与思考

计算机图形与仿真技术的发展为人类带来了众多的沉浸式技术。虚拟现实(VR)、增强现实(AR)、混合现实(MR)等技术通过不同程度数字信息与现实环境的融合,为用户带来了全新体验,而统括三者的扩展现实(XR)更强调虚拟世界与现实世界的弥合,缩小人们、信息和体验之间的距离壁垒。LiveVideoStackCon 2023 上海站邀请了来自北京邮电大学的黄亚坤,为大家分享学术界关于云化XR和沉浸式全息交互技术的探索与思考 。

深度神经网络压缩与加速技术

深度神经网络是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。深度神经网络是一种判别模型,可以使用反向传播算法进行训练。随着深度神经网络使用的越来越多,相应的压缩和加速技术也孕育而生。LiveVideoStackCon 2023上海站邀请到了胡浩基教授为我们分享他们实验室的一些实践。

挑战十万在播--直播全量在播分发系统

先说明下什么叫“全量在播”,指的是直播范围内,当前所有在线主播的信息,尤其是主播的房间id和uid,对于很多上游业务来说,是必要的数据,是业务逻辑的数据基础。直播之前虽然有一套这样的系统,但是从目前运行状态看并不能面向更高体量业务支撑,而且线上也因为这种过时的在播架构工作异常发生过几次线上事故。所以正如一本书所讲,如果不杀死任何系统,你会被僵尸包围。对于这种遗留系统需要做面向未来目标的设计。

875672a36584ea68533e62bf02e2ac51.png

75岁Hinton再次警告:AI可能会接管人类!

最近,Hinton在采访中谈论了人工智能存在的各种安全隐患,担忧人类将会被其接管。

【行业分析】中美半导体产业脱钩趋势下的影响研判和应对建议

半导体产业链供应链博弈正在成为中美竞争博弈的主战场,美国加速对华脱钩、重振自身半导体产业的战略轮廓逐渐清晰,同时美国对华实施以半导体为核心的科技战将呈现长期性、谋划性和加剧性的发展趋势。为此,中国必须做好打“持久战”的战略准备。本文将主要分析当前美方强推对华半导体“断链脱钩”的主要态势,研判其对全球半导体产业、技术创新、景气周期、区域布局等多个维度产生的变化和影响,并从加强保供韧链、加快创新提级、加速市场共享、加紧造船出海等四方面对我国半导体产业提出应对建议。

4ecce3eba3bbe8c55a270a5ac93b795c.png

联丰迅声完成千万元Pre-A+轮融资

西安联丰迅声信息科技有限责任公司(以下简称“联丰迅声”)宣布完成千万级Pre-A+轮融资,本轮领投方为西安市人才基金。本轮融资资金将主要用于新产品技术研发、国内外销售团队扩充,以及生产测试线的建立等业务方向。

从ToC到ToB,MR头显Lynx-R1提价450美元至1300美元

随着目标市场的再次转变,法国硬件初创公司Lynx宣布MR头显R1将从原来的850美元提高到1300美元。

2023年9月半导体行业媒体传播报告:创芯片行业年内全球最大规模IPO,Arm纳斯达克上市!

国内方面,中国企业在光通信和存储芯片等领域份额上升,显示行业正稳步发展,但也面临产能过剩和价格战压力,企业致力产业升级。

627c645c79e5f8946571370a7cc7f03d.png


限时优惠最后1天!

时隔四年再次相聚,机会难得,不容错过。
11月24日至25日,LiveVideoStackCon 2023深圳站,期待与您共享此次音视频技术盛会,门票限时9折优惠最后1天倒计时,抓紧报名啦!

时间:2023年11月24日-25日
●地点:深圳圣淘沙酒店(翡翠店)
●咨询:13520771810(微信同号)了解详情。
●官方链接:https://sz2023.livevideostack.com/topics

7f19aedbe07841b67dbd18533232613e.jpeg

ADM活动推荐
10月19日,14:00-16:30,AMD特邀生态合作伙伴的音视频技术专家,共同举行专业音视频技术与方案的在线专场研讨会,探讨音视频技术的应用方向,展望新兴音视频技术所带来的全新视听享受。

参与本次研讨会,您将全方位地了解 AMD 为专业音视频及广播应用提供的广泛的方案和平台。无论是 FPGA、自适应 SoC,还是配备集成型 H.264/H.265 视频编解码器单元的 MPSoC …… AMD 均可提供理想的低时延 、高质量的音视频处理平台。与此同时,我们还邀请到了来自北格逻辑、赛因铸声场、伟乐科技、千视电子等合作伙伴,与大家分享在专业音视频领域的最新应用方案和IP。

预约观看链接:https://app.ma.scrmtech.com/meetings-api/sapIndex/SapSourceData?pf_uid=10980_1464&sid=82429&source=2&pf_type=3&channel_id=38863&channel_name=LVS&tag_id=06ed6279083a57fd

10712ffda6202ebe73f3d6d70e219874.png

点击阅读原文 

跳转LiveVideoStackCon 2023 深圳站 官网,了解更多信息

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/110560.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring核心扩展点BeanDefinitionRegistryPostProcessor源码分析

我们知道,只要在一个Java类上加上Component、Service、Controller等注解,就可以被加载到Spring容器中,除了以上方式,加了Bean和Import好像也可以将对象添加到Spring容器中,究竟Spring是如何实现这些功能的呢&#xff1…

Redis 主从复制,哨兵,集群——(1)主从复制篇

目录 1. Redis 主从复制是什么? 2. Redis 主动复制能干嘛? 2.1 读写分离 2.2 容灾恢复 2.3 数据备份 2.4 水平扩展支撑高并发 3. Redis 主从复制配置项 3.1 配从库不配主库 3.2 权限密码配置 3.3 基本操作命令 4. 案例演示 4.1 案例说明 4.…

tika解压遇到压缩炸弹如何继续解压

1.问题 项目中要对10层压缩的zip、7z等文件用tika解压遇到错误:tika zip bomb detected 也就是说tika认为这是个压缩炸弹。 “压缩炸弹”是一个压缩包文件的木马程序,通常只有几百KB,解压后会变成上百MB或者上GB庞然大物。把你本地磁盘占满…

迁移conda环境后,非root用户执行pip命令和jupyter命令报错/bad interpreter: Permission denied

移动conda环境,在移动的环境执行pip和jupyter 报错-bash: /data/home/用户名/anaconda3/envs/llm/bin/pip: /root/anaconda3/envs/llm/bin/python: bad interpreter: Permission denied 报错信息 一、原因 原因是当前的这个data/home/用户名/anaconda3/envs/环境名…

2022年亚太杯APMCM数学建模大赛A题结晶器熔剂熔融结晶过程序列图像特征提取及建模分析求解全过程文档及程序

2022年亚太杯APMCM数学建模大赛 A题 结晶器熔剂熔融结晶过程序列图像特征提取及建模分析 原题再现: 连铸过程中的保护渣使钢水弯液面隔热,防止钢水在连铸过程中再次氧化,控制传热,为铸坯提供润滑,并吸收非金属夹杂物…

37 WEB漏洞-反序列化之PHPJAVA全解(上)

目录 PHP反序列化演示案例:先搞一把PHP反序列化热身题稳住-无类问题-本地在撸一把CTF反序列化小真题压压惊-无类执行-实例最后顶一把网鼎杯2020青龙大真题舒服下-有类魔术方法触发-实例 https://www.cnblogs.com/zhengna/p/15661109.html 代码在线测试平台&#xff…

k8s-20 hpa控制器

hpa可通过metrics-server所提供pod的cpu 或者内存的负载情况,从而动态拉伸控制器的副本数,从而达到后端的自动弹缩 官网:https://kubernetes.io/zh-cn/docs/tasks/run-application/horizontal-pod-autoscale-walkthrough/ 上传镜像 压测 po…

IPV6 ND协议--源码解析【根源分析】

ND协议介绍 ND介绍请阅读上一篇文章:IPv6知识 - ND协议【一文通透】11.NDP协议分析与实践_router solicitation报文中不携带source link-layer address-CSDN博客 ND协议定义了5种ICMPv6报文类型,如下表所示: NS/NA报文主要用于地址解析RS/…

【数之道 08】走进“卷积神经网络“,了解图像识别背后的原理

卷积神经网络 CNN模型的架构Cnn 的流程第一步 提取图片特征提取特征的计算规则 第二步 最大池化第三步 扁平化处理第四步 数据条录入全连接隐藏层 b站视频 CNN模型的架构 图片由像素点组成,最终成像效果由背后像素的颜色数值所决定的 有这样的一个66的区域&#x…

Datawhale-新能源时间序列赛事学习笔记(1)

1.赛题描述 在电动汽车充电站运营管理中,准确预测充电站的电量需求对于提高充电站运营服务水平和优化区域电网供给能力非常关键。本次赛题旨在建立站点充电量预测模型,根据充电站的相关信息和历史电量数据,准确预测未来某段时间内充电站的充电…

Java基础20问(6-10)

6.Java接口和抽象类的区别? 不同点 1.接口在Java8之前不能写方法实现逻辑,Java8及以后的版本,可以用default关键字写方法的实现。 2.接口中方法都是public的,public可以省略,而抽象类没有这个限制。 3.接口用inter…

【MATLAB第79期】基于MATLAB的数据抽样合集(sobol、LHS、Halton、正交、随机函数)更新中

【MATLAB第79期】基于MATLAB的数据抽样合集(sobol、LHS、Halton、正交、随机函数)更新中 一、随机函数 1.指定区间随机生成数据(小数) [a b]区间随机数生成: Aa(b-a)rand(m,n) m:待生成矩阵A的行数 n: 待生成矩阵A…

物联网AI MicroPython传感器学习 之 AS608指纹识别模块

学物联网,来万物简单IoT物联网!! 一、产品简介 AS608指纹识别模块是一款高性能的光学指纹识别模块。它采用的是指纹识别芯片公司杭州晟元芯片技术有限公司生产的AS608指纹识别芯片。该芯片内置DSP运算单元,集成了指纹识别算法&am…

23.项目开发之量化交易抓取数据QuantTradeData(二)

后端业务:定时更新“A股日线行情”数据 需求说明 为了获取前一天的最新数据,我们需要每天晚上10点定时刷新daily股票列表基础信息,并将最新数据插入或更新到数据库中。 如果该内容是在当天交易日信息未更新前查询(15~16点之前&a…

《数据结构、算法与应用C++语言描述》使用C++语言实现数组循环队列

《数据结构、算法与应用C语言描述》使用C语言实现数组循环队列 定义 队列的定义 队列(queue)是一个线性表,其插入和删除操作分别在表的不同端进行。插入元素的那一端称为队尾(back或rear),删除元素的那一…

rabbitmq发送json格式 utf8编码数据

参考文章:Spring-Cloud RabbitMQ 用法 - 发送json对象 - 简书 生产者: 消费者:

哪家堡垒机支持国密算法?有哪些功能?

国密算法即国家密码局认定的国产密码算法,即商用密码。最近看到有不少小伙伴在问,哪家堡垒机支持国密算法?有哪些功能? 哪家堡垒机支持国密算法? 行云堡垒支持SM2、SM3、SM4等国产密码算法,同时支持国密…

C++使用openssl对AES-256-ECB PKCS7 加解密

/** AES-256-ECB PKCS7 加密 函数* input:经过PKCS7填充后的明文数据* outhex:加密后的命名数据16进制数,可以使用base64_encode转换为base64格式字符串密文* key:密钥* len:经过PKCS7填充后的明文数据长度*/ void AesEcb256Pkcs7Encrypt(u8 *input, u8 *outhex, u8 *key, int …

基于Java的旅游网站系统设计与实现(源码+lw+部署文档+讲解等)

文章目录 前言具体实现截图论文参考详细视频演示为什么选择我自己的网站自己的小程序(小蔡coding) 代码参考数据库参考源码获取 前言 💗博主介绍:✌全网粉丝10W,CSDN特邀作者、博客专家、CSDN新星计划导师、全栈领域优质创作者&am…

2023年中国GPS导航设备产量、销量及市场规模分析[图]

GPS导航设备行业是指生产和销售用于导航、定位和监控目的的GPS设备的行业,可以用于汽车、船只、飞机、人员和其他物体的定位和导航,以及用于地理信息系统(GIS)、测绘、海洋抢险、森林监测、地质勘探、气象预报、交通管理、物流跟踪…