音视频技术开发周刊 | 322

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

3e97688a16339fa7f816a84f4b61d8ff.png

超级AI不会主宰人类,但人工智能必须开源!LeCun最新采访引全网300万人围观

LeCun最新访谈视频中,再次坦露了自己对开源AI的看法。超级AI终有一天会诞生,但不会主宰人类。

GPT-4+物理引擎加持扩散模型,生成视频逼真、连贯、合理

扩散模型的出现推动了文本生成视频技术的发展,但这类方法的计算成本通常不菲,并且往往难以制作连贯的物体运动视频。为了解决这些问题,来自中国科学院深圳先进技术研究院、中国科学院大学和 VIVO AI Lab 的研究者联合提出了一个无需训练的文本生成视频新框架 ——GPT4Motion。

网络规模、训练学习速度提升,清华团队在大规模光电智能计算方向取得进展

随着大模型等人工智能技术的突破与发展,算法复杂度剧增,对传统计算芯片带来了算力和功耗的双重挑战。近年来,以光计算为基础、通过光电融合的方式构建光电神经网络的计算处理方法已经成为国际热点研究问题,有望实现计算性能的颠覆性提升。

Mirasol3B:一个多模态自回归模型,用于时间对齐和上下文模式

Mirasol3B 在多模态基准测试中达到了 SOTA 水平,优于规模更大的模型。通过学习更紧凑的表征,控制音频 - 视频特征表征的序列长度,并根据时间对应关系进行建模,Mirasol3B 能够有效满足多模态输入的高计算要求。

https://arxiv.org/abs/2311.05698

63870a91d9dc4e028577e865bbc3d7ec.png

ChatGPT性能最多提升214%,刷新7个榜单!IDEA、港科大广州等提出ToG思维图谱

思维链已经out啦!想让大模型会推理还是得靠知识库:基座模型还是ChatGPT,最新思维图谱技术在多个基准数据集上实现巨大性能提升!

国产大模型黑马诞生,千亿级拿下双榜第一!知识正确性能力突出,大幅降低LLM幻觉问题

夸克,也下场大模型了。甫一问世,夸克大模型就迅速登顶权威测评双榜第一,幻觉率大幅降低,可以预见,风靡年轻人的夸克APP,要掀起新的飓风了。

文生图10倍速,视频实时渲染!清华发布LCM:兼容全部SD大模型、LoRA、插件等

全面兼容Stable Diffusion生态,LCM模型成功实现5-10倍生成速度的提升,实时AI艺术时代即将到来,所想即所得!

b0f8cb1ca2877f283f01cec1dc377783.jpeg

无图感知更进一步!ScalableMap:迈向大范围高精地图新方案!

ScalableMap在线性结构的指导下提取了更准确的鸟瞰图(BEV)特征,然后提出了一种分层稀疏地图表示,以进一步利用矢量化地图元素的可扩展性,并基于这种表示设计了渐进解码机制和监督策略。ScalableMap在nuScenes数据集上取得了SOTA性能,尤其是在远程场景中,在实现18.3 FPS的同时,超过了以前最先进的模型6.5 mAP。

Stable Video Diffusion问世!3D合成功能引关注,网友:进步太快

Stability AI官方博客显示,全新SVD支持文本到视频、图像到视频生成,并且还支持物体从单一视角到多视角的转化,也就是3D合成。虽然目前只发布了基础模型,但官方透露“正计划继续扩展,建立类似于Stable Diffusion的生态系统”。目前论文代码权重已上线。

为什么GNSSer要学习RTKLIB? 

从高须知二先生2006年发布RTKLIB第一个版本开始,至今已17年,该开源代码可以说造福了无数的GNSS相关的研究者和初创公司。(https://www.rtklib.com/)  

a5b0e3d8931b73243445bebe318f43df.png

没有Ai Pin的时代,只有时代的AI

凭借特殊的可穿戴产品形态,以AI大模型作为核心驱动,加之前苹果高管下场带队,OpenAI创始人Sam Altman、微软、高通等投资背景,初创企业Humane首款硬件产品Ai Pin一鸣惊人,全球吸睛无数。

打破“硬件厂商”固有印象,HTC转舵探寻沉浸式XR生态

回看整个2023年,XR行业起伏较大,有人欢喜有人愁,但仍保持着稳步发展的趋势。不少XR硬件厂商积极推出新设备时,能明显看到技术上的进步,且大众对XR的基础认知也在走向成熟。 

微软专利提出优化的空间环境3D映射更新方法

环境的3D映射是环境中的3D位置和与3D位置相关的捕获图像的集合。所述关联或者来自描述环境中3D位置的landmark的捕获图像,或者来自由具有环境中的3D位置和方向的捕获设备捕获的图像。绘制的环境是任何室内或室外环境,如家庭、办公室内部、花园、公共火车站或其他环境。

dfaad7dad8591e57f125e03cc4df3cc8.png

短波红外成像: 新时代的消费电子市场新机遇

随着短波红外(SWIR)技术在消费电子领域的新兴应用,我们正见证一个创新技术的崛起,它有潜力彻底改变我们与设备的互动方式。苹果公司在其最新的AirPods 3和iPhone 14 Pro中采用的SWIR单像素传感器,虽然仅用于基础感应,却为功能丰富的设备增添了一个全新维度。这一突破性的应用不仅展示了SWIR技术在实现更精准、更智能的传感方面的潜力,而且还预示着它在消费电子市场中的广阔前景。

噪声分析与图像传感器生产

最近看业内新闻,听说三星的图像传感器工厂购买了Keysight的噪声分析设备,用来测量分析sensor的1/f noise和Random Telegraph noise。以前没听说过Keysight这家公司,上网wiki了一下,原来就是大名鼎鼎的安捷伦,把信号测量设备部门分拆出来就成了现在的Keysight,中文名叫‘是德科技’。惠普(HP)是安捷伦的前身,在1999年把测试测量设备部门分拆命名为安捷伦。所以也就是惠普 --> 安捷伦--> Keysight。

元镜头 —— 手机相机的下一场革命

手机相机模组的小型化一直是个难题,受光学技术限制,手机相机模组很难做得更薄,所以现在的手机机身在相机的位置都会有不同程度的突起。

8fda022eab5b48f634d796470b12ddad.png

颠覆性语音识别:单词级时间戳和说话人分离

Vue Vben Admin 是一个免费开源的中后台模板,使用最新的 vue3、vite4 和 TypeScript 等主流技术进行开发。该项目提供了现成的中后台前端解决方案,并可用于学习参考。

联合语音识别与口音识别的解耦交互多任务学习网络

由西工大音频语音与语言处理研究组(ASLP@NPU)和腾讯TEG合作的论文“Decoupling and Interacting Multi-Task Learning Network for Joint Speech and Accent Recognition”发表在语音研究顶级期刊IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP)。

https://arxiv.org/abs/2311.07062

开源语音大语言模型来了!阿里基于Qwen-Chat提出Qwen-Audio!

大型语言模型(LLMs)由于其良好的知识保留能力、复杂的推理和解决问题能力,在通用人工智能(AGI)领域取得了重大进展。然而,语言模型缺乏像人类一样感知非文本模态(如图像和音频)的能力。作为一种重要模态,语音提供了超越文本的多样且复杂的信号,如人声中的情感、语调和意图,自然声音中的火车汽笛、钟声和雷声,以及音乐中的旋律。使LLMs能够感知和理解丰富的音频信号以进行音频交互引起了广泛关注。

天琴实验室打造首支“全AI”歌手—AI力宏首支单曲《Letting Go》

10月26日,据媒体报道,华语乐坛首位官方授权的声音、视觉及衍生品均由AI生成的“全AI”歌手——AI力宏正式发行的首支单曲《Letting Go》发布,据悉,该单曲由腾讯音乐娱乐集团(TME)、宏声文化有限公司(王力宏工作室)联合打造,在QQ音乐正式上线,歌曲及视觉形象由TME旗下的天琴实验室、制作家工作室、MUX设计团队联合制作。

07f3656d65687d16c4c1b3d8f0cd04f4.png

B站故障演练平台实践

在云原生的架构下,微服务的数量呈现爆炸式增长,服务间的调用关系错综复杂,对系统可靠性也提出了更高的要求。在这样的背景之下,混沌工程的关注度也不断提升。

36a721631c90549da3575a4e74c4d4bf.png

2024年全球半导体市场走向预测 

11月28日,世界半导体贸易统计组织(WSTS)公布其对半导体市场的最新预测。由于今年第二季度和第三季度的业绩略好于春季预测,WSTS对其预测进行了修订,预计2023年全球半导体市场将出现个位数的萎缩,萎缩幅度为9.4%。WSTS指出,受惠生成式AI普及、带动逻辑芯片需求急增,加上存储需求也呈现改善,因此全球半导体市场已在2023年下半年转趋复苏,2023年全球半导体销售额预估值自前次预估的5,150.95亿美元上修至5,201.26亿美元、将年减9.4%,将为4年来(2019年以来、大减12.0%)首度陷入萎缩。 

3D NAND,如何发展? 

增加3D(三维)NAND闪存密度的方法正在发生变化。这是因为支持传统高密度技术的基本技术预计将在不久的将来达到其极限。2025 年至 2030 年间,新的基础技术的引入和转化很可能会变得更加普遍。 

b7aa9281fc0f28a2bb8e936e8cf4b137.png

传Vision Pro首批备货40万台,2024年目标100万台,第三年1000万台

据称Vision Pro首批备货40万台左右,2024年的销量目标是100万台,第三年达到1000万台

哔哩哔哩与华为达成合作,启动鸿蒙原生应用开发

在科技领域,合作与创新是推动进步的双引擎。近日,哔哩哔哩与华为在鸿蒙系统领域的全面合作,正是这一理念的最新体现。这一跨界合作不仅为哔哩哔哩带来了进入鸿蒙生态的机遇,也为华为开拓新的内容领域和技术创新提供了强有力的支持。在这个快速变化的数字时代,这次合作预示着双方将共同探索更多创新的可能性,为用户带来前所未有的智能体验。     

AMD加码印度,开设最大全球设计中心 

美国芯片制造商 AMD 周二在班加罗尔开设了其最大的全球设计中心,扩大其在印度的研究、开发和工程业务。该公司在一份新闻稿中表示,这个最先进的园区计划在未来几年容纳约 3,000 名 AMD 工程师,专注于半导体技术的设计和开发,包括 3D 堆叠、人工智能和机器学习。 

从LiveVideoStackCon 2023深圳看音视频的未来 

LiveVideoStackCon 2023深圳的第二天,大会结束之后,也意味着我们今年主要的活动都告一段落了。正好借这个机会简单总结下当下的多媒体生态,并展望下未来。 

重磅首发|2024音视频技术发展报告(文末附下载) 

11月24日,在LiveVideoStackCon 2023深圳站大会上,我们与腾讯云音视频联合首发《2024音视频技术发展报告》。报告通过300+音视频开发者调研,40+专家一线访谈,下沉8大细分技术领域进行全面解读,涵盖音视频编解码/AI编码/多媒体处理框架/媒体传输协议/超低延迟技术/虚拟现实/AIGC/出海等领域,深入洞察音视频技术现状和未来发展趋势。

点击阅读原文

跳转报告下载链接

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/197775.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

安路Anlogic FPGA下载器的驱动安装教程

安路FPGA下载器驱动安装教程 安路FPGA下载器:EN-ALC10,是一款高性能FPGA下载线(编程器),支持安路的开发软件TDS和全系列FPGA芯片下载编程,支持全速USB2.0与电脑进行数据通信,通过JTAG协议与FPGA进行程序下…

vue自定义指令:指定文字高亮

vue自定义指令:指定文字高亮 自定义指令 除了核心功能默认内置的指令 (v-model 和 v-show),Vue 也允许注册自定义指令。注意,在 Vue2.0 中,代码复用和抽象的主要形式是组件。然而,有的情况下,你仍然需要对…

JS实现成才网注册系统(网页数据验证)

主代码 <!DOCTYPE htmlPUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns"http://www.w3.org/1999/xhtml"><head><meta http-equiv"Conten…

Hadoop进阶学习---HDFS分布式文件存储系统

1.hdfs分布式文件存储的特点 分布式存储:一次写入,多次读取 HDFS文件系统可存储超大文件,时效性较差. HDFS基友硬件故障检测和自动快速恢复功能. HDFS为数据存储提供很强的扩展能力. HDFS存储一般为一次写入,多次读取,只支持追加写入,不支持随机修改. HDFS可以在普通廉价的机器…

llama.cpp部署(windows)

一、下载源码和模型 下载源码和模型 # 下载源码 git clone https://github.com/ggerganov/llama.cpp.git# 下载llama-7b模型 git clone https://www.modelscope.cn/skyline2006/llama-7b.git查看cmake版本&#xff1a; D:\pyworkspace\llama_cpp\llama.cpp\build>cmake --…

Leetcode1038. 从二叉搜索树到更大和树(每日一题)

目录 ⚽题目&#xff1a; &#x1f3d0;题目分析&#xff1a; &#x1f3c0;题目解答&#xff1a; &#x1f94e;代码如下&#xff1a; ⚽题目&#xff1a; 给定一个二叉搜索树 root (BST)&#xff0c;请将它的每个节点的值替换成树中大于或者等于该节点值的所有节点值…

SSM项目实战-前端-在Index.vue中展示第一页数据

1、util/request.js import axios from "axios";let request axios.create({baseURL: "http://localhost:8080",timeout: 50000 });export default request 2、api/schedule.js import request from "../util/request.js";export let getSchedu…

传输层可靠传输的原理

目录 1.停止等待协议 2.连续ARQ协议 3.TCP报文段的首部格式 4.TCP的滑动窗口机制 &#xff08;1&#xff09;发送窗口 &#xff08;2&#xff09;接收窗口 &#xff08;3&#xff09;发送缓存 5.超时重传时间的选择 6.选择确认SACK(Selective ACK) 7.使用滑动窗口实现…

PAD平板签约投屏-高端活动的选择

传统的现场纸质签约仪式除了缺乏仪式感之外还缺少互动性&#xff0c;如果要将签约的过程投放到大屏幕上更是需要额外的硬件设备成本。相比于传统的纸质签约仪式&#xff0c;平板现场电子签约的形式更加的新颖、更富有科技感、更具有仪式感。 平板签约投屏是应用于会议签字仪式的…

【Unity动画】为一个动画片段添加事件Events

动画不管播放到那一帧&#xff0c;我们都可以在这里“埋伏”一个事件&#xff08;调用一个函数并且给函数传递一个参数&#xff0c;参数在外部设置&#xff0c;甚至传递一个物体&#xff09;&#xff01; 嗨&#xff0c;亲爱的Unity小伙伴们&#xff01;你是否曾想过为你的动画…

WPF halcon 机器视觉

1 鼹鼠的故事第14集 鼹鼠与智能房 鼹鼠无意中坐进了一辆小汽车&#xff0c;小汽车开进了一所智能住宅。鼹鼠看到房主在智能房里&#xff0c;享受着现代化的服务。趁着主人看电视的时候&#xff0c;鼹鼠也享用了一顿丰盛的智能晚餐。 小编大胆的畅想&#xff0c;这些食物 前一秒…

上传文件获得下载链接方法:直链!直链!

&#xff01;非 百度网盘 不是直接用网盘下载&#xff0c;要用直链&#xff0c;百度上有很多方法。 我自己研究了个&#xff0c;跳过百度网盘输密码进网页的方法 还是先还是要把文件上传网盘让后搜索网盘获取直链的方法&#xff08;那百度网盘举例&#xff09; 地址 https:…

数据结构:字典树(前缀树,Trie树),压缩字典树(Radix)

字典树Trie Tree 字典树也称前缀树&#xff0c;Trie树。在 Elasticsearch 的倒排索引中用的也是 Trie 树。是一种针对字符串进行维护的数据结构。 字典树是对词典的一种存储方式&#xff0c;这个词典中的每个“单词”就是从根节点出发一直到某一个目标节点的路径&#xff0c;…

<JavaEE> 多线程编程中的“等待和通知机制”:wait 和 notify 方法

目录 一、等待和通知机制的概念 二、wait() 方法 2.1 wait() 方法的使用 2.2 超时等待 2.3 异常唤醒 2.4 唤醒等待的方法 三、notify() 方法 四、notifyAll() 方法 五、wait 和 sleep 的对比 一、等待和通知机制的概念 1&#xff09;什么是等待和通知机制&#xff1f…

EM32DX-E4【C#】

1外观&#xff1a; ecat总线&#xff0c;分布式io 2电源&#xff1a; 靠近SW拨码&#xff1a;24V 中间&#xff1a;0V 靠近面板&#xff1a;PE接地 3DI&#xff1a; 6000H DI输入寄存器 16-bit &#xff08;16位输入&#xff09; 00H U8 子索引总数 01H Unsigned16 IN1…

事务管理 springboot

事务是一组操作的集合 它是一个不可分割的工作单位 这些操作 要么同时成功要么同时失败 Spring事务管理 #Spring事务管理日志 logging: level: org.springframework.jdbc.support.JdbcTransactionManager: debug

【深度学习】回归模型相关重要知识点总结

回归分析为许多机器学习算法提供了坚实的基础。在这篇文章中&#xff0c;我们将总结 10 个重要的回归问题和5个重要的回归问题的评价指标。 一、线性回归的假设是什么 线性回归有四个假设&#xff1a; 线性&#xff1a;自变量&#xff08;x&#xff09;和因变量&#xff08;y&…

CoreDNS实战(一)-构建高性能、插件化的DNS服务器

1 概述 在企业高可用DNS架构部署方案中我们使用的是传统老牌DNS软件Bind, 但是现在不少企业内部流行容器化部署&#xff0c;所以也可以将Bind替换为 CoreDNS &#xff0c;由于 CoreDNS 是 Kubernetes 的一个重要组件&#xff0c;稳定性不必担心&#xff0c;于此同时还可将K8S集…

智能优化算法应用:基于社会群体算法无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用&#xff1a;基于社会群体算法无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用&#xff1a;基于社会群体算法无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.社会群体算法4.实验参数设定5.算法结果6.参考…

【unity3D】unity中如何查找和获取游戏物体

&#x1f497; 未来的游戏开发程序媛&#xff0c;现在的努力学习菜鸡 &#x1f4a6;本专栏是我关于游戏开发的学习笔记 &#x1f236;本篇是unity中游戏物体的查找与获取 这里写自定义目录标题 获取当前物体的基本属性查找其它物体- 通过名称查找其它物体- 通过标签查找- 通过类…