ffmpeg的重采样计算

最近在看ffmpeg的重采样计算逻辑,有一句话没大看懂 dst_nb_samples = av_rescale_rnd(swr_get_delay(swr_ctx, src_rate) + src_nb_samples, dst_rate, src_rate, AV_ROUND_UP); ,各种请教之后,记录如下。

重采样后的总样本数 为什么要涵盖重采样过程中的延迟 ?

在音频重采样过程中,由于源音频和目标音频的采样率不同,需要对音频数据进行插值或者抽取操作,以使其在时间上对齐。这个过程会引入一定的延迟。

延迟的引入是由于插值或抽取操作的特性决定的。例如,当将音频从低采样率转换为高采样率时,需要通过插值来生成新的样本,这会导致插值过程中的延迟。同样地,将音频从高采样率转换为低采样率时,需要通过抽取来减少样本数,这也会引入抽取过程中的延迟

为了确保重采样后的音频数据能够包含完整的有效音频信息,包括延迟期间的音频数据,我们需要计算重采样后的总样本数。这样可以确保在重采样过程中不会丢失任何音频信息。

因此,在计算重采样后的总样本数时,需要将源音频的样本数与重采样过程中产生的延迟相加。这样可以确保目标音频数据的长度足够容纳重采样过程中产生的延迟期间的音频数据,从而保证音频质量和完整性。

重采样后的总样本数如何计算?

重采样后的总样本数可以通过以下步骤计算:

  • 使用音频重采样上下文(swr_ctx)中的函数 swr_get_delay() 获取重采样引入的延迟(以源音频样本数为单位)。这个函数通常会返回一个浮点数,表示延迟的小数部分。

  • 将获取的延迟与源音频的样本数(src_nb_samples)相加,得到重采样后的未舍入的总样本数。这个值表示重采样后的音频数据中包含的总样本数,包括延迟期间的样本数。

  • 使用 FFmpeg 提供的函数 av_rescale_rnd() 将未舍入的总样本数按比例重新缩放,以适应目标音频的采样频率。

代码解释

这行代码是使用FFmpeg库中的函数进行音频重采样的过程中的一部分。

swr_ctx:这是一个音频重采样上下文(Context),它存储了音频重采样的状态信息和参数。

src_rate:这是源音频的采样率(采样频率),表示每秒钟采样的次数。

src_nb_samples:这是源音频中的样本数,表示要进行重采样的音频数据中包含的样本数。

swr_get_delay(swr_ctx, src_rate):swr_get_delay是一个函数,它返回进行音频重采样所需的延迟(以样本数为单位)。在这里,它返回源音频在重采样过程中产生的延迟。

swr_get_delay(swr_ctx, src_rate) + src_nb_samples:这个表达式将源音频的样本数和重采样过程中的延迟相加,得到重采样后的总样本数。

dst_rate:这是目标音频的采样率,表示重采样后的音频的采样率。

av_rescale_rnd():这是一个函数,用于将一个值按比例重新缩放。它接受要缩放的值、缩放的目标范围和要使用的舍入模式(rounding mode)作为参数,并返回缩放后的结果。

av_rescale_rnd(swr_get_delay(swr_ctx, src_rate) + src_nb_samples, dst_rate, src_rate, AV_ROUND_UP):这个表达式将重采样后的总样本数按比例重新缩放,使其适应目标音频的采样率。AV_ROUND_UP是一个舍入模式,表示采用向上舍入的方式。

dst_nb_samples:这是重采样后的目标音频的样本数。

总而言之,这行代码的目的是计算重采样后的目标音频的样本数。它通过将源音频的样本数和重采样过程中产生的延迟相加,并按比例重新缩放以适应目标音频的采样率来实现。

音频连续时间戳计算逻辑分析

看下这段代码

   ret = avcodec_receive_frame(d->avctx, frame);if (ret >= 0) {AVRational tb = (AVRational){1, frame->sample_rate};if (frame->pts != AV_NOPTS_VALUE)frame->pts = av_rescale_q(frame->pts, d->avctx->pkt_timebase, tb);else if (d->next_pts != AV_NOPTS_VALUE)frame->pts = av_rescale_q(d->next_pts, d->next_pts_tb, tb);if (frame->pts != AV_NOPTS_VALUE) {d->next_pts = frame->pts + frame->nb_samples;d->next_pts_tb = tb;}}

frame->pts = av_rescale_q(frame->pts, d->avctx->pkt_timebase, tb)的含义

时间跨度= 当前应出现时间-初始时间 = 源时间戳 * 源时间基数 = 目标时间戳 * 目标时间基数

这行代码是用于将帧的时间戳(PTS)从一个时间基(timebase)转换为另一个时间基的操作。即 目标时间戳 = 源时间戳 * 源时间基数 / 目标时间基数

在这行代码中,frame->pts表示当前帧的时间戳。d->avctx->pkt_timebase表示编码器上下文(AVCodecContext)中的数据包时间基。tb则表示目标时间基。

av_rescale_q函数用于执行时间戳的转换。它接受三个参数:源值(即当前帧的时间戳),源时间基和目标时间基。函数会根据提供的时间基参数,将源值从源时间基转换为目标时间基,并返回转换后的值作为结果。

通过这个操作,可以将帧的时间戳从一个时间基转换为另一个时间基,以适应不同的容器或编解码器要求。这对于正确处理时间轴和时序是非常重要的,特别是在处理音视频同步、编辑和混流等操作时。这种转换可以确保视频和音频的时间信息在不同的上下文中保持一致和准确。

d->next_pts = frame->pts + frame->nb_samples;

假设每个音频样本的持续时间都是1/sample_count_per_second,那么存在等式:当前时间戳(单位秒)+当前音频帧的样本个数 = 下一个音频帧的开始时间戳(单位秒),据此,我们解释一下这行代码。

在这行代码中,frame->pts表示源值,即当前帧的时间戳(Presentation Timestamp,PTS)。d->avctx->pkt_timebase表示源时间基,它是编码器上下文(AVCodecContext)中的数据包时间基。

时间基是一个分数,用于表示时间的单位和精度。它通常用于将时间戳从一种表示方式转换为另一种表示方式。分数的分子表示时间单位,分母表示每秒的时间单位数。

在这里,frame->pts乘以d->avctx->pkt_timebase的目的是将当前帧的时间戳从源时间基转换为目标时间基。乘法运算的结果是一个根据源时间基和目标时间基的比例进行缩放的时间戳值。

通过执行乘法运算,可以将时间戳从一个时间基转换为另一个时间基,以便在不同的容器或编解码器之间进行正确的时间同步和时间轴处理。这种转换可以确保视频和音频的时间信息在不同的上下文中保持一致和准确。

frame->pts = av_rescale_q(d->next_pts, d->next_pts_tb, tb);

根据上面的推算,其实d->next_pts的时间基已经不是解码的时间基了,而是解码后的时间基,即目标采样率1/sample_count_per_second,所以这里有 d->next_pts_tb = tb;

音频序列号分析

d->pkt_serial是一个变量,用于表示音视频数据包的序列号。在音视频处理和同步过程中,使用序列号可以跟踪和标识不同的音视频数据包。

序列号通常用于多线程或并行处理的场景,其中音频和视频数据可能以不同的速度解码和处理。每个数据包都可以被分配一个唯一的序列号,以便在后续的处理过程中进行识别和排序。

通过使用序列号,可以实现以下功能:

  1. 数据包排序:通过比较不同数据包的序列号,可以按正确的顺序对它们进行处理,以确保音视频数据的正确同步。例如,在音视频同步中,可以根据序列号将音频和视频数据包按照时间顺序进行匹配和呈现。

  2. 错误检测:序列号可以用于检测丢失的或乱序的数据包。如果一个或多个数据包的序列号在处理过程中出现间隔或不连续,可能表明存在数据包丢失或乱序的问题。

  3. 数据包关联:序列号还可以用于将音频和视频数据包进行关联。例如,在多个音频和视频流进行混流的情况下,可以通过序列号将对应的音频和视频数据包进行匹配和关联。

综上所述,d->pkt_serial是一个用于标识和跟踪音视频数据包的序列号变量,用于实现数据包的排序、错误检测和关联等功能。

音频包处理

pkt_in_play_range 是一个表示音视频包(packet)是否处于播放范围内的标志。它通常用于音视频播放器或处理器中,以确定是否应该处理给定的音视频包。

在音视频处理中,往往会有一个播放范围(play range),用于指定在特定时间段内播放音视频数据。播放范围可以是整个音视频文件的时间范围,也可以是用户在播放器中指定的某个时间段。

pkt_in_play_range 标志用于判断当前的音视频包是否在播放范围内。如果 pkt_in_play_range 为真(非零),表示音视频包处于播放范围内,应该被处理和播放。如果 pkt_in_play_range 为假(零),表示音视频包不在播放范围内,可以选择跳过处理或忽略该包。

这个标志的设置通常由播放器或相关的音视频处理逻辑根据当前的播放位置和播放范围来决定。它可以帮助控制音视频的播放和处理,以确保只处理和呈现播放范围内的音视频数据。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/104561.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算机视觉--通过HSV和YIQ颜色空间处理图像噪声

计算机视觉 文章目录 计算机视觉前言一、实现步骤二、实现总结 前言 利用HSV和YIQ颜色空间处理图像噪声。在本次实验中,我们使用任意一张图片,通过RGB转HSV和YIQ的操作,加入了椒盐噪声并将其转换回RGB格式,最终实现对图像的噪声处…

chatGLM2-6B模型LoRA微调数据集实现大模型的分类任务

【TOC】 1.chatglm介绍 ChatGLM 模型是由清华大学开源的、支持中英双语问答的对话语言模型,并针对中文进行了优化。该模型基于 General Language Model(GLM)架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署。 ChatGLM 具备以下特点: 充…

AlmaLinux (兼容centos)安装Geant4与ROOT

AlmaLinux 介绍 AlmaLinux OS 是一个开源、社区驱动的 Linux 操作系统,它填补了因 CentOS 稳定版本停止维护而留下的空白,同时更加强大。 安装 AlmaLinux 这个我用的是 windows 子系统进行安装 首先打开微软商店,然后搜索AlmaLinux&#…

使用XLua在Unity中获取lua全局变量和函数

1、Lua脚本 入口脚本 print("OK") --也会执行重定向 require("Test") 测试脚本 print("TestScript") testNum 1 testBool true testFloat 1.2 testStr "123"function testFun()print("无参无返回") endfunction te…

【想法】取代NI的 PCIe-8371

PCIe-8371 涨价非常厉害。 PCA3 https://www.terasic.com.tw/cgi-bin/page/archive.pl?LanguageEnglish&CategoryNo65&No1143 PCA3 (PCIe Cable Adapter, Gen 3) is a conversion card to connect boards with your host PC. It can support up to PCIe Gen 3 x4. …

luajit简介

LuaJIT是一种高效的Lua解释器,其通过即时编译技术将Lua代码转换为机器代码,从而提供了非常快速的执行速度。在本文中,我们将介绍LuaJIT的原理、使用方法以及在嵌入式Linux系统中的应用示例。 LuaJIT的原理 LuaJIT基于Lua 5.1实现&#xff0…

Java前后端交互的一些细节

在后端进行POST请求后端接收前端数据时,关于PrintWriter:参考地址 注意传进来的对象为空说明未在数据库查到拥有该账号的用户,所以需要告诉前端“账号密码不正确”,如果不为空说明有该用户,所以可以登录。 Overridep…

基于天牛须优化的BP神经网络(分类应用) - 附代码

基于天牛须优化的BP神经网络(分类应用) - 附代码 文章目录 基于天牛须优化的BP神经网络(分类应用) - 附代码1.鸢尾花iris数据介绍2.数据集整理3.天牛须优化BP神经网络3.1 BP神经网络参数设置3.2 天牛须算法应用 4.测试结果&#x…

sql注入(6), 更新注入, 堆叠注入, 宽字节注入

一, 更新注入 更新操作只返回布尔型结果, 所以无法像select语句进行多样化测试, 所以更新类的操作重点就是报错注入. 注意报错注入的前提是页面上能够看到数据库的报错信息, 利用报错信息显示我们需要的数据. 情景 修改密码时对url进行post请求, 提交密码. url: http://192.…

vscode虚拟环境使用jupyter

在某虚拟环境内安装torch,但是ipyn文件保存后无法正常导入torch 1.conda环境下安装Jupyter等一切配置,进入虚拟环境 2.conda install nb_conda_kernels 3.安装完成后重新打开VSCode,在运行Jupyter notebook中的代码之前,在右上…

微软和OpenAI正在开发AI芯片, 并计划下个月发布

今年初,Chat**引起了无数网友关注,一度成为了热门话题。这是由人工智能研究实验室OpenAI开发的一款聊天机器人模型,也称为一种人工智能(AI)技术驱动的自然语言处理工具。能够通过学习和理解人类的语言来进行对话&#…

百度SEO优化全攻略(提高网站排名的5个方面)

百度SEO入门介绍: 随着互联网的不断发展,SEO已经成为网站优化的重要一环。而百度作为中国最大的搜索引擎,其SEO优化更是至关重要。SEO不仅能够提高网站排名,还能够提高网站流量、用户体验以及品牌知名度。因此,掌握百…

orgChart.js组织架构图

OrgChart.js是什么? 基于ES6的组织结构图插件。 特征 支持本地数据和远程数据(JSON)。 基于CSS3过渡的平滑扩展/折叠效果。 将图表对齐为4个方向。 允许用户通过拖放节点更改组织结构。 允许用户动态编辑组织图并将最终层次结构保存为…

[CSAWQual 2019]Web_Unagi - 文件上传+XXE注入(XML编码绕过)

[CSAWQual 2019]Web_Unagi 1 解题流程1.1 分析1.2 解题2 思考总结1 解题流程 这篇博客讲了xml进行编码转换绕过的原理:https://www.shawroot.cc/156.html 1.1 分析 页面可以上传,上传一句话php失败,点击示例发现是xml格式,那么就是XXE注入了 点击about得到flag位置: Fla…

蓝桥杯每日一题2023.10.13

组队 - 蓝桥云课 (lanqiao.cn) 题目描述 方法一:由肉眼观察找到在一至五号位的不同编号成员的最大的值 #include<bits/stdc.h> using namespace std; int main() {cout << 98 99 98 97 98;return 0; } 方法二&#xff1a;由dfs一一找寻 #include<bits/st…

图形界面四则运算计算器(Python+PyQt5)

(1) 导入所需的库和模块。 (2) 创建一个名为Calculator的类&#xff0c;继承自QMainWindow。 (3) 在Calculator类的__init__方法中&#xff0c;调用initUI方法初始化界面。 (4) 在initUI方法中&#xff0c;设置窗口标题和大小&#xff0c;创建显示结果的文本框&#xff0c;并调…

GDB 跳转执行

1、 s:进入某个函数 finish :从这个函数中出来 (gdb) b dkauth_mgr.c:132 Breakpoint 1 at 0x3423cfd4: file /home/jintao/cvf-integration/apps/cvf/services/dkauth/src/dkauth_mgr.c, line 132. (gdb) r The program being debugged has been started already. Start it …

【AI视野·今日Sound 声学论文速览 第二十四期】Thu, 12 Oct 2023

AI视野今日CS.Sound 声学论文速览 Thu, 12 Oct 2023 Totally 12 papers &#x1f449;上期速览✈更多精彩请移步主页 Daily Sound Papers Enhancing expressivity transfer in textless speech-to-speech translation Authors Jarod Duret LIA , Benjamin O Brien LIA , Yanni…

PyTorch 深度学习之处理多维特征的输入Multiple Dimension Input(六)

1.Multiple Dimension Logistic Regression Model 1.1 Mini-Batch (N samples) 8D->1D 8D->2D 8D->6D 1.2 Neural Network 学习能力太好也不行&#xff08;学习到的是数据集中的噪声&#xff09;&#xff0c;最好的是要泛化能力&#xff0c;超参数尝试 Example, Arti…

Java 基于SpringBoot的某家乡美食系统

1 简介 《Java 基于SpringBoot的某家乡美食系统》该项目含有源码、文档等资料、配套开发软件、软件安装教程等。系统功能完整&#xff0c;适合作为毕业设计、课程设计、数据库大作业学习使用。 功能介绍 这个项目是基于 SpringBoot和 Vue 开发的地方美食系统&#xff0c;包括…