[ Linux Audio 篇 ] 音频开发入门基础知识

在短视频兴起的背景下,音视频开发越来越受到重视。接下来将为大家介绍音频开发者入门知识,帮助读者快速了解这个领域。
在这里插入图片描述
轻柔的音乐、程序员有节奏感的键盘声、嗡嗡的发动机、刺耳的手提钻……这些声音是如何产生的呢?又是如何传到我们耳中的呢?声音是振动产生的声波,通过介质(气体、固体、液体)传播并能被人或动物听觉器官所感知的波动现象。声音的频率一般会以赫兹表示,记为Hz,指每秒钟周期性震动的次数。而分贝是用来表示声音强度的单位,记为dB。

1. 认识声音

声音的物理本质非常简单,其实就是两个字:振动。我们对振动应该不陌生,振动的钟、振动 的鼓膜、振动的音叉等等。那么到底振动如何引起的声音,又怎样能被我们听到呢?

从技术上来说,声音是物理能量(如拍手)到空气压力扰动的转换。空气压力中的这种改变通过空气以一连串振动(声波)的形式传播。声音振动也可以通过其他介质传播,如墙壁或地板。

在这里插入图片描述

上图显示了正弦波的示波图(图形显示),这是最简单最纯粹的波形。如果振动不以可辨别的形式传播,则声音就称为噪声。

在这里插入图片描述波形的重复(示波器中的每个波峰和波谷)被称为循环。每秒钟发生的循环数决定波形的基本音高,通常称为频率,大部分乐器都可以提供振荡器频率控制,以赫兹 (Hz) 为单位,用于确定每秒的循环数,从而决定声音的基本音高。

2. 耳朵是如何听到声音

我们的耳朵是一个很神奇的器官,通过耳朵,我们可以感受到周围空气中的声音,转化成信息处理。能够让我们清楚的知道声音的来源。当声波进入耳朵时,会引起鼓膜和耳内的骨头振动。内耳中细小而脆弱的耳毛将振动转换为电信号发送到大脑,然后大脑将信号解析为声音。总结起来耳朵通过外耳、中耳和内耳的协同作用,将声音的机械能转化为神经信号,从而使我们能够听到声音。另外人耳并不是所有的声波都可以听到,只可以听到 20Hz 到 20KHz 之间的声波。 这个过程可以大家搜索下相关视频介绍解释的会更加清楚一些。大家可以听下这个音频,通过听感结合视频中看到的频率分析,感受下。

20Hz-20kHz

3. 工程角度的音频播放

在这里插入图片描述
从工程角度来处理声音时,首先是通过麦克风采集到声音的模拟信号。然后通过音频模数转换器,将模拟信号转换成数字信号。这些数字信号可以被计算机处理和存储,或者通过扬声器输出。扬声器会根据数字信号产生一定频率的震动,然后通过空气传播模拟信号到我们的耳朵。这样我们就能够听到对应的声音。在处理声音时,我们还会应用数字信号处理技术。通过使用数字信号处理算法,我们能够对声音进行滤波、音频增强、降噪等处理,从而进一步优化声音效果。此外,还可以利用多通道录制技术,将不同方向的声音分离出来,实现立体声效果。为了提高声音的传输质量,我们还会使用压缩算法对声音进行压缩,以减少数据量,同时保持一定的音质。这些工程技术能够使我们在日常生活中享受到更清晰、更真实的声音体验。

4. 采样率(Sample Rate)

采样率是每秒从音频信号记录的样本数量的度量。它以赫兹 (Hz) 为单位进行测量,表示每秒记录音频信号样本的频率。 样本是对特定时间点音频信号响度的度量。采样率是音频信号质量的重要因素,因为它直接影响信号的带宽。更高的采样率可以捕获音频信号的更多细节,从而提高信号质量。然而,更高的采样率也需要更多的存储空间和带宽来存储和传输音频信号。在音频行业中,根据音频信号的预期用途使用不同的采样率。一些最常用的采样率是 44.1kHz、48kHz 和 96kHz。

在这里插入图片描述
如图所示,如果想完美地重建信号,必须对原始音频进行数千个样本。在A示例中,您可以看到我们的数字结果很差,因为我们的样本不够频繁。在B示例中,我们的数字结果更好并且看起来更平滑。然而,在C示例中,数字结果与原始音频一样平滑。那是因为我们已经采集了足够的样本!换句话说,足够高的采样率可以让我们捕捉到原始声音的每一个细节。

来听一下不同采样率录制的声音,需要注意高频成分的变化,因为采样率越低,高频信息越少。首先是每秒采样次数为16000Hz, 并且可以通过频率分析观察到信号的截止频率为8kHz。

16k

接下来同样的音乐,每秒采样次数为48000Hz, 并且可以通过频率分析观察到信号的截止频率为24kHz。

48k

5. 位深度 (bit depth)

音频位深度决定了可以为每个音频样本记录的可能幅度值的数量。位深度越高,捕获的每个样本的幅度值就越多,以重新创建原始音频信号。由于声波是连续波,因此具有无数可能的振幅值,因此我们需要将其振幅值建立为数字位,以准确地再现它们。查看下面的位深度示例:
位深度 + 采样率 = 音频带宽
位深度 + 采样率 = 音频带宽

在这里我们可以看到位深度如何与采样率一起重建一个波周期。在前两个示例中,我们没有足够的可用位来平滑地再现连续声波。但在第三个示例中,我们有足够的可用位来无误地映射信号的幅度值。

当一个信号被采样时,它需要以比特存储采样的音频信息。这就是位深度发挥作用的地方。位深度决定了可以存储多少信息。具有 24 位深度的采样可以存储更多细微差别,因此比具有 16 位深度的采样更精确。

最常见的音频位深度是 16 位、24 位和 32 位。每个都是一个二进制项,代表许多可能的值。更高音频位深度的系统能够表达更多可能的值。更明确地说,让我们看看每个位深度可以存储的最大值数是多少。可以看到两个位深度之间可能值的数量存在巨大差异。

  • 16 bit代表能够存储多达 65536 级信息
  • 24 bit代表能够存储多达 16777216 级信息
  • 32 bit代表能够存储多达 4294967296 级信息

位深度影响的另一个重要因素是信号的动态范围。16 位数字音频的最大动态范围为 96 分贝,而 24 位深度将为我们提供最大 144 分贝。CD 质量的音频以 16 位深度录制,因为一般来说,我们只想处理足够响亮的声音,但同时又不足以损坏设备或耳膜。对于 44.1kHz 的采样率,16 位的位深度足以再现普通人的可听频率和动态范围,这就是它成为标准 CD 格式的原因。

6. 音频通道 (channles)

理解音频通道的最简单方法是想象轨道或交通车道。其中单声道代表一 (1) 个轨道,立体声代表两 (2) 个轨道。因此,当以单声道录制时,您将音频录制到单个轨道中。当以立体声录制时,您将音频录制到两个轨道中;左和右。显然立体声可以让声音更加有空间感,但相应的数据量要比单声道的数据量多一倍。

在这里插入图片描述
还有更多通道数,基本上可以拥有任意数量的通道(扬声器),最常见的配置有:

  • 2.0。这是普通立体声音频,具有左右扬声器。所有音乐都以立体声录制,正常的视频媒体播放都是立体声。
  • 5.1。这是最标准的环绕声格式,如果你是游戏新手,这将是最简单的。它有普通的左右扬声器、一个中置声道和 2 个环绕扬声器,通常位于您的座位区后面。
  • 6.1。它拥有 5.1 环绕声的所有功能,但包括一个额外的后环绕声道,位于您的座位区后面,以获得更身临其境的声音。
  • 7.1。这些扬声器系统具有内置系统,基本上将单个后置通道(在 6.1 系统中)的信号分成 2 个音频通道,从而为您提供更高的沉浸感。
  • 8.1 或更高。一旦超过 7.1 声道,就进入了非常专业的领域,很可能会自己构建这个系统。添加的扬声器越多,就越会有身临其境的感觉。

在这里插入图片描述

  1. 总结

首先,我们了解了声音的物理本质是振动,并且通过介质传播。其次,我们探讨了耳朵如何听到声音,以及人耳能够听到的频率范围。然后,从工程角度出发,介绍了音频是如何播放和录音的,包括麦克风采集声音、模数转换、数字信号处理等。接着,我们讨论了采样率和位深度对音频信号质量的影响。最后,我们介绍了音频通道的概念和常见配置。通过这些内容,读者可以初步了解音频开发的基础知识。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/193945.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SpringSecurity和JWT实现认证和授权

SpringSecurity和JWT实现认证和授权 框架介绍SpringSecurityJWT组成实例JWT实现认证和授权的原理 Hutool 使用表整合SpringSecurity及JWT在pom.xml中添加依赖添加JWT token的工具类添加RbacAdminService:添加自定义mapper创建SpringSecurity配置类添加ProjectSecuri…

Redis--14--BigKey 和 热点Key

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 BigKey1.什么是bigkey2.bigkey的危害3.发现bigkeyscan 4.解决bigkey 什么是热点Key?该如何解决1. 产生原因和危害原因危害 2.发现热点key预估发现客户端…

使用RTOS时需要注意的几点内容

对许多嵌入式项目来说,系统设计师都倾向于选择实时操作系统(RTOS)。但RTOS总是必要的吗? 答案是取决于具体的应用,因此了解我们要达到什么目标是决定RTOS是必要的还是花瓶的关键。 一般来说,在采用非实时操作系统(non-RTOS)的任何场合&…

praseInt 和 逻辑或连用

这是做项目时遇到json文件转换 的一个小坑 将json 对象中的值 由字符串(数字字符串) 转换为 数值类型,如果是 转换失败 ,就返回 -1 这里的 parseInt 看起来非常简洁,但是存在一个小坑 transformedData[fieldsToCheck[i]] parseInt(origina…

Stable Diffusion AI绘画系列【11】:超萌的Q版手办萌宠系列

《博主简介》 小伙伴们好,我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。 ✌更多学习资源,可关注公-仲-hao:【阿旭算法与机器学习】,共同学习交流~ 👍感谢小伙伴们点赞、关注! 《------往期经典推…

C语言memcpy,memmove的介绍及模拟实现

文章目录 每日一言memcpy介绍模拟实现 memmove介绍模拟实现思路代码 结语 每日一言 If you want to lift yourself up, lift up someone else. 如果你想振奋自己, 先振奋周遭的人。 memcpy 介绍 函数原型: void *memcpy(void *dest, const void *sr…

送女朋友一个猜数字小游戏,猜对了会显示爱心(给你心爱的他或她一个惊喜)

起因是我在学习C语言完成老师布置C语言写一个猜数字的作业,突发奇想,能不能在这个猜对了之后弹出一个不一样的页面,然后就试试看能不能实现。基本思路是这样的: 1:先写一个C语言的猜数字的小游戏,在我上个文…

StackGres 1.6 数据库平台工程功能介绍以及快速上手

StackGres 1.6 数据库平台工程功能 声明式 K8S CRs StackGres operator 完全由 Kubernetes 自定义资源管理。除了 kubectl 或任何其他 Kubernetes API 访问之外,不需要安装任何客户端或其他工具来管理 StackGres。您的请求由 CRD 的 spec 部分表示,任何 …

Redis 数据结构详解

分类 编程技术 Redis 数据类型分为:字符串类型、散列类型、列表类型、集合类型、有序集合类型。 Redis 这么火,它运行有多块?一台普通的笔记本电脑,可以在1秒钟内完成十万次的读写操作。 原子操作:最小的操作单位&a…

无懈可击的身份验证:深入了解JWT的工作原理

🎏:你只管努力,剩下的交给时间 🏠 :小破站 无懈可击的身份验证:深入了解JWT的工作原理 前言JWT的基础概念基本概念JWT的工作流程注意事项 JWT的工作原理生成令牌传输令牌验证令牌 JWT的安全性考量1. 使用强…

MySql下载和安装

MySql下载和安装 一、概述 MySQL是一个开放源代码的关系型数据库管理系统 ,由瑞典MySQL AB(创始人Michael Widenius)公 司1995年开发,迅速成为开源数据库的 No.1。 二、下载和安装 下载地址:https://dev.mysql.com…

Python编程技巧 – 迭代器(Iterator)

Python编程技巧 – 迭代器(Iterator) By JacksonML Iterator(迭代器)是Python语言的核心概念之一。它常常与装饰器和生成器一道被人们提及,也是所有Python书籍需要涉及的部分。 本文简要介绍迭代器的功能以及实际的案例,希望对广大读者和学生有所帮助。…

自然语言处理(NLP)技术-AI生成版

自然语言处理(NLP)是一种涵盖众多技术的交叉学科,旨在使计算机能够理解、生成和处理自然语言文本。它涉及语言学、计算机科学、统计学和人工智能等多个领域。下面将举例说明NLP技术在实际应用中的一些场景。 情感分析 情感分析是指使用NLP技…

Xshell会话文件解密获取密码

Xshell会话文件解密获取密码 开发了一个小工具用于获取已存储的xshell会话密码功能简介截图展示下载地址 开发了一个小工具用于获取已存储的xshell会话密码 在日常开发中,服务器太多,密码记不住。使用xshell管理服务器会话,记住密码&#xf…

Linux网络之连接跟踪 conntrack

一 Linux网络之连接跟踪 conntrack k8s 有关conntrack的分析 ① 什么是连接跟踪 netfilter连接跟踪 conntrack 详述 思考:连接跟踪模块会对哪些协议进行跟踪?TCP、UDP、ICMP、DCCP、SCTP、GRE ② 为什么需要连接跟踪 没有连接跟踪有很多问题是不好解决的&a…

WebGL笔记:js中矩阵库的使用

矩阵库 手写矩阵,其实很麻烦,可以将其模块化市面上已经有许多开源的矩阵库 比如《WebGL 编程指南》里的 cuon-matrix.jsthree.js 的 Matrix3 和 Matrix4 对象 three.js的 Matrix4 对象的用法 1 )核心代码 1.引入Matrix4对象 import { Mat…

Spring一些基础问题整理

备注:针对基本问题做一些基本的总结,不是详细解答! 1.Spring Boot与以前的Spring有什么区别? 具体可以见博客: 微服务架构具体实现工具框架:Spring Boot概览与核心原理 https://blog.csdn.net/xiaofeng103…

牛客在线编程(SQL大厂面试真题)

1.各个视频的平均完播率_牛客题霸_牛客网 ROP TABLE IF EXISTS tb_user_video_log, tb_video_info; CREATE TABLE tb_user_video_log (id INT PRIMARY KEY AUTO_INCREMENT COMMENT 自增ID,uid INT NOT NULL COMMENT 用户ID,video_id INT NOT NULL COMMENT 视频ID,start_time d…

最大乘积分解(动态规划)

相较于我上一题写的动态规划&#xff0c;这一题比较简单 代码如下&#xff1a; #include<stdio.h>int main(void) {long long n, max[101] {0, 1};scanf("%lld", &n);for(int i 1; i < n; i)max[i] i;for(int i 1; i < n; i)for(int j 1; j &…

springboot数据源配置

springboot数据源配置 数据层解决方案——持久化技术 内置持久化解决方案——jdbcTemplate 内置数据库 H2一般用于测试环境&#xff0c;配置profiels&#xff0c;只在开发阶段使用&#xff0c;让他在上线的时候不走这里就可以了 要使用内嵌的数据库H2,要先导入jar包