音频和视频基础知识

声音

什么是声音:
声音是由物体振动产生的,物体发生振动,对周围的空气产生挤压,从而产生声音。声音是一种压力波,使周围的空气产生疏密变化,形成疏密相间的纵波,由此产生了声波

声波三要素:

要素解释
频率代表音阶的高低,频率越高,波长就越短。人类的耳朵听力的频率范围为20Hz~20kHz。
振幅代表响度;即能量大小的反映,实际生活中,分贝常用于描述响度的大小。
波形代表音色,波的形状决定了其所代表声音的音色,比如钢琴和小提琴的音色不同就是因为它们的介质所产生的波形不同。

声音的传播介质:
声音的传播介质很广,比如空气、液体和固定等;介质不同,传播的速度也不同,但在真空中无法传播。空气中传播速度340m/s,蒸馏水中传播速度1497m/s,钢铁中传播速度为5200m/s

回声(echo):
声音在传播过程中遇到障碍物反弹回来,再次传到耳朵中,就形成了回声。但是若这两种声音传到我们的耳朵里的时差小于80ms,我们无法区分这两种声音。

共鸣:
敲击一个物体时另一个物体也会振动发声,这种现象称为共鸣。共鸣证明了声音传播可以带动另外一个物体振动,也就是声音的传播也是一种能量的传播过程。

数字音频

模拟信号转换成数字信号,需要经过采样、量化。
采样:在时间轴上对信号进行数字化。所谓的44.1kHz就是代表1秒回采样44100次。
在这里插入图片描述
量化:在幅度轴上对信号进行数字化。比如用16比特的二进制信号来标识声音的一个采样,而16比特共有65536个可能取值,因此最终模拟信号在幅度上也分为65536层。
在这里插入图片描述
PCM:通常所得音频裸数据格式就是脉冲编码调制(Pulse Code Modulation,PCM)数据。
比特率(码率): 描述一段音频一秒内的大小,称为数据比特率。

音频编码

音频编码:就是对音频进行压缩,压缩编码的基本指标之一就是压缩比。压缩编码包括有损压缩和无损压缩。压缩编码的原理实际上是压缩掉冗余信号,冗余信号是指不能被人耳感知到的信号,包含人耳听觉范围之外的音频信号以及被掩蔽掉的音频信号等。
常用的音频编码格式:

编码格式解释
WAV不进行压缩操作,只是在PCM数据格式的前面加上44字节,分别用来描述PCM的采样率、声道数、数据格式等信息
MP3有着不错的压缩比,全称是动态影像专家压缩标准音频层面3(Moving Picture Experts Group Audio Layer III),简称为MP3。它被设计用来大幅度地降低音频数据量。利用 MPEG Audio Layer 3 的技术,将音乐以1:10 甚至 1:12 的压缩率,压缩成容量较小的文件,而对于大多数用户来说重放的音质与最初的不压缩音频相比没有明显的下降。
AACAAC(Advanced Audio Coding)是一种音频压缩格式,旨在提供比MP3更好的音质和更高的压缩比。它是MPEG-4标准的一部分,并且被广泛用于数字音频广播、流媒体和存储媒体中。AAC采用了先进的编码技术,如预测编码、离散余弦变换(DCT)和量化,以及更复杂的心理声学模型,以提供更好的音频质量。与MP3相比,AAC通常能够提供更高的音频质量,尤其是在低比特率下。
OGGOgg是一种免费的、开源的、无损的音频压缩格式,其全称是Ogg Vorbis。与MP3和AAC不同,Ogg旨在提供无损的音频质量,而不是有损的压缩。

视频

三原色:红绿蓝三种色光无法被分解,故称为三原色光,等量的三原色光相加会变成白色。
像素:像素(Pixel)是数字图像的基本单位,由英文单词“Picture”和“Element”组合而成。每个像素代表图像中的一个最小采样点,具有特定的位置和灰度值或颜色值。在数字图像中,像素通常按照矩阵形式排列,形成一张完整的图像。
数字图像:数字图像是以数字形式表示的图像,通常由像素组成。每个像素具有特定的位置和灰度值或颜色值,可以表示图像中的不同信息。数字图像通常存储在计算机中,可以进行各种计算和处理。数字图像处理是一种将图像信号数字化后利用计算进行处理的过程。数字图像可以转换为数字信号,并通过各种算法和计算进行处理。常见的数字图像处理操作包括图像增强、滤波、变换、分析、识别和分类等。

图像的数值表示:通常有RGB方式和YUV方式。
YUV和RGB转换:所有渲染到屏幕上的都需要转换为RGB的表示形式。

在这里插入图片描述
分辨率:图像分辨率是指单位英寸中所包含的像素点数,其定义更趋近于分辨率本身的定义。图像分辨率则是单位英寸中所包含的像素点数,其定义更趋近于分辨率本身的定义。此外还有屏幕分辨率。

帧率(fps):是指每秒显示的帧数,是评估视频流畅度的指标。一般来说,30fps就是可以接受的,60fps则可以明显提升交互感和逼真感,超过75fps后,人的肉眼就不会再有明显提升的感受。

视频编码

视频编码:为了去除视频的冗余信息,实现视频的压缩,需要对视频进行编码,相比较音频数据,视频数据具有极强的相关性,拥有大量的冗余,包括空间冗余、时间冗余和统计冗余等等。
常见的编码方式: H261、H262、H264、H265、H266、VP8、VP9、AV1、AVS、AVS3等等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/622934.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HUAWEI华为MateStation S台式机电脑12代PUC-H7621N,H5621N原装出厂Windows11.22H2系统

链接:https://pan.baidu.com/s/1QtjLyGTwMZgYiBO5bUVPYg?pwd8mx0 提取码:8mx0 原厂WIN11系统自带所有驱动、出厂主题壁纸、系统属性专属联机支持标志、Office办公软件、华为电脑管家等预装程序 文件格式:esd/wim/swm 安装方式&#xf…

dbeaver连接人大金仓报错 can‘t load driver class ‘com.kingbase8.Driver;‘

dbeaver可以连接很多数据库,设置dbeaver连接人大金仓,下载安装完成后,需要自行配置人大金仓的驱动,否则无法连接数据库。 一、dbeaver 下载 dbeaver 下载地址:https://dbeaver.io/download/ 二、查找人大金仓驱动 首…

[含完整代码]Linux使用.sh脚本自动部署(启动|停止|状态|日志)项目[超详细]

前言: 个人博客:www.wdcdbd.com 我们在linux部署.jar项目时,都需要通过java -jar的形式来部署,每次都要手动停止,部署,这样用起来会很麻烦。所以,这篇文章就是自己通过.sh脚本一键启动&#xf…

XCTF:hello_pwn[WriteUP]

使用checksec查看ELF文件信息 checksec 4f2f44c9471d4dc2b59768779e378282 这里只需要注意两个重点: Arch:64bit的文件,后面写exp的重点 Stack:No canary found 没有栈溢出保护 使用IDA对ELF文件进行反汇编 双击左侧的函数栏…

陶瓷碗口缺口检测-图像分割

图像分割 由于对碗口进行缺口检测,因此只需要碗口的边界信息。得到陶瓷碗区域填充后的图像,对图像进行边缘检测。这是属于图像分割中的内容,在图像的边缘中,可以利用导数算子对数字图像求差分,将边缘提取出来。 本案…

test-04-test case generate 测试用例生成 tcases A model-based test case generator

拓展阅读 junit5 系列 基于 junit5 实现 junitperf 源码分析 Auto generate mock data for java test.(便于 Java 测试自动生成对象信息) Junit performance rely on junit5 and jdk8.(java 性能测试框架。性能测试。压测。测试报告生成。) 自动生成测试用例 Tcases&#xf…

查看lucene和elasticsearch的版本对应关系

一、Maven仓库官网: https://mvnrepository.com/ 二、搜索elasticsearch,然后点击Server或者elasticsearch进入。 三、点击相应的版本号进入。 四、查看对应的lucene版本。 END

SwiftUI CoreData Picker

开发多账本功能 CoreData 与 Picker 的使用 上代码: // // TestZhangBenPicker.swift // pandabill // // Created by 朱洪苇 on 2024/1/14. //import SwiftUIstruct TestZhangBenPicker: View {FetchRequest(sortDescriptors: [SortDescriptor(\.cc_at)],anima…

VMware迁移虚拟机教程,适用于换电脑、重装系统

新购入了一台电脑,接下来可能会有连续好多篇与装机/重装系统/装软件有关的文章,平时可能只是纸上谈兵,这次是花重金买素材了,建议收藏 问题背景:在之前的电脑上,安装了VMware Workstation,并配…

第三十九周:文献阅读+Transformer

目录 摘要 Abstract 文献阅读:CNN与LSTM在水质预测中的应用 现有问题 提出方法 相关模型 CNN LSTM CNN-LSTM神经网络模型 模型框架 CNN-LSTM神经网络 研究实验 数据集 模型评估指标 数据预处理 实验设计与结果 研究贡献 Transformer Encoder-Dec…

C#灵活的任务调度组件FluentScheduler

FluentScheduler是一个C#的灵活的任务调度组件,支持各类任务调度。网上有很多演示代码,此处记录下来,方便自己查找。 // See https://aka.ms/new-console-template for more information //Console.WriteLine("Hello, World!");us…

prometheus常用exporter

一、node-exporter node_exporter:用于监控Linux系统的指标采集器。 未在k8s集群内的linux机器监控 GitHub - prometheus/node_exporter: Exporter for machine metrics 常用指标: •CPU • 内存 • 硬盘 • 网络流量 • 文件描述符 • 系统负载 •…

Win系统搭建Elasticsearch实现公网远程访问本地服务

文章目录 系统环境1. Windows 安装Elasticsearch2. 本地访问Elasticsearch3. Windows 安装 Cpolar4. 创建Elasticsearch公网访问地址5. 远程访问Elasticsearch6. 设置固定二级子域名 Elasticsearch是一个基于Lucene库的分布式搜索和分析引擎,它提供了一个分布式、多…

七、Qt 信号和槽

在QT4以上的版本,在窗体上用可以通过选中控件,然后点击鼠标右键单击按钮,选择“转到槽”。可以自动创建信号和槽。 选择clicked(),并点击 ok Qt Creator会给头文件和代码文件自动添加 这个按钮的单击事件(信号和槽)。 …

【Docker】centos中及自定义镜像,并且上传阿里云仓库可提供使用

🎉🎉欢迎来到我的CSDN主页!🎉🎉 🏅我是平顶山大师,一个在CSDN分享笔记的博主。📚📚 🌟推荐给大家我的博客专栏《【Docker】centos中及自定义镜像,…

零零鸡生态养殖农场“出圈”,有“智”更有“质”,助力本土品牌高质量发展

什么是生态农场?不同于常规农场,它对农业生产经营单元的各个关键环节有着极为严格的要求,强调整体、协调、循环、再生、多样,产品质量自然更好,附加值也更高,更能满足日趋多样化的巨大市场。零零鸡生态农场…

C#调用WinAPI部分命令

C#是针对WIndows而生的,开发WIndows应用最快。然而想要让自己程序进阶,就不需深入Windows底层,WinAPI为我们提供了一把利刃。 目录 1、查找窗口句柄 2、查找窗口内子对象 3、指定窗口样式 4、指定窗口扩展样式 5、调整窗口大小Z轴&…

还在因为版本不一致重装node吗,用它试试

一、卸载nodejs 首先卸载已安装的nodejs,总体分三步 1)打开控制面板,卸载nodejs 2)打开计算机->高级->环境变量,删除path中nodejs相关的配置 3)打开nodejs安装目录,整体删除 打开cmd,输入以下命令&#xff…

为什么要进行漏洞扫描工作

随着互联网的普及和信息技术的飞速发展,网络安全问题愈发引人关注。其中,漏洞扫描作为保障网络安全的重要手段,受到了广泛的关注和应用。本文将详细介绍漏洞扫描的概念、效果、使用场景等,以期为读者提供有关漏洞扫描的全面了解。…

网络分流规则

现在的网络是越来越复杂。 有必要进行分流。 有一些geosite.dat是已经整理好的,包含许多的网站的分类: 分流规则: route规则 主要是: {"type": "field","outboundTag": "direct","domain&quo…