系统化学习 H264视频编码(01)基础概念

说明:我们参考黄金圈学习法(什么是黄金圈法则?->模型 黄金圈法则,本文使用:why-what)来学习音H264视频编码。本系列文章侧重于理解视频编码的知识体系和实践方法,理论方面会更多地讲清楚 音视频中概念的起源以及各个概念的联系。知其然,知其所以然。同时更强调知识系统的建立。

针对本文,我们先解决最关键的问题,那就是为什么要进行视频编码?视频编码解决什么问题?

1 为什么要进行音视频的编码?(why)

音视频编码主要解决了以下关键问题:

  • 减少数据量和降低传输带宽:通过压缩技术显著减少原始音视频数据的大小,适应有限的网络带宽,实现高效传输。
  • 提高存储效率:压缩数据使得在相同存储空间内可以保存更多的音视频内容,提升了存储设备的使用效率。
  • 消除冗余:编码技术通过预测和统计方法减少音视频中的时间和空间冗余,进一步降低数据量。
  • 适应不同网络和设备,保证质量:编码允许根据不同网络条件和设备性能调整音视频流的质量,同时保持可接受的数据质量。

有了前面的了解,接下来我们开始研究H264的基础知识:H264的发展、视频封装格式和文件格式、。也就是what。

2 H264基础知识(what)

2.1 视频编码发展史

2.1.1 视频编码发展史简介(what)

H.264编码作为当前广泛使用的视频编码标准,其发展历史可以追溯到早期的视频编码技术。以下是从H.261和MPEG-1一直到H.264、H.265的演进历史。这里用一张图来表示视频编码发展史,具体如下所示:

其中涉及编码格式的关键内容解释如下:

  • H.261:1988年,国际电信联盟ITU-T发布了H.261标准,这是首个为视频会议和可视电话等应用设计的低码率视频编码标准。H.261采用了基于波形的混合编码方法,引入了宏块(Macroblock)和基于宏块的运动补偿(Motion Compensation),奠定了现代视频编码的基础。
  • MPEG-1:1991年,国际标准化组织ISO推出了MPEG-1标准,主要用于视频信息的存储和传输,例如VCD。MPEG-1继承了H.261的一些特性,并引入了双向预测帧和亚像素精度的运动补偿等新技术。
  • H.263:作为H.261的改进版,ITU-T在1995年推出了H.263标准,针对低于64kb/s的窄带通信信道进行了优化。H.263增加了半像素运动补偿和更高效的编码模式,提高了压缩效率。
  • MPEG-2:1994年,MPEG-2标准发布,它在MPEG-1的基础上增加了对隔行扫描的支持,适用于DVD视频、数字电视和HDTV传输系统。MPEG-2成为了全球广泛使用的视频编码格式。
  • MPEG-4:1999年,MPEG-4 Visual标准发布,它是一个更为复杂和灵活的编码框架,支持多种Profile和Level,从简单的编码到支持4K分辨率和高色彩采样的编码。
  • H.264/AVC:经过多年的研究和发展,H.264/AVC在2003年由ITU-T和ISO/IEC联合发布。H.264结合了之前标准的优点,并引入了新的编码技术,如更灵活的宏块划分、更多的参考帧、先进的帧内预测和高压缩比的数据压缩算法。H.264在压缩效率、图像质量和网络适应性方面都有显著提升,成为互联网上视频编码的主流标准。
  • H.265/HEVC:H.265编码的历史可以追溯到2004年,当时ITU-T视频编码专家组(VCEG)开始研究新技术以创建新的视频压缩标准5。2005年,VCEG开始将某些主题指定为“关键技术领域”(KTA)以供进一步研究,并建立了KTA代码库来评估这些技术15。2009年,实验结果显示,与H.264/AVC High Profile相比,平均比特率减少了约20%,这促使MPEG与VCEG合作启动了新的标准化工作5。2013年1月,HEVC标准的第一个版本被批准并于同年6月发布

H.264的发展历程是视频编码技术不断进步和优化的过程,每一次标准的更新都旨在提供更高的压缩效率和更好的图像质量,同时适应不断变化的网络和存储需求。随着技术的发展,H.264之后又出现了H.265/HEVC等更高效的编码标准,继续推动视频编码技术向前发展。

2.1.2 视频编码持续发展,到底发展了个啥?(why)

从H.261和MPEG-1到H.264、H.265的演进,主要解决和应对以下几个问题和需求:

  • 提高压缩效率:随着技术的发展和应用需求的提升,对视频质量的要求越来越高,同时对存储和传输带宽的需求也越来越大。每一代新的编码标准都致力于提供更高的压缩效率,以减少所需的存储空间和传输带宽。
  • 支持更高分辨率和帧率:随着显示技术的进步,消费者对高清晰度视频(如HD、4K、8K)的需求不断增长。新的编码标准需要能够支持这些更高分辨率和帧率的视频内容,同时保持合理的文件大小和传输速率。
  • 改善视频质量:在相同或更低的比特率下,新一代编码标准旨在提供更好的视频质量,包括更少的压缩伪影、更高的色彩精度和更宽的动态范围。
  • 适应新的应用场景:随着互联网和移动设备的普及,视频内容的分发和消费方式发生了变化。新的编码标准需要适应流媒体、实时通信、移动视频等新兴应用的需求。
  • 解决版权和许可问题:随着市场对开放标准的需求增加,新一代编码标准也在寻求更合理的版权和许可模式,以降低采用新技术的门槛。
  • 提升错误恢复和网络适应性:网络环境复杂多变,新的编码标准需要更好地处理数据传输中的错误和丢包,提供更强的网络适应性和错误恢复能力。
  • 支持并行处理和硬件加速:随着计算硬件的发展,新的编码标准需要更好地利用多核处理器、GPU和其他硬件加速技术,以提高编码和解码的效率。
  • 满足国际标准和兼容性:为了确保全球范围内的互操作性和兼容性,视频编码标准需要经过国际标准化组织的严格审查和认可。

总的来说,大框架是已经固定了的。视频编码标准的演进其实就是一个不断追求更高效率、更好质量、更广泛应用和更合理成本的过程。每一代新标准的推出都是对现有技术的改进和对新需求的响应。大框架不变,细节处持续迭代更新。

2.1.3  常见的视频编码方式总结

随着历史不断的演进,一些标准慢慢消失,一些标准被保留下来,接下来介绍那些被最终保留下来的历史赢家:

  • H.264(AVC,Advanced Video Coding):由ITU-T组织主导,是一种视频压缩标准,广泛使用的高精度视频的录制、压缩和发布格式。
  • H.265(HEVC,High Efficiency Video Coding):由ITU-T组织主导,也是一种视频压缩标准 ,是H.264/MPEG-4 AVC 的继任者。HEVC被认为不仅提升图像质量,同时也能达到H.264/MPEG-4 AVC两倍之压缩率 (等同于同样画面质量下比特率减少了50%),可支持4K分辨率 甚至到超高画质电视 ,最高分辨率 可达到8K的分辨率。
  • MPEG系列(MPEG-1、MPEG-2、MPEG-4):由ISO下属的MPEG组开发,MPEG-1主要解决多媒体的存储问题,它的成功制定,使得以VCD和MP3为代表的MPEG-1产品迅速在世界范围内普及。MPEG格式目前有三个压缩标准;MPEG-2用于HDTV 以及数字电视等;MPEG-4是为了播放流式媒体的高质量视频而专门设计的,以求使用最少的数据获得最佳的图像质量。(为啥没有MPEG-3编码,因为这个项目原本目标是为高分辨率电视 (HDTV )设计,随后发现MPEG-2已足够HDTV应用,故MPEG-3的研发便中止)
  • VP8、VP9:谷歌研发,主要用于分别对标 H264编码 和 H265编码,后针对VP9编码进行多项优化后推出新编解码器AV1(AV1是Google VP10、Mozilla Daala以及Cisco Thor三款开源编码项目共同研发成果。AV1打破了之前编码标准中传统的二维运动矢量模型的限制,第一次引入了仿射变换运动模型,不仅可以描述平移运动,同时可以更好的表述如旋转、缩放等更加复杂的运动,有效的提升了视频编码效率)

2.2 视频封装格式和文件格式解读

2.2.1 什么是视频封装格式和文件格式

视频封装格式,也常被称为容器格式(Container Format),是一种将视频、音频、字幕以及其他流数据封装在一起以便存储和传输的文件格式。封装格式并不涉及视频或音频数据的具体编码方式,它只是定义了如何将这些数据组织起来。像AVI(Audio Video Interleaved)、MPEG(Moving Picture Experts Group)、WMV(Windows Media Video)是⼀种视频封装格式,相当于⼀种储存视频信息的容器。

视频文件格式,是指用于存储和传输视频数据的特定方式,它定义了视频文件如何组织数据,包括视频编码、音频编码、元数据、字幕和其他流信息。比如 我们知道Windows系统中的视频⽂件名都有后缀,XXX.avi、XXX.rm、XXX.flv等。

常见的几种视频封装格式和文件格式之间的对应关系如下表所示:

2.2.2 为什么会有一堆封装格式和文件格式的标准?

从技术角度来看,一种标准是最佳的,然而历史从来不会这么发展。从企业发展和市场角度来看,存在多种视频编码和封装标准的原因主要包括:

  • 市场竞争:不同的企业可能开发自己的标准来获得市场竞争优势,通过技术创新来吸引用户和客户。
  • 专利和授权:技术标准可能涉及专利权,企业通过开发自己的标准来控制专利授权,从而获得潜在的许可收入。
  • 满足特定需求:不同的市场和应用场景可能需要特定的功能和特性,多种标准可以更好地满足这些多样化的需求。
  • 创新推动:标准的竞争可以促进技术的创新和发展,推动整个行业向前发展。
  • 兼容性和过渡:在技术演进过程中,为了保持向后兼容性,可能需要开发新的标准来逐步替代旧标准。
  • 行业分割:不同的行业可能根据特定的需求和规范发展自己的标准。
  • 法规和政策:政府法规和政策可能影响技术标准的发展和采用。
  • 开放标准与专有标准:开放标准和专有标准之间的竞争,其中开放标准通常免费提供给所有用户,而专有标准可能涉及版权和许可费用。
  • 风险分散:企业可能参与多个标准的发展,以分散技术投资风险。
  • 全球化挑战:全球市场存在多样性,不同的地区可能偏好或要求使用不同的标准。
  • 用户习惯:用户可能对特定格式或标准有使用习惯,改变这些习惯需要时间和教育成本。
  • 生态系统建设:围绕特定标准可能已经建立了完整的生态系统,包括硬件、软件、工具和专业知识,这为新标准的采纳带来挑战。

尽管从技术角度来看,一种统一的标准可能是最理想的,但由于上述市场和商业因素,导致了多种标准并存的现象。随着技术的发展和市场的变化,一些标准可能会逐渐被淘汰或合并,而新的标准可能会出现以满足新的需求。

2.3 宏块的概念

2.3.1 什么是宏块?(what)

宏块是视频编码中的基本处理单元,它是视频帧中划分出来的固定大小的矩形区域,用于进行编码操作,如预测、变换和量化等,以实现数据压缩。

宏块(macro block)的理解:视频帧被送到H264 编码器的缓冲中时,编码器为每一幅图片划分宏块。H264 编码默认是使用 16X16 像素大小的区域作为一个宏块(注意:H265使用的是最大64X64像素大小的区域),视频中的一帧图像划分成宏块的效果如下:

宏块划分后的整体效果

同时在上图中我们实际上还可以在 16X16 像素的宏块上更划分出更小的子块。子块的大小可以是 8X16、 16X8、 8X8、 4X8、 8X4、 4X4非常灵活。而再次划分成子块的目的就是用很小的数据去记录这个数据。

2.3.2 为什么引入宏块?(why)

引入宏块作为视频编码的基本单元,主要原因包括:

  • 提高压缩效率:宏块允许编码器对视频帧进行局部压缩,利用空间上的冗余来减少数据量。
  • 实现数据的独立处理:宏块作为独立的处理单元,可以并行处理,提高了编码和解码的效率。
  • 适应不同区域特性:视频帧的不同区域可能具有不同的纹理和运动特性,宏块允许编码器对这些不同区域应用不同的编码策略。
  • 简化编码流程:宏块提供了一种标准化的方法来组织和处理视频数据,简化了编码器的设计和实现。
  • 优化预测和变换操作:宏块的大小和划分方式可以优化帧内预测和变换操作,进一步提高压缩性能。

2.4 YUV格式 vs RGB格式

2.4.1 什么是YUV格式、 RGB格式?(what)

YUV格式: YUV是一种颜色编码系统,用于将颜色信息分解为亮度(Y)、蓝色色差(U)、红色色差(V)三个分量。这种格式主要用于视频和图像的编解码过程中,因为它能够更有效地表示颜色信息,并且在压缩时可以利用人眼对颜色和亮度敏感度的不同来减少数据量。

RGB格式: RGB代表红色(Red)、绿色(Green)、蓝色(Blue),是一种基本的颜色模型,用于通过三种基本颜色的光的叠加来表示其他颜色。在数字图像和显示设备中,RGB格式用来存储和显示彩色图像,每个像素由红、绿、蓝三个颜色通道的值组成,这些值组合起来可以表示出各种颜色。

接下来用一张图来表示两者之间的区别,如下所示:

2.4.2 为什么视频编码使用YUV格式,而不是RGB格式?(why)

H264视频编解码中使用YUV而不是RGB的原因主要包括:

  • 人类视觉特性:YUV格式利用了人类视觉系统对亮度信息比色度信息更敏感的特性。人眼对亮度的变化感知更为明显,而对颜色的细微差别则不太敏感。因此,可以在色度信息上应用更多的压缩,而对视觉质量的影响较小。
  • 压缩效率:在YUV格式中,亮度信息(Y)与色度信息(U和V)分离,可以对它们分别进行不同的处理和压缩。通常色度信息的采样率低于亮度信息,这样可以减少数据量而不会显著影响视觉质量。
  • 减少冗余:在自然图像和视频中,相邻像素之间的亮度变化通常小于颜色变化。YUV格式通过分离亮度和色度,可以更有效地减少这种空间上的冗余。
  • 适应不同显示设备:YUV格式更适合广播和电视系统,这些系统通常基于YUV或类似的颜色空间。使用YUV格式可以直接与这些系统兼容,简化了从数字到模拟信号的转换。
  • 编码效率:在视频编码标准如H.264和H.265中,YUV格式的亮度和色度分量可以独立进行编码,利用它们各自的统计特性来提高编码效率。
  • 灵活性:YUV格式提供了更大的灵活性来应用不同的编码策略,例如对亮度和色度分量使用不同的量化级别和预测模式。

总之,YUV格式在视频编解码中的使用,主要是为了提高压缩效率,同时保持或提升视频的视觉质量,并适应不同的显示和传输需求。

有了这些基础,我们再进一步去H264编码中更深一层的概念,见下一篇文章:

H264视频编码(02) I帧 P帧 B帧 引入及相关概念解读-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/42488.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Swift 中的方法调用机制

Swift 方法调用详解:与 Objective-C 的对比、V-Table 机制、Witness Table 机制 在 iOS 开发中,Swift 和 Objective-C 是两种常用的编程语言。尽管它们都能用于开发应用程序,但在方法调用的底层机制上存在显著差异。本文将详细介绍 Swift 的…

实验2 Aprori关联挖掘算法

目 录 一、实验目的... 1 二、实验环境... 1 三、实验内容... 1 3.1 connect_string()函数解析... 1 3.2 find_rule()函数解析纠错... 2 3.3 关联规则挖掘... 4 四、心得体会... 7 一、实验目的 (1)理解Aprori关联挖掘算法的程序编写; &…

PYTHON自学笔记(一)vscode配置

安装python 自行官网下载 安装vscode 自行官网下载 环境变量设置 把python和scripts的文件路径,添加到环境变量的path中,如图: 此项不弄,在命令行模式中系统不会认为你装了python和pip,你的输入相关命令shell不会…

# [0705] Task06 DDPG 算法、PPO 算法、SAC 算法【理论 only】

easy-rl PDF版本 笔记整理 P5、P10 - P12 joyrl 比对 补充 P11 - P13 OpenAI 文档整理 ⭐ https://spinningup.openai.com/en/latest/index.html 最新版PDF下载 地址:https://github.com/datawhalechina/easy-rl/releases 国内地址(推荐国内读者使用): 链…

[机器学习]-4 Transformer介绍和ChatGPT本质

Transformer Transformer是由Vaswani等人在2017年提出的一种深度学习模型架构,最初用于自然语言处理(NLP)任务,特别是机器翻译。Transformer通过自注意机制和完全基于注意力的架构,核心思想是通过注意力来捕捉输入序列…

CosyVoice多语言、音色和情感控制模型,one-shot零样本语音克隆模型本地部署(Win/Mac),通义实验室开源

近日,阿里通义实验室开源了CosyVoice语音模型,它支持自然语音生成,支持多语言、音色和情感控制,在多语言语音生成、零样本语音生成、跨语言声音合成和指令执行能力方面表现卓越。 CosyVoice采用了总共超15万小时的数据训练&#…

【2024_CUMCM】时间序列算法ARMA

目录 2023-c-问题二 问题分析 介绍 单位根检验 白噪声检验 自相关和偏自相关图 利用信息准则定阶 构建AMIMA模型 D-W检验 预测 代码 2023-c-问题二 问题分析 ARMA适合多个领域的时间序列分析,不同时间的定价策略属于这类问题。 介绍 ARMA模型&…

C++入门7——string类详解

目录 1.什么是string类? 2.string类对象的常见构造 2.1 string(); 2.2 string (const char* s); 2.3 string (const string& str); 2.4 string (const string& str, size_t pos, size_t len npos); 2.5 string (const char* s, size_t n); 2.7 验证…

【机器学习】基于线性回归的医疗费用预测模型

文章目录 一、线性回归定义和工作原理假设表示 二、导入库和数据集矩阵表示可视化 三、成本函数向量的内积 四、正态方程五、探索性数据分析描述性统计检查缺失值数据分布图相关性热图保险费用分布保险费用与性别和吸烟情况的关系保险费用与子女数量的关系保险费用与地区和性别…

GDP播放器 驱动视频播放器 PHP 系统源码 v4.4.3

最重要的是我们自己开发了源代码,因此无论您在使用此工具时遇到什么问题,我们都会快速解决。这个版本演示 分别支持PHP7.4/8.1/8.2三个版本 演示地址

轻松驾驭开发之旅:Maven配置阿里云CodeUp远程私有仓库全攻略

文章目录 引言一、为什么选择阿里云CodeUp作为远程私有仓库?二、Maven配置阿里云CodeUp远程私有仓库的步骤准备工作配置Maven的settings.xml文件配置项目的pom.xml文件验证配置是否成功 三、使用阿里云CodeUp远程私有仓库的注意事项 引言 在软件开发的世界里&#…

CosyVoice - 阿里最新开源语音克隆、文本转语音项目 支持情感控制及粤语 本地一键整合包下载

近日,阿里通义实验室发布开源语音大模型项目FunAudioLLM,而且一次包含两个模型:SenseVoice和CosyVoice。 CosyVoice专注自然语音生成,支持多语言、音色和情感控制,支持中英日粤韩5种语言的生成,效果显著优于…

分子AI预测赛Task4笔记(结束)

话不多说,直接上官方链接:‌​​​‍​⁠​‌​‍​​​‌​⁠‬​‬​​‌​​​​‬‬​​​​‍⁠‍‌​⁠Task3:进阶baseline详解 - 飞书云文档 (feishu.cn)Task4:持续尝试&…

C++左值右值

在C中,左值(lvalue)和右值(rvalue)是表达式分类的关键概念,它们主要影响表达式的赋值、函数调用以及操作符的使用方式。这些概念在C11及以后的版本中变得更加重要,因为引入了移动语义和右值引用…

妈妈带女儿美在心里

在这个充满温情与惊喜的午后,阳光温柔地洒落在每一个角落,仿佛连空气弥漫着幸福的味道。就在这样一个平凡的时刻,一段关于爱与成长的温馨画面,悄然在网络上绽放,引爆了无数人的心弦——#奚梦瑶2岁女儿身高#&#xff0c…

【Linux进程】命令行参数 环境变量(详解)

目录 前言 1. 命令行参数 什么是命令行参数? 2. 环境变量 常见的环境变量 如何修改环境变量? 获取环境变量 环境变量的组织方式 拓展问题 导入环境变量 3. 本地变量* 总结 前言 在使用Linux指令的时候, 都是指令后边根命令行参数, 每个指令本质都是一个一个的可执行程…

【UE5.1 角色练习】13-枪械射击——拿出与收起武器

目录 效果 步骤 一、安装射击武器 二、拿武器和收武器 效果 步骤 一、安装射击武器 1. 在虚幻商城中将“FPS Weapon Bundle”添加到工程中,由于我们使用的是5.1版本,我们可以先将该资产放入UE4工程中,然后迁移到5.1版本的工程 2. 打开角…

一.2.(4)放大电路静态工作点的稳定;(未完待续)

1.Rb对Q点及Au的影响 输入特性曲线:Rb减少,IBQ,UBEQ增大 输出特性曲线:ICQ增大,UCEQ减少 AUUO/Ui分子减少,分母增大,但由于分子带负号,所以|Au|减少 2.Rc对Q点及Au的影响 输入特性曲…

【JavaSE复习】数据结构、集合

JavaSE 复习 1.数据结构1.1 查找1.1.1 基本查找1.1.2 二分查找1.1.3 插值查找1.1.4 斐波那契查找1.1.5 分块查找1.1.6 分块查找的扩展(无规律数据) 1.2 排序1.2.1 冒泡排序1.2.2 选择排序1.2.3 插入排序1.2.4 快速排序 2. 集合2.1 基础集合2.1.1 集合和数…

爱了!8款超好用的PC端办公软件!

AI视频生成:小说文案智能分镜智能识别角色和场景批量Ai绘图自动配音添加音乐一键合成视频https://aitools.jurilu.com/ 你电脑中用的最久的软件是哪些?以下是否有你曾经使用过的软件呢?工欲善其事,必先利其器,今天继续…