H.264软件解码器在PXA270平台上的优化

罗 嵘,何 苦 时间:2009年04月24日

  摘 要: 研究了嵌入式系统中H.264 Baseline软件解码器设计和优化的问题,提出了四种有效的优化方法,并在PXA270平台上进行了测试。测试结果显示,综合使用提出的四种方法,H.264软件解码器在PXA270(520MHz)上运行时帧率可以达到22f/s(CIF格式)和80f/s(QCIF格式)。
  关键词: H.264;软件解码器;PXA270

 

  视频编解码标准H.264是由国际电联ITU的视频编码专家组VCEG(Video Coding Expert Group)和国际标准化组织ISO的活动图像专家组MPEG(Motion Picture Expert Group)共同组成的联合视频组JVT(Joint Video Team)开发的视频编解码标准,也被称为高级视频编码MPEG-4 AVC(Advanced Video Coding)或MPEG-4 Part10。H.264解码器[1]的主要模块有运动补偿、帧间预测、去块效应滤波、反变换、帧内预测、重建等。
  PXA270嵌入式处理器内部包括一个XScale内核[2](兼容ARM9指令集),运行频率最高可以达到624MHz;一个无线多媒体指令扩展 WMMX(Wireless Multi-Media Extension)协处理器,能够支持多媒体运算指令;还包括一系列外部接口控制器、总线控制器等。
  文献[3]对H.264解码器中的帧间预测、去块效应滤波、反变换、帧内预测、重建等模块采用了WMMX优化,可以使其相对性能提高92%~100%。文献[4]在PXA270平台上设计了一个AVCORE多媒体函数库,H.264解码帧率可以达到约50f/s(QCIF格式)。文献[5]则在Xscale处理器上利用WMMX技术对多种解码器进行了优化,取得了较好的相对优化效果。但是,这些方法的优化效果有限,只利用PXA270的WMMX功能进行了优化,不能充分利用PXA270处理器的特点。
  为了提高H.264软件解码器在PXA270处理器上的性能,本文研究了PXA270处理器和H.264软件解码器的特点,并针对其特点进行了多方面的优化。优化方法主要包括WMMX并行计算优化、多项式计算优化、系统资源优化和滤波算法优化四种。
1 H.264解码器优化方法
1.1 WMMX并行计算优化

  在PXA270平台上,可以利用PXA270处理器内部的WMMX硬件支持对一个宏块内像素点的乘/加法操作进行展开处理,一次执行4/8条乘/加法,同时处理多个像素点。
  WMMX软件编程模型部分包括寄存器堆、矢量化的执行部件和接口部件三部分[2]。WMMX寄存器堆的位宽为64bit,包括16个SIMD寄存器、8个状态和控制寄存器。
  WMMX矢量化的执行部件,包括一个执行单元、一个乘累加单元、一个移位和序列改变单元。利用这些硬件单元,SIMD寄存器可以被组织成字节(8bit)、半字(16bit)、字(32bit)、双字(64bit)结构,实现8/4/2/1个数据的并行运算。
  利用WMMX的并行计算功能,H.264软件解码器中的很多部分可以被并行化,从而提高计算效率。例如:在H.264的运动估计算法中,进行插值操作的部分算法代码为:
  H.264软件解码器在PXA270平台上的优化
  进行并行计算优化时,可以对上述代码中的内层循环部分进行展开:
  H.264软件解码器在PXA270平台上的优化  

  利用ARM汇编语言改写上面的代码,调用WMMX的硬件,可以使得该内层循环中的四个结构相同的运算同时进行,这样就大大提高了速度。在优化过程中,对H.264模块中的IDCT、IQUANT和插值部分的计算使用了WMMX并行计算优化。
1.2 多项式计算优化
  利用WMMX硬件并行计算优化,比较适用于各个像素点使用相同计算方法的情况。而对于那些每一个像素点都需要用不同的表达式进行计算的情况,就需要采用另外的并行优化思路。对于那些不便于进行循环展开的代码部分,可以尝试对其多项式计算进行优化,使用提取公共因子、合并同类项的方法,提高运算速度。
  例如,对于如下的表达式:
  H.264软件解码器在PXA270平台上的优化 

  上面的表达式中公因子合并之后,加/减法和乘法运算的总数由原来的16个变成12个,因而提高了速度。在 H.264的软件解码器中,运动补偿和帧内预测部分就存在着类似的代码,可以使用提取公因式的方法来进行优化。文献[6]已经证明提取公因式进行计算优化的方法属于NP-hard问题,本文给出了一个比较简单的近似优化算法,其优化流程为:用多项式组中的每一个多项式生成一个集合Si(i=1,2,…K,K是多项式的个数),其元素sij(j=1,2,…k,k是子式的个数)是该多项式的子式;设定初始搜索次数n=0,N为预先设定的搜索次数上限;计算C,C为整个多项式组为优化前总的计算次数。
  while n
  选定其中一个多项式的子式sij
  计算:整个多项式组可以减少的计算次数c;
  if c
    C=c;
    记录下子式sij;
  end
n=n+1;
end
  本文提出的算法得到的结果可能并不是最优的,但该方法能降低计算量,还可以应用于除H.264解码器以外的场合,并且适用于多种架构的处理器。在优化过程中,对H.264解码器中的帧内预测模块使用了多项式优化算法。
1.3 PXA270系统资源优化
  本文中H.264软件解码器最终运行在PXA270处理器上。该处理器具有多种频率可调组件,其内部还具有256KB片内SRAM,可以用于显示图像存储。PXA270片内系统总线频率在高速模式下可以达到208MHz[7],并且LCD控制器的频率可以调整,具有直接显示YUV格式图像的特性。充分利用好这些特性,可以大大改善H.264软件解码器在平台上的运行效率。在 H.264软件解码器的代码中,需要对数据进行大量的存储操作,为了提高存储速度,在运行时可以动态地将系统总线频率调整为高速模式,同时对SDRAM和 Flash等存储器件进行访问速度的调整,以保证性能要求。
  针对H.264软件解码器进行的PXA270系统资源优化流程如下:
if H.264软件解码器运行
  保存处理器和总线当前配置;
  将处理器内核置为超频频率上;
  将系统总线频率设置为高速模式;
  为解码器分配PXA270片内SRAM作为缓存(受操作系统限制);
end
  if H.264软件解码器运行结束
  恢复处理器和总线配置;
end
  系统级的优化需要对处理器的频率等关键资源进行调整,这可以通过PXA270处理器的时钟管理模块实现。
1.4 滤波算法优化
  在H.264编解码算法中,对滤波器算法的规定具有一定的灵活性[8],可以在不违反标准的情况下使用自己的滤波方法。在改进的滤波器中,通常采用的方法是改变子宏块(Sub-Macroblock)边界的滤波顺序,从而提高存储效率和数据的复用性[9]。本文设计了一个优化的滤波器算法,达到了一定的效果。
  在H.264标准中,规定的标准解码算法是:对于一个16×16的宏块(图像格式为YUV4:2:0),其中各个4×4的子宏块边界的滤波顺序如图1的标号1~48所示。
  在用软件实现滤波算法时,一帧图像数据的存储以二维数组的方式进行。例如,对于CIF(352×288)格式的一帧图像,其亮度信号存储在一个Y[352][288]数组中。
  在计算机和多数嵌入式系统的内存中,内存地址是线性的,因此一个16×16的亮度宏块(划分为16个4×4大小的子宏块)中每个4×4的子宏块分别被编号为1~16。1~4子宏块的第一行数据在内存中的位置为M1,第二、三、四行数据在内存M2、M3、M4。M1~M4之间的位置分别被其他16×16的宏块所占据。5~8子宏块在内存中的位置为M5~M8,因此在形式上相邻的两个子宏块1和5,在内存中的位置可能差得很远。
  在计算机系统中,为了充分利用数据的空间、时间相关性,会在访问内存中的一个数据时,把该数据相邻区域的一块数据都加载到缓存中。例如,当程序访问子宏块1的第一行数据时,处理器会自动把整个M1块加载到缓存中,即第2~4个子宏块的第一行也被加载到缓存中。由于缓存的大小非常有限,内存中有很多地址都可以映射到缓存中的同一个地址处。例如,当程序访问子宏块5的第一行时,M5被加载到缓存中,就有可能覆盖掉原来M1在缓存中位置。而对于M1~M3来说,它们在内存中的位置靠得比较近,因此可以被映射到缓存中的不同区域,不会相互覆盖。
  对于图1中的滤波方案,会存在缓存未命中(Cache Miss)的问题。按照图1中的滤波顺序,每对一个边界做滤波都有可能覆盖掉前一次加载的数据,这样会增加对内存的访问次数,降低速度。为了改进这一点,本文提出了如图2所示的新的边界滤波顺序。

 

H.264软件解码器在PXA270平台上的优化

 

H.264软件解码器在PXA270平台上的优化


  新方案在多数情况下可以利用前一次已经加载到Cache的数据进行操作。例如:在对编号为2、3、4的边界进行滤波时,可以利用对1边界进行滤波时已经加载的数据。这样可以提高去宏块效应滤波器的速度。
  对于YUV4:2:0格式的图像,传统的滤波算法在处理一个16×16的亮度宏块和两个8×8的色度宏块时,可能在32条边界(共48条边界)处发生数据缓存未命中,这些边界分别是1~24、25~37、41、43、45、47(参见图1)。而改进的滤波算法则可能在11条边界处发生数据缓存未命中,这些边界分别是:1、5、9、17、25、33、35、37、41、43、45(参见图2)。由此可见,改进的滤波算法提高了内存访问效率。
2 仿真和测试结果
2.1 使用WMMX优化后的测试结果

  使用WMMX汇编语言对H.264软件解码器进行并行计算优化后得到的效果如表1。

H.264软件解码器在PXA270平台上的优化

  对比表1中的结果可以看出,WMMX计算优化的效果最为明显,对帧率的改善可以达到3f/s~5f/s。WMMX技术也是PXA27x系列处理器的一个亮点,这一功能使其可与一般DSP的计算能力相匹敌。
2.2 多项式计算优化的方针和测试结果
  为了显示多项式优化的效果,首先在ARM(PXA270处理器是兼容ARM体系结构的)仿真环境下对单个函数测试,编译器采用ARM公司出品的ADS 1.2,在测试过程中,C/C++编译器的参数设置为:-O2-O time -g+ -cpu XXXXX(具体的ARM处理器内核类型,如ARM946E-S)。
  在测试过程中,没有修改编译器的设置,为了证明算法的普适性,在多种ARM处理器内核上进行了仿真。
  仿真时选用的函数是:predict_4x4_mode_3;predict_4x4_mode_4;predict_4x4_mode_5;predict_4x4_mode_6;predict_4x4_mode_7;predict_4x4_mode_8。
  这些函数对应帧内预测的第3~8种模式,具体算法可以参照H.264的标准文档。下面给出函数predict_
4x4_mode_3进行优化后的简单示例。predict_4x4_mode_3在进行优化前的代码为:
predict_4x4_mode_3
  Begin

  Y0=(a0+a2+(a1<<1)+2)>>2;
  Y1=Y4=(a1+a3+(a2<<1)+2)>>2;
  Y2=Y5=Y8=(a2+a4+(a3<<1)+2)>>2;
  Y3=Y6=Y9=Y12=(a3+a5+(a4<<1)+2)>>2;
  Y7=Y10=Y13=(a4+a6+(a5<<1)+2)>>2;
  Y11=Y14=(a5+a7+(a6<<1)+2)>>2;
  Y15=(a6+(a7<<1)+a7+2)>>2;
end
  进行优化后的代码如下:
predict_4x4_mode_3
Begin
  T0=a0+a1;T1=a1+a2+2;Y0=(T0+T1)>>2;
  T0=a2+a3;Y1=Y4=(T0+T1)>>2;
  T1=a3+a4+2;Y2=Y5=Y8=(T0+T1)>>2;
  T0=a4+a5;Y3=Y6=Y9=Y12=(T0+T1)>>2;
  T1=a5+a6+2;Y7=Y10=Y13=(T0+T1)>>2;
  T0=a6+a7;Y11=Y14=(T0+T1)>>2;
  T1=a7+a7+2;Y15=(T0+T1)>>2;
end
  考虑到程序表示方面的简明性,在优化的程序中使用了一些临时变量。从程序中涉及的多项式计算的表达式来看,在未优化程序中,使用了21次加法和14次移位运算;而在优化后的程序中,使用了19次加法和7次移位运算。对其他几个函数进行优化后,也有类似的结果。仿真器得到的结果请参照表2和表3。

H.264软件解码器在PXA270平台上的优化

 

  从仿真结果可以看出,多项式计算优化算法应用于某些特定函数上,可以缩短时间和缩减代码体积。不过,多项式计算优化算法在H.264软件解码器中的应用是有限的,对整个软件解码器性能提高的贡献不大。
2.3 优化测试结果
  对PXA270系统资源进行优化后,再运行H.264软件解码器时的测试结果比较见表4。通过系统资源优化,可以使H.264软件解码器性能提高 2f/s~3f/s。这表明系统资源优化是提高H.264解码器性能比较有效的一种方法。从表4可以看出,对去宏块效应滤波器优化后,解码器整体的性能的提高不是很大,这主要是由于滤波运算在测试视频中所占的比重不是很高引起的。编码时视频流所采用的量化器的量化程度比较低,所得的图像比较平滑,因此需要进行的滤波运算也少。

 

H.264软件解码器在PXA270平台上的优化


  将上面提到的各种优化方法综合应用到H.264软件解码器中,取得的效果相当可观。联合使用各种优化方法,可以使得各个方法间相互补充,获得比单独使用更好的优化效果,如表4中测试组一和测试组二所示。对H.264软件解码器进行联合优化以后,性能的提高达到40%左右。
  通过在实际平台上的测试可知,PXA270系统资源优化和WMMX并行计算优化的贡献最大,而其他两种方法的贡献则要小得多。但是也必须看到,效果好的方法其专用性也会很强,如WMMX并行计算需要有专门硬件的支持。去宏块效应滤波器算法优化和多项式计算优化两种方法虽然在 PXA270平台上对H.264软件解码器的优化效果不佳,但是它们对PXA270内部的特定资源依赖很小,通用性较强,可以用于其他平台或应用实例中,具有一定的使用价值。


参考文献
[1] WIEGAND T,SULLIVAN G,LUTHRA A.Draft ITU-T recommendation and final draft international standard of joint video specification(ITU-T Rec.H.264 | ISO/IEC 14496-10 AVC),Joint Video Team(JVT) of ISO/IEC MPEG & ITU-T VCEG(ISO/IEC JTC1/SC29/WG11 and ITU-T SG16 Q.6) 8th Meeting:Geneva, Switzerland,2003,5.
[2] Intel Corporation.Intel wireless MMXTM technology developer guide,2002.
[3] PAVER N C,KHAN M H,ALDRICH B C,et al.Accelerating mobile video applications using Intel@ wireless 
MMXTM technology.IEEE workshop on signal processing  systems,2003:207-212.
[4] http://www.cyansoft.com.cn/products.php?display=1&select=1,2007-5-23.
[5] PRASAD A,MITTAL A,KUMAR M,et al.Optimization and comparison of computational complexities of standard compliant video decoders on SIMD processors.ICASSP 2007:II-93-II-96.
[6] HOSANGADI A,FALLAH F,KASTNER R.Factoring and eliminating common subexpressions in polynomial expressions.ICCAD,2004:169-174.
[7] Intel Corporation.Intel PXA27x processor family developer′s manual,2004.
[8] LIST P,JOCH A,LAINEMA J,et al.Adaptive deblocking filter,IEEE transactions on circuits and systems for video technology,2003.
[9] 牛晓雷,戴琼海,刘烨斌.H.264/AVC解码器解块滤波的结构优化.计算机工程与应用,2005:104-106.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/455373.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

EF架构~codeFirst从初始化到数据库迁移

一些介绍 CodeFirst是EntityFrameworks的一种开发模式&#xff0c;即代码优先&#xff0c;它以业务代码为主&#xff0c;通过代码来生成数据库&#xff0c;并且加上migration的强大数据表比对功能来生成数据库版本&#xff0c;让程序开发人员不用维护数据库的变更&#xff0c;而…

lisp 车位块自动编号_机械车位做产权登记,真的适合吗?

为了更好地把握停车市场发展动向&#xff0c;给停车行业从业者提供一个发表观点、各抒己见的平台&#xff0c;共同促进停车行业的发展&#xff0c;《城市停车》开设热点版块&#xff0c;每期针对1-2个行业热点&#xff0c;广泛征集业内人士观点和看法。HOT TOPIC本期热点今年两…

webserver接口_SpringBoot内置源码解析WebServer初始化过程

WebServer 初始化过程在上一节中 Spring Boot 初始化了 WebServer 对应的工厂类。同时&#xff0c;我们也知道对应 Web容器的WebServer实现类有:TomcatWebServer、JettyWebServer和UndertowWebServer。这节重点讲解这些 WebServer 是如何被初始化&#xff0c;又如何启动的。Web…

提升应用程序弹性:保障工作负载正常运行

通过集群化、复制、快照、微服务和应用程序设计来提高企业工作负载的应用程序弹性和可用性。 应用程序的弹性和可用性是现代企业工作负载的关键属性。应用程序需要在硬件故障发生后&#xff0c;扛过服务故障(例如负载平衡器和域名系统错误)保持工作状态&#xff0c;并且可以忍受…

NVDKC6416平台H.264算法优化

本文转载自&#xff1a;http://blog.csdn.net/embedesign/archive/2009/09/15/4556486.aspx&#xff0c;版权归原作者&#xff0c;编辑&#xff1a;小乙哥 多媒体通信终端设备具有广泛的应用前景&#xff0c;可以应用于视频会议、可视电话、PDA、数字电视等各个领域&#xff0…

高德地图轨迹回放_高德地图上线了一个新功能….

文、路人甲TM德地图这两天刚上线了一个叫做「家人地图」的功能&#xff0c;所谓家人地图顾名思义&#xff0c;就是你可以通过高德地图组建一个家人圈&#xff0c;在这个圈子里面你可以看到你的家人在什么位置&#xff0c;当你的家人到达什么位置的时候自动发送通知或者警告&…

You have new mail in /var/spool/mail/root消除提示的方法

有时在进入系统的时候经常提示You have new mail in /var/spool/mail/root 你觉得烦人---解决方法&#xff1a; 修改系统配置文件/etc/profile&#xff0c;告诉系统不要去检查邮箱. 具体操作&#xff1a;命令行输入&#xff1a;echo "unset MAILCHECK" >> /etc…

Spring整合Quartz定时任务 在集群、分布式系统中的应用(Mysql数据库环境)

转载&#xff1a;http://www.cnblogs.com/jiafuwei/p/6145280.html 单个Quartz实例能给予你很好的Job调度能力&#xff0c;但它不能满足典型的企业需求&#xff0c;如可伸缩性、高可靠性满足。假如你需要故障转移的能力并能运行日益增多的 Job&#xff0c;Quartz集群势必成为你…

20温控f1什么意思_欧姆龙温控器是什么 欧姆龙温控器介绍【图文】

欧姆龙温控器&#xff0c;乍一眼看上去真的很难理解这到底是一个什么产品&#xff0c;或者是一个有什么用处的温控器&#xff0c;对于这个比较浅显的问题&#xff0c;不知道大家会有什么样地感受&#xff0c;是不是正在一头雾水的等着我进行解答呢?经过我比较浅显的分析&#…

zabbix3.2学习笔记(二):服务端安装

2019独角兽企业重金招聘Python工程师标准>>> 一般小公司大多将zabbix web端和zabbix server部署在同一台主机上&#xff0c;其实二者是可以分开的&#xff0c;web GUI配置连接到对应的数据库就行&#xff0c;让zabbix server和MySQL数据库在同一台主机上便于数据快速…

H.264解码器中CAVLC码表查找算法的分析与优化

0 引言 近年来&#xff0c;随着信息技术飞速发展和互联网的日益普及&#xff0c;尤其是以视频为信息主要来源的多媒体领域越来越受到人们的关注。H&#xff0e;264是ITU-T的视频编码专家组(VCEG)和ISO&#xff0f;IEC的活动图像编码专家组(MPEG)的联合视频组(Joint Video Te…

mp4文件格式系列

mp4文件格式系列1 - 综述Overview and Introduction Core Concepts MP4文件格式中&#xff0c;所有的内容存在一个称为movie的容器中。一个movie可以由多个tracks组成。每个track就是一个随时间变化的媒体序列&#xff0c;例如&#xff0c;视频帧序列。track里的每个时间单…

局域网网络风暴检测工具_【思唯网络学院】从原理到配置,最全的VLAN说明就在这了!...

有关VLAN的技术标准IEEE 802.1Q早在1999年6月份就由IEEE委员正式颁布实施了&#xff0c;而且最早的VLNA技术早在1996年Cisco(思科)公司就提出了。随着几年来的发展&#xff0c;VLAN技术得到广泛的支持&#xff0c;在大大小小的企业网络中广泛应用&#xff0c;成为当前最为热门的…

SQL server 基本语句

--查询数据库是否存在 if exists ( select * from sysdatabases where [name]TestDB) print Yes, the DB exists else print No, need a new one? --新建一个数据库 create database TestDB on ( name TestData, filename G:\DBS\KeyTest.mdf, size 3, filegrowth 2 ) log…

mp4格式

下面的软件下载地址&#xff1a;http://download.csdn.net/source/2607382 ftyp: 这是一个筐&#xff0c;可以装mdat等其他Box。 例&#xff1a;00 00 00 14 66 74 79 70 69 73 6F 6D 00 00 02 00 6D 70 34 31 语义为&#xff1a;ftyp: Major brand: isom Minor version: 5…

MongoDB的快速手动安装

就是关于MongoDB主从库的安装配置和启动。网上关于MongoDB的安装有大量的文章供大家学习。我这里提供一个Windows环境下MongoDB主从库的快速手动安装的方法&#xff0c;只需要三步即可。 先下载的安装包&#xff0c;解压缩后找到bin文件夹&#xff0c;将bin文件夹拷贝至你自己的…

时序图 分支_UML用例图

UML用例图用例图有以下东东:用例参与者关联系统边界用例使用椭圆来表示&#xff0c;椭圆里边写上用例的名称:这里的用例可以理解为一个动作或行为,或者一个对象。参与者用一个小人儿,在小人儿下面写上参与者名称,例如学生:关联用一条线表示:把很多个用例放到一个大的矩形框里。…

自定义封装 banner 组件

1. 效果图预览 2.基本功能 一个简单方便的轮播图组件&#xff0c;基于viewpager 基础上进行的封装。可设置 项目中图片&#xff0c;网络图片&#xff0c; View&#xff1b;支持循环自动播放&#xff0c;手势滑动切换&#xff0c;item点击事件,可设置 点点的样式宽高、颜色、大小…

vb.net服务器启动后cpu占用了70_记一次服务器被异常程序占用的解决过程(怀疑黑客攻击)...

最近在跑实验&#xff0c;但是突然发现程序运行变慢&#xff0c;然后top命令查看程序运行情况&#xff0c;发现有异常进程&#xff0c;名字叫 bash&#xff0c;占用 2400% CPU计算资源。刚开始怀疑是挖矿程序&#xff0c;因实验室网络IP为教育网公网&#xff0c;怀疑被攻击&…

3gp文件格式研究 (转windcao的专栏)

序言 06我开始做3gp文件的播放器,但是关于3gp的文档太少了也很难找,在网友luxh的帮助下,我终于有了第一份关于3gp文件格式的文档《ISO/IEC 14496-12&#xff0c;ISO媒体文件格式》.在此真心感谢luxh的贡献.当然了是英文版的,有文档就不错了.为了便于查阅和理解,我把之后陆续找…