摘 要: 研究了嵌入式系统中H.264 Baseline软件解码器设计和优化的问题,提出了四种有效的优化方法,并在PXA270平台上进行了测试。测试结果显示,综合使用提出的四种方法,H.264软件解码器在PXA270(520MHz)上运行时帧率可以达到22f/s(CIF格式)和80f/s(QCIF格式)。
关键词: H.264;软件解码器;PXA270
视频编解码标准H.264是由国际电联ITU的视频编码专家组VCEG(Video Coding Expert Group)和国际标准化组织ISO的活动图像专家组MPEG(Motion Picture Expert Group)共同组成的联合视频组JVT(Joint Video Team)开发的视频编解码标准,也被称为高级视频编码MPEG-4 AVC(Advanced Video Coding)或MPEG-4 Part10。H.264解码器[1]的主要模块有运动补偿、帧间预测、去块效应滤波、反变换、帧内预测、重建等。
PXA270嵌入式处理器内部包括一个XScale内核[2](兼容ARM9指令集),运行频率最高可以达到624MHz;一个无线多媒体指令扩展 WMMX(Wireless Multi-Media Extension)协处理器,能够支持多媒体运算指令;还包括一系列外部接口控制器、总线控制器等。
文献[3]对H.264解码器中的帧间预测、去块效应滤波、反变换、帧内预测、重建等模块采用了WMMX优化,可以使其相对性能提高92%~100%。文献[4]在PXA270平台上设计了一个AVCORE多媒体函数库,H.264解码帧率可以达到约50f/s(QCIF格式)。文献[5]则在Xscale处理器上利用WMMX技术对多种解码器进行了优化,取得了较好的相对优化效果。但是,这些方法的优化效果有限,只利用PXA270的WMMX功能进行了优化,不能充分利用PXA270处理器的特点。
为了提高H.264软件解码器在PXA270处理器上的性能,本文研究了PXA270处理器和H.264软件解码器的特点,并针对其特点进行了多方面的优化。优化方法主要包括WMMX并行计算优化、多项式计算优化、系统资源优化和滤波算法优化四种。
1 H.264解码器优化方法
1.1 WMMX并行计算优化
在PXA270平台上,可以利用PXA270处理器内部的WMMX硬件支持对一个宏块内像素点的乘/加法操作进行展开处理,一次执行4/8条乘/加法,同时处理多个像素点。
WMMX软件编程模型部分包括寄存器堆、矢量化的执行部件和接口部件三部分[2]。WMMX寄存器堆的位宽为64bit,包括16个SIMD寄存器、8个状态和控制寄存器。
WMMX矢量化的执行部件,包括一个执行单元、一个乘累加单元、一个移位和序列改变单元。利用这些硬件单元,SIMD寄存器可以被组织成字节(8bit)、半字(16bit)、字(32bit)、双字(64bit)结构,实现8/4/2/1个数据的并行运算。
利用WMMX的并行计算功能,H.264软件解码器中的很多部分可以被并行化,从而提高计算效率。例如:在H.264的运动估计算法中,进行插值操作的部分算法代码为:
进行并行计算优化时,可以对上述代码中的内层循环部分进行展开:
利用ARM汇编语言改写上面的代码,调用WMMX的硬件,可以使得该内层循环中的四个结构相同的运算同时进行,这样就大大提高了速度。在优化过程中,对H.264模块中的IDCT、IQUANT和插值部分的计算使用了WMMX并行计算优化。
1.2 多项式计算优化
利用WMMX硬件并行计算优化,比较适用于各个像素点使用相同计算方法的情况。而对于那些每一个像素点都需要用不同的表达式进行计算的情况,就需要采用另外的并行优化思路。对于那些不便于进行循环展开的代码部分,可以尝试对其多项式计算进行优化,使用提取公共因子、合并同类项的方法,提高运算速度。
例如,对于如下的表达式:
上面的表达式中公因子合并之后,加/减法和乘法运算的总数由原来的16个变成12个,因而提高了速度。在 H.264的软件解码器中,运动补偿和帧内预测部分就存在着类似的代码,可以使用提取公因式的方法来进行优化。文献[6]已经证明提取公因式进行计算优化的方法属于NP-hard问题,本文给出了一个比较简单的近似优化算法,其优化流程为:用多项式组中的每一个多项式生成一个集合Si(i=1,2,…K,K是多项式的个数),其元素sij(j=1,2,…k,k是子式的个数)是该多项式的子式;设定初始搜索次数n=0,N为预先设定的搜索次数上限;计算C,C为整个多项式组为优化前总的计算次数。
while n
选定其中一个多项式的子式sij;
计算:整个多项式组可以减少的计算次数c;
if c
C=c;
记录下子式sij;
end
n=n+1;
end
本文提出的算法得到的结果可能并不是最优的,但该方法能降低计算量,还可以应用于除H.264解码器以外的场合,并且适用于多种架构的处理器。在优化过程中,对H.264解码器中的帧内预测模块使用了多项式优化算法。
1.3 PXA270系统资源优化
本文中H.264软件解码器最终运行在PXA270处理器上。该处理器具有多种频率可调组件,其内部还具有256KB片内SRAM,可以用于显示图像存储。PXA270片内系统总线频率在高速模式下可以达到208MHz[7],并且LCD控制器的频率可以调整,具有直接显示YUV格式图像的特性。充分利用好这些特性,可以大大改善H.264软件解码器在平台上的运行效率。在 H.264软件解码器的代码中,需要对数据进行大量的存储操作,为了提高存储速度,在运行时可以动态地将系统总线频率调整为高速模式,同时对SDRAM和 Flash等存储器件进行访问速度的调整,以保证性能要求。
针对H.264软件解码器进行的PXA270系统资源优化流程如下:
if H.264软件解码器运行
保存处理器和总线当前配置;
将处理器内核置为超频频率上;
将系统总线频率设置为高速模式;
为解码器分配PXA270片内SRAM作为缓存(受操作系统限制);
end
if H.264软件解码器运行结束
恢复处理器和总线配置;
end
系统级的优化需要对处理器的频率等关键资源进行调整,这可以通过PXA270处理器的时钟管理模块实现。
1.4 滤波算法优化
在H.264编解码算法中,对滤波器算法的规定具有一定的灵活性[8],可以在不违反标准的情况下使用自己的滤波方法。在改进的滤波器中,通常采用的方法是改变子宏块(Sub-Macroblock)边界的滤波顺序,从而提高存储效率和数据的复用性[9]。本文设计了一个优化的滤波器算法,达到了一定的效果。
在H.264标准中,规定的标准解码算法是:对于一个16×16的宏块(图像格式为YUV4:2:0),其中各个4×4的子宏块边界的滤波顺序如图1的标号1~48所示。
在用软件实现滤波算法时,一帧图像数据的存储以二维数组的方式进行。例如,对于CIF(352×288)格式的一帧图像,其亮度信号存储在一个Y[352][288]数组中。
在计算机和多数嵌入式系统的内存中,内存地址是线性的,因此一个16×16的亮度宏块(划分为16个4×4大小的子宏块)中每个4×4的子宏块分别被编号为1~16。1~4子宏块的第一行数据在内存中的位置为M1,第二、三、四行数据在内存M2、M3、M4。M1~M4之间的位置分别被其他16×16的宏块所占据。5~8子宏块在内存中的位置为M5~M8,因此在形式上相邻的两个子宏块1和5,在内存中的位置可能差得很远。
在计算机系统中,为了充分利用数据的空间、时间相关性,会在访问内存中的一个数据时,把该数据相邻区域的一块数据都加载到缓存中。例如,当程序访问子宏块1的第一行数据时,处理器会自动把整个M1块加载到缓存中,即第2~4个子宏块的第一行也被加载到缓存中。由于缓存的大小非常有限,内存中有很多地址都可以映射到缓存中的同一个地址处。例如,当程序访问子宏块5的第一行时,M5被加载到缓存中,就有可能覆盖掉原来M1在缓存中位置。而对于M1~M3来说,它们在内存中的位置靠得比较近,因此可以被映射到缓存中的不同区域,不会相互覆盖。
对于图1中的滤波方案,会存在缓存未命中(Cache Miss)的问题。按照图1中的滤波顺序,每对一个边界做滤波都有可能覆盖掉前一次加载的数据,这样会增加对内存的访问次数,降低速度。为了改进这一点,本文提出了如图2所示的新的边界滤波顺序。
新方案在多数情况下可以利用前一次已经加载到Cache的数据进行操作。例如:在对编号为2、3、4的边界进行滤波时,可以利用对1边界进行滤波时已经加载的数据。这样可以提高去宏块效应滤波器的速度。
对于YUV4:2:0格式的图像,传统的滤波算法在处理一个16×16的亮度宏块和两个8×8的色度宏块时,可能在32条边界(共48条边界)处发生数据缓存未命中,这些边界分别是1~24、25~37、41、43、45、47(参见图1)。而改进的滤波算法则可能在11条边界处发生数据缓存未命中,这些边界分别是:1、5、9、17、25、33、35、37、41、43、45(参见图2)。由此可见,改进的滤波算法提高了内存访问效率。
2 仿真和测试结果
2.1 使用WMMX优化后的测试结果
使用WMMX汇编语言对H.264软件解码器进行并行计算优化后得到的效果如表1。
对比表1中的结果可以看出,WMMX计算优化的效果最为明显,对帧率的改善可以达到3f/s~5f/s。WMMX技术也是PXA27x系列处理器的一个亮点,这一功能使其可与一般DSP的计算能力相匹敌。
2.2 多项式计算优化的方针和测试结果
为了显示多项式优化的效果,首先在ARM(PXA270处理器是兼容ARM体系结构的)仿真环境下对单个函数测试,编译器采用ARM公司出品的ADS 1.2,在测试过程中,C/C++编译器的参数设置为:-O2-O time -g+ -cpu XXXXX(具体的ARM处理器内核类型,如ARM946E-S)。
在测试过程中,没有修改编译器的设置,为了证明算法的普适性,在多种ARM处理器内核上进行了仿真。
仿真时选用的函数是:predict_4x4_mode_3;predict_4x4_mode_4;predict_4x4_mode_5;predict_4x4_mode_6;predict_4x4_mode_7;predict_4x4_mode_8。
这些函数对应帧内预测的第3~8种模式,具体算法可以参照H.264的标准文档。下面给出函数predict_
4x4_mode_3进行优化后的简单示例。predict_4x4_mode_3在进行优化前的代码为:
predict_4x4_mode_3
Begin
Y0=(a0+a2+(a1<<1)+2)>>2;
Y1=Y4=(a1+a3+(a2<<1)+2)>>2;
Y2=Y5=Y8=(a2+a4+(a3<<1)+2)>>2;
Y3=Y6=Y9=Y12=(a3+a5+(a4<<1)+2)>>2;
Y7=Y10=Y13=(a4+a6+(a5<<1)+2)>>2;
Y11=Y14=(a5+a7+(a6<<1)+2)>>2;
Y15=(a6+(a7<<1)+a7+2)>>2;
end
进行优化后的代码如下:
predict_4x4_mode_3
Begin
T0=a0+a1;T1=a1+a2+2;Y0=(T0+T1)>>2;
T0=a2+a3;Y1=Y4=(T0+T1)>>2;
T1=a3+a4+2;Y2=Y5=Y8=(T0+T1)>>2;
T0=a4+a5;Y3=Y6=Y9=Y12=(T0+T1)>>2;
T1=a5+a6+2;Y7=Y10=Y13=(T0+T1)>>2;
T0=a6+a7;Y11=Y14=(T0+T1)>>2;
T1=a7+a7+2;Y15=(T0+T1)>>2;
end
考虑到程序表示方面的简明性,在优化的程序中使用了一些临时变量。从程序中涉及的多项式计算的表达式来看,在未优化程序中,使用了21次加法和14次移位运算;而在优化后的程序中,使用了19次加法和7次移位运算。对其他几个函数进行优化后,也有类似的结果。仿真器得到的结果请参照表2和表3。
从仿真结果可以看出,多项式计算优化算法应用于某些特定函数上,可以缩短时间和缩减代码体积。不过,多项式计算优化算法在H.264软件解码器中的应用是有限的,对整个软件解码器性能提高的贡献不大。
2.3 优化测试结果
对PXA270系统资源进行优化后,再运行H.264软件解码器时的测试结果比较见表4。通过系统资源优化,可以使H.264软件解码器性能提高 2f/s~3f/s。这表明系统资源优化是提高H.264解码器性能比较有效的一种方法。从表4可以看出,对去宏块效应滤波器优化后,解码器整体的性能的提高不是很大,这主要是由于滤波运算在测试视频中所占的比重不是很高引起的。编码时视频流所采用的量化器的量化程度比较低,所得的图像比较平滑,因此需要进行的滤波运算也少。
将上面提到的各种优化方法综合应用到H.264软件解码器中,取得的效果相当可观。联合使用各种优化方法,可以使得各个方法间相互补充,获得比单独使用更好的优化效果,如表4中测试组一和测试组二所示。对H.264软件解码器进行联合优化以后,性能的提高达到40%左右。
通过在实际平台上的测试可知,PXA270系统资源优化和WMMX并行计算优化的贡献最大,而其他两种方法的贡献则要小得多。但是也必须看到,效果好的方法其专用性也会很强,如WMMX并行计算需要有专门硬件的支持。去宏块效应滤波器算法优化和多项式计算优化两种方法虽然在 PXA270平台上对H.264软件解码器的优化效果不佳,但是它们对PXA270内部的特定资源依赖很小,通用性较强,可以用于其他平台或应用实例中,具有一定的使用价值。
参考文献
[1] WIEGAND T,SULLIVAN G,LUTHRA A.Draft ITU-T recommendation and final draft international standard of joint video specification(ITU-T Rec.H.264 | ISO/IEC 14496-10 AVC),Joint Video Team(JVT) of ISO/IEC MPEG & ITU-T VCEG(ISO/IEC JTC1/SC29/WG11 and ITU-T SG16 Q.6) 8th Meeting:Geneva, Switzerland,2003,5.
[2] Intel Corporation.Intel wireless MMXTM technology developer guide,2002.
[3] PAVER N C,KHAN M H,ALDRICH B C,et al.Accelerating mobile video applications using Intel@ wireless
MMXTM technology.IEEE workshop on signal processing systems,2003:207-212.
[4] http://www.cyansoft.com.cn/products.php?display=1&select=1,2007-5-23.
[5] PRASAD A,MITTAL A,KUMAR M,et al.Optimization and comparison of computational complexities of standard compliant video decoders on SIMD processors.ICASSP 2007:II-93-II-96.
[6] HOSANGADI A,FALLAH F,KASTNER R.Factoring and eliminating common subexpressions in polynomial expressions.ICCAD,2004:169-174.
[7] Intel Corporation.Intel PXA27x processor family developer′s manual,2004.
[8] LIST P,JOCH A,LAINEMA J,et al.Adaptive deblocking filter,IEEE transactions on circuits and systems for video technology,2003.
[9] 牛晓雷,戴琼海,刘烨斌.H.264/AVC解码器解块滤波的结构优化.计算机工程与应用,2005:104-106.