音视频开发29 FFmpeg 音频编码- 流程以及重要API,该章节使用AAC编码说明

此章节的一些参数，需要先掌握aac的一些基本知识：aac音视频开发13 FFmpeg 音频 --- 常用音频格式AAC，AAC编码器， AAC ADTS格式。_ffmpeg aac data数据格式-CSDN博客

目的：

从本地⽂件读取PCM数据进⾏AAC格式编码，然后将编码后的AAC数据存储到本地⽂件。

流程：

关键函数说明：

avcodec_find_encoder：根据指定的AVCodecID查找注册的编码器。

avcodec_alloc_context3：为AVCodecContext分配内存。

avcodec_open2：打开编码器。

avcodec_send_frame：将AVFrame⾮压缩数据给编码器。

avcodec_receive_packet：获取到编码后的AVPacket数据，收到的packet需要⾃⼰释放内存。

av_frame_get_buffer: 为⾳频或视频帧分配新的buffer。在调⽤这个函数之前，必须在AVFame上设

置好以下属性：format(视频为像素格式，⾳频为样本格式)、nb_samples(样本个数，针对⾳频)、

channel_layout(通道类型，针对⾳频)、width/height(宽⾼，针对视频）。

av_frame_make_writable ：确保AVFrame是可写的，使⽤av_frame_make_writable()的问题是，在最坏的情况下，它会在您使⽤encode再次更改整个输⼊frame之前复制它. 如果frame不可写，

av_frame_make_writable()将分配新的缓冲区，并复制这个输⼊input frame数据，避免和编码器需

要缓存该帧时造成冲突。

av_samples_fill_arrays 填充⾳频帧

对于 flush encoder的操作：

编码器通常的冲洗⽅法：调⽤⼀次 avcodec_send_frame(NULL)(返回成功)，然后不停调⽤

avcodec_receive_packet() 直到其返回 AVERROR_EOF，取出所有缓存帧， avcodec_receive_packet() 返回 AVERROR_EOF 这⼀次是没有有效数据的，仅仅获取到⼀

个结束标志

PCM样本格式

PCM(Pulse Code Modulation，脉冲编码调制)⾳频数据是未经压缩的⾳频采样数据裸流，它是由模拟信号经过采样、量化、编码转换成的标准数字⾳频数据。

描述PCM数据的6个参数：

1. Sample Rate : 采样频率。8kHz(电话)、44.1kHz(CD)、48kHz(DVD)。

2. Sample Size : 量化位数。通常该值为16-bit。

3. Number of Channels : 通道个数。常⻅的⾳频有⽴体声(stereo)和单声道(mono)两种类型，⽴体声包含左声道和右声道。另外还有环绕⽴体声等其它不太常⽤的类型。

4. Sign : 表示样本数据是否是有符号位，⽐如⽤⼀字节表示的样本数据，有符号的话表示范围为-128 ~ 127，⽆符号是0 ~ 255。有符号位16bits数据取值范围为-32768~32767。

5. Byte Ordering : 字节序。字节序是little-endian还是big-endian。通常均为little-endian。字节序说

明⻅第4节。

6. Integer Or Floating Point : 整形或浮点型。⼤多数格式的PCM样本数据使⽤整形表示，⽽在⼀些对精度要求⾼的应⽤⽅⾯，使⽤浮点类型表示PCM样本数据（浮点数 float值域为 [-1.0, 1.0]）。

//播放格式为f32le，双声道，采样频率48000Hz的PCM数据
ffplay -f f32le -ac 2 -ar 48000 pcm_audio

如何知道FFmpeg⽀持的PCM数据格式

使⽤ffmpeg -formats命令，获取ffmpeg⽀持的⾳视频格式，其中我们可以找到⽀持的PCM格式。

ffmpeg -formats | findstr PCM

 DE alaw            PCM A-lawDE f32be           PCM 32-bit floating-point big-endianDE f32le           PCM 32-bit floating-point little-endianDE f64be           PCM 64-bit floating-point big-endianDE f64le           PCM 64-bit floating-point little-endianDE mulaw           PCM mu-lawDE s16be           PCM signed 16-bit big-endianDE s16le           PCM signed 16-bit little-endianDE s24be           PCM signed 24-bit big-endianDE s24le           PCM signed 24-bit little-endianDE s32be           PCM signed 32-bit big-endianDE s32le           PCM signed 32-bit little-endianDE s8              PCM signed 8-bitDE u16be           PCM unsigned 16-bit big-endianDE u16le           PCM unsigned 16-bit little-endianDE u24be           PCM unsigned 24-bit big-endianDE u24le           PCM unsigned 24-bit little-endianDE u32be           PCM unsigned 32-bit big-endianDE u32le           PCM unsigned 32-bit little-endianDE u8              PCM unsigned 8-bitDE vidc            PCM Archimedes VIDC

s是有符号，u是⽆符号，f是浮点数。

be是⼤端，le是⼩端。

FFmpeg中Packed和Planar的PCM数据区别

FFmpeg中⾳视频数据基本上都有Packed和Planar两种存储⽅式，对于双声道⾳频来说，

Packed⽅式为两个声道的数据交错存储；Planar⽅式为两个声道分开存储。假设⼀个L/R为⼀

个采样点，数据存储的⽅式如下所示：

Packed: L R L R L R L R

Planar: L L L L ... R R R R...

packed格式

1 AV_SAMPLE_FMT_U8, ///< unsigned 8 bits
2 AV_SAMPLE_FMT_S16, ///< signed 16 bits
3 AV_SAMPLE_FMT_S32, ///< signed 32 bits
4 AV_SAMPLE_FMT_FLT, ///< float
5 AV_SAMPLE_FMT_DBL, ///< double

只能保存在AVFrame的uint8_t *data[0]

⾳频保持格式如下：

LRLRLR ...

planar格式

planar为FFmpeg内部存储⾳频使⽤的采样格式，所有的Planar格式后⾯都有字⺟P标识。

1 AV_SAMPLE_FMT_U8P, ///< unsigned 8 bits, planar
2 AV_SAMPLE_FMT_S16P, ///< signed 16 bits, planar
3 AV_SAMPLE_FMT_S32P, ///< signed 32 bits, planar
4 AV_SAMPLE_FMT_FLTP, ///< float, planar
5 AV_SAMPLE_FMT_DBLP, ///< double, planar
6 AV_SAMPLE_FMT_S64, ///< signed 64 bits
7 AV_SAMPLE_FMT_S64P, ///< signed 64 bits, planar

plane 0: LLLLLLLLLLLLLLLLLLLLLLLLLL...

plane 1: RRRRRRRRRRRRRRRRRRRR....

plane 0对于uint8_t *data[0];

plane 1对于uint8_t *data[1];