音视频同步的关键：深入解析PTS和DTS

在这里插入图片描述

😎 作者介绍：我是程序员行者孙，一个热爱分享技术的制能工人。计算机本硕，人工制能研究生。公众号：AI Sun，视频号：AI-行者Sun
🎈 本文专栏：本文收录于《音视频》系列专栏，相信一份耕耘一份收获，我会分享音视频相关学习内容，不说废话，祝大家都offer拿到手软
🤓 欢迎大家关注其他专栏，我将分享Web前后端开发、人工智能、机器学习、深度学习从0到1系列文章。
🖥随时欢迎您跟我沟通，一起交流，一起成长、进步！

音视频同步的关键：深入解析PTS和DTS

在多媒体播放和处理领域，音视频同步是保证用户体验的关键因素。而在这个过程中，PTS（Presentation Time Stamp）和DTS（Decoding Time Stamp）起着至关重要的作用。本文将深入解析这两个概念，并探讨它们在音视频同步中的作用和联系。

视频的播放过程可以简单理解为一帧一帧的画面按照时间顺序呈现出来的过程，就像在一个本子的每一页画上画，然后快速翻动的感觉。
在这里插入图片描述
但是在实际应用中，并不是每一帧都是完整的画面，因为如果每一帧画面都是完整的图片，那么一个视频的体积就会很大，这样对于网络传输或者视频数据存储来说成本太高，所以通常会对视频流中的一部分画面进行压缩（编码）处理。由于压缩处理的方式不同，视频中的画面帧就分为了不同的类别，其中包括：I 帧、P 帧、B 帧。

具体IPB帧的介绍看这里：深入解析视频编码中的IPB帧

什么是PTS和DTS？

在这里插入图片描述

PTS（显示时间戳）

PTS是音视频帧应该被显示或播放的时间戳。它确保了在播放过程中，无论是视频帧还是音频帧，都能在正确的时间点呈现给用户，保持音视频的同步性。例如，在视频播放中，PTS会指示每个帧在何时显示，以维持连贯的视觉体验。

DTS（解码时间戳）

DTS是音视频帧应该被解码的时间戳。由于一些编码格式可能会对帧进行重新排序，解码顺序可能与显示顺序不一致。DTS确保解码器能够按照正确的顺序解码帧，特别是在处理需要重新排序的编码格式时，DTS显得尤为重要。

DTS和PTS的区别

概念上的区别

DTS：标识帧被解码的时间。
PTS：标识帧被显示或播放的时间。

功能上的区别

DTS：主要用于解码过程，确保帧按照正确的顺序进行解码。
PTS：主要用于播放过程，确保帧在正确的时间点被显示或播放。

应用场景的区别

DTS：更多应用于解码器内部，用于管理帧的解码顺序。
PTS：更多应用于播放器，用于管理帧的显示和音频的播放时间。

DTS和PTS的联系

尽管DTS和PTS在功能和应用场景上有所区别，但它们共同服务于音视频同步这一目标。解码器使用DTS来决定帧的解码顺序，而播放器使用PTS来决定帧的显示顺序。这种同步工作机制确保了帧在正确的时间点被解码和播放，实现了音视频同步。

音视频同步的实例

以H.264编码格式为例，由于该编码格式支持B帧（双向预测帧），帧的解码顺序可能与播放顺序不一致。例如，假设有以下帧序列：

显示顺序：I B B P
解码顺序：I P B B

在这种情况下，解码器会按照DTS顺序解码帧，但播放器会按照PTS顺序显示帧。这样，即使在解码过程中帧的顺序被打乱，最终在播放时仍然能够保证音视频的同步性。

示例代码

音视频同步是一个复杂的过程，通常涉及到对音频和视频流的解码、时间戳处理以及适当的同步机制。在C++中实现这一功能，我们通常会使用像FFmpeg这样的库来处理媒体数据。以下是一个简化的示例，展示如何使用FFmpeg解码音频和视频流，并尝试进行基本的同步。

请注意，这个示例假设你已经安装了FFmpeg，并配置了相应的开发环境。此外，这个示例不包括实际的音频和视频播放代码，而是专注于解码和时间戳的处理。

#include <iostream>
#include <vector>
#include <algorithm>
#include <chrono>
#include <thread>extern "C" {#include <libavcodec/avcodec.h>#include <libavformat/avformat.h>#include <libavutil/time.h>
}// 用于存储解码后的帧
struct Frame {AVFrame* av_frame;int64_t pts; // 表示帧的显示/播放时间戳
};// 模拟解码队列
std::vector<Frame> video_frames;
std::vector<Frame> audio_frames;// 模拟播放队列
std::vector<Frame> play_queue;// 同步播放函数
void play_frames(std::vector<Frame>& queue) {// 这里只是一个示例，实际播放逻辑会更复杂for (auto& frame : queue) {// 根据帧的pts进行适当的延时以实现同步int64_t delay = frame.pts - av_gettime();if (delay < 0) delay = 0; // 防止负延时std::this_thread::sleep_for(std::chrono::milliseconds(delay));// 模拟播放帧std::cout << "Playing frame with PTS: " << frame.pts << std::endl;av_frame_unref(frame.av_frame);}queue.clear();
}// 主函数
int main() {// 初始化FFmpeg库av_register_all();avcodec_register_all();// 打开视频文件AVFormatContext* format_ctx = nullptr;if (avformat_open_input(&format_ctx, "input.mp4", nullptr, nullptr) < 0) {std::cerr << "Cannot open input file" << std::endl;return -1;}// 检索流信息if (avformat_find_stream_info(format_ctx, nullptr) < 0) {std::cerr << "Cannot find stream information" << std::endl;return -1;}// 找到音频和视频流的索引int video_stream_idx = -1, audio_stream_idx = -1;for (unsigned i = 0; i < format_ctx->nb_streams; i++) {if (format_ctx->streams[i]->codecpar->codec_type == AVMEDIA_TYPE_VIDEO) {video_stream_idx = i;} else if (format_ctx->streams[i]->codecpar->codec_type == AVMEDIA_TYPE_AUDIO) {audio_stream_idx = i;}}if (video_stream_idx == -1 || audio_stream_idx == -1) {std::cerr << "No audio or video streams found" << std::endl;return -1;}AVCodecContext* video_codec_ctx = avcodec_alloc_context3(nullptr);AVCodecContext* audio_codec_ctx = avcodec_alloc_context3(nullptr);// 打开音频和视频编解码器// ...// 模拟解码过程AVPacket packet;while (av_read_frame(format_ctx, &packet) == 0) {if (packet.stream_index == video_stream_idx || packet.stream_index == audio_stream_idx) {// 分配帧Frame frame{av_frame_alloc(), packet.pts};// 解码帧// ...// 根据类型将帧添加到相应的队列if (packet.stream_index == video_stream_idx) {video_frames.push_back(frame);} else {audio_frames.push_back(frame);}// 同步逻辑（简化示例）// 这里需要更复杂的逻辑来处理实际的同步if (!play_queue.empty() && video_frames.back().pts < play_queue.front().pts) {play_frames(play_queue);}av_packet_unref(&packet);}}// 清理资源avformat_close_input(&format_ctx);// ...return 0;
}