ffmpeg开发指南(使用 libavformat 和 libavcodec)

ffmpeg开发指南(使用 libavformat 和 libavcodec)

Ffmpeg 中的Libavformat 和 libavcodec是访问大多数视频文件格式的一个很好的方法。不幸的是,在开发您自己的程序时,这套库基本上没有提供什么实际的文档可以用来作为参考(至少我没有找到任何文档),并且它的例程也并没有太多的帮助。

这种情况意味着,当我在最近某个项目中需要用到 libavformat/libavcodec 库时,需要作很多试验来搞清楚怎样使用它们。这里是我所学习的--希望我做的这些能够帮助一些人,以免他们重蹈我的覆辙,作同样的试验,遇到同样的错误。你还可以从这里下载一个demo程序。我将要公开的这部分代码需要0.4.8 版本的ffmpeg库中的 libavformat/libavcodec 的支持(我正在写最新版本)。如果您发现以后的版本与我写的程序不能兼容,请告知我。

在这个文档里,我仅仅涉及到如何从文件中读入视频流;音频流使用几乎同样的方法可以工作的很好,不过,我并没有实际使用过它们,所以,我没于办法提供任何示例代码。

或许您会觉得奇怪,为什么需要两个库文件 libavformat 和 libavcodec :许多视频文件格式(AVI就是一个最好的例子)实际上并没有明确指出应该使用哪种编码来解析音频和视频数据;它们只是定义了音频流和视频流(或者,有可能是多个音频视频流)如何被绑定在一个文件里面。这就是为什么有时候,当你打开了一个AVI文件时,你只能听到声音,却不能看到图象--因为你的系统没有安装合适的视频解码器。所以, libavformat 用来处理解析视频文件并将包含在其中的流分离出来, 而libavcodec 则处理原始音频和视频流的解码。

打开视频文件:
首先第一件事情--让我们来看看怎样打开一个视频文件并从中得到流。我们要做的第一件事情就是初始化libavformat/libavcodec:

av_register_all();
这一步注册库中含有的所有可用的文件格式和编码器,这样当打开一个文件时,它们才能够自动选择相应的文件格式和编码器。要注意你只需调用一次 av_register_all(),所以,尽可能的在你的初始代码中使用它。如果你愿意,你可以仅仅注册个人的文件格式和编码,不过,通常你不得不这么做却没有什么原因。

下一步,打开文件:
AVFormatContext *pFormatCtx;
const char  *filename="myvideo.mpg";
// 打开视频文件
if(av_open_input_file(&pFormatCtx, filename, NULL, 0, NULL)!=0)
handle_error(); // 不能打开此文件


最后三个参数描述了文件格式,缓冲区大小(size)和格式参数;我们通过简单地指明NULL或0告诉 libavformat 去自动探测文件格式并且使用默认的缓冲区大小。请在你的程序中用合适的出错处理函数替换掉handle_error()。
下一步,我们需要取出包含在文件中的流信息:
// 取出流信息
if(av_find_stream_info(pFormatCtx)<0)
handle_error(); // 不能够找到流信息

这一步会用有效的信息把 AVFormatContext 的流域(streams field)填满。作为一个可调试的诊断,我们会将这些信息全盘输出到标准错误输出中,不过你在一个应用程序的产品中并不用这么做:
dump_format(pFormatCtx, 0, filename, false);

就像在引言中提到的那样,我们仅仅处理视频流,而不是音频流。为了让这件事情更容易理解,我们只简单使用我们发现的第一种视频流:

int i, videoStream;
AVCodecContext *pCodecCtx;
// 寻找第一个视频流
videoStream=-1;
for(i=0; i<pFormatCtx->nb_streams; i++)
if(pFormatCtx->streams->codec.codec_type==CODEC_TYPE_VIDEO)
{
  videoStream=i;
  break;
}
if(videoStream==-1)
handle_error(); // Didn't find a video stream

// 得到视频流编码上下文的指针
pCodecCtx=&pFormatCtx->streams[videoStream]->codec;

好了,我们已经得到了一个指向视频流的称之为上下文的指针。但是我们仍然需要找到真正的编码器打开它。

AVCodec *pCodec;

// 寻找视频流的解码器
pCodec=avcodec_find_decoder(pCodecCtx->codec_id);
if(pCodec==NULL)
handle_error(); // 找不到解码器

// 通知解码器我们能够处理截断的bit流--ie,
// bit流帧边界可以在包中
if(pCodec->capabilities & CODEC_CAP_TRUNCATED)
pCodecCtx->flags|=CODEC_FLAG_TRUNCATED;

// 打开解码器
if(avcodec_open(pCodecCtx, pCodec)<0)
handle_error(); // 打不开解码器

(那么什么是“截断bit流”?好的,就像一会我们看到的,视频流中的数据是被分割放入包中的。因为每个视频帧的数据的大小是可变的,那么两帧之间的边界就不一定刚好是包的边界。这里,我们告知解码器我们可以处理bit流。)


存储在 AVCodecContext结构中的一个重要的信息就是视频帧速率。为了允许非整数的帧速率(比如 NTSC的 29.97帧),速率以分数的形式存储,分子在 pCodecCtx->frame_rate,分母在 pCodecCtx->frame_rate_base 中。在用不同的视频文件测试库时,我注意到一些编码器(很显然ASF)似乎并不能正确的给予赋值( frame_rate_base 用1代替1000)。下面给出修复补丁:

// 加入这句话来纠正某些编码器产生的帧速错误
if(pCodecCtx->frame_rate>1000 && pCodecCtx->frame_rate_base==1)
pCodecCtx->frame_rate_base=1000;

注意即使将来这个bug解决了,留下这几句话也并没有什么坏处。视频不可能拥有超过1000fps的帧速。

只剩下一件事情要做了:给视频帧分配空间以便存储解码后的图片:

AVFrame *pFrame;

pFrame=avcodec_alloc_frame();

就这样,现在我们开始解码这些视频。

解码视频帧
就像我前面提到过的,视频文件包含数个音频和视频流,并且他们各个独自被分开存储在固定大小的包里。我们要做的就是使用libavformat依次读取这些包,过滤掉所有那些视频流中我们不感兴趣的部分,并把它们交给 libavcodec 进行解码处理。在做这件事情时,我们要注意这样一个事实,两帧之间的边界也可以在包的中间部分。
听起来很复杂?幸运的是,我们在一个例程中封装了整个过程,它仅仅返回下一帧:

bool GetNextFrame(AVFormatContext *pFormatCtx, AVCodecContext *pCodecCtx,
int videoStream, AVFrame *pFrame)
{
static AVPacket packet;
static int  bytesRemaining=0;
static uint8_t *rawData;
static bool  fFirstTime=true;
Int bytesDecoded;
Int frameFinished;

// 我们第一次调用时,将 packet.data 设置为NULL指明它不用释放了
if(fFirstTime)
{
  fFirstTime=false;
  packet.data=NULL;
}

// 解码直到成功解码完整的一帧
while(true)
{
// 除非解码完毕,否则一直在当前包中工作
  while(bytesRemaining > 0)
  {
// 解码下一块数据
    bytesDecoded=avcodec_decode_video(pCodecCtx, pFrame,
      &frameFinished, rawData, bytesRemaining);

// 出错了?
    if(bytesDecoded < 0)
    {
      fprintf(stderr, "Error while decoding frame\n");
      return false;
    }

    bytesRemaining-=bytesDecoded;
    rawData+=bytesDecoded;

// 我们完成当前帧了吗?接着我们返回
    if(frameFinished)
      return true;
  }

// 读取下一包,跳过所有不属于这个流的包
  do
  {
    // 释放旧的包
    if(packet.data!=NULL)
      av_free_packet(&packet);

    // 读取新的包
    if(av_read_packet(pFormatCtx, &packet)<0)
      goto loop_exit;
  } while(packet.stream_index!=videoStream);

  bytesRemaining=packet.size;
  rawData=packet.data;
}

loop_exit:

// 解码最后一帧的余下部分
bytesDecoded=avcodec_decode_video(pCodecCtx, pFrame, &frameFinished,
  rawData, bytesRemaining);

// 释放最后一个包
if(packet.data!=NULL)
  av_free_packet(&packet);

return frameFinished!=0;
}

现在,我们要做的就是在一个循环中,调用 GetNextFrame () 直到它返回false。还有一处需要注意:大多数编码器返回 YUV 420 格式的图片(一个亮度和两个色度通道,色度通道只占亮度通道空间分辨率的一半(译者注:此句原句为the chrominance channels samples at half the spatial resolution of the luminance channel))。看你打算如何对视频数据处理,或许你打算将它转换至RGB格式。(注意,尽管,如果你只是打算显示视频数据,那大可不必要这么做;查看一下 X11 的 Xvideo 扩展,它可以在硬件层进行 YUV到RGB 转换。)幸运的是, libavcodec 提供给我们了一个转换例程 img_convert ,它可以像转换其他图象进行 YUV 和 RGB之间的转换。这样解码视频的循环就变成这样:

while(GetNextFrame(pFormatCtx, pCodecCtx, videoStream, pFrame))
{
img_convert((AVPicture *)pFrameRGB, PIX_FMT_RGB24, (AVPicture*)pFrame,
  pCodecCtx->pix_fmt, pCodecCtx->width, pCodecCtx->height);

// 处理视频帧(存盘等等)
DoSomethingWithTheImage(pFrameRGB);
}

RGB图象pFrameRGB (AVFrame *类型)的空间分配如下:

AVFrame *pFrameRGB;
int  numBytes;
uint8_t *buffer;

// 分配一个AVFrame 结构的空间
pFrameRGB=avcodec_alloc_frame();
if(pFrameRGB==NULL)
handle_error();

// 确认所需缓冲区大小并且分配缓冲区空间
numBytes=avpicture_get_size(PIX_FMT_RGB24, pCodecCtx->width,
pCodecCtx->height);
buffer=new uint8_t[numBytes];

// 在pFrameRGB中给图象位面赋予合适的缓冲区
avpicture_fill((AVPicture *)pFrameRGB, buffer, PIX_FMT_RGB24,
pCodecCtx->width, pCodecCtx->height);

清除
好了,我们已经处理了我们的视频,现在需要做的就是清除我们自己的东西:
// 释放 RGB 图象
delete [] buffer;
av_free(pFrameRGB);

// 释放YUV 帧
av_free(pFrame);

// 关闭解码器(codec)
avcodec_close(pCodecCtx);

// 关闭视频文件
av_close_input_file(pFormatCtx);

完成!
更新(2005年4月26号):有个读者提出:在 Kanotix (一个 Debian 的发行版)上面编译本例程,或者直接在 Debian 上面编译,头文件中avcodec.h 和avformat.h 需要加上前缀“ffmpeg”,就像这样:

#include <ffmpeg/avcodec.h>
#include <ffmpeg/avformat.h>

同样的, libdts 库在编译程序时也要像下面这样加入进来:

g++ -o avcodec_sample.0.4.9 avcodec_sample.0.4.9.cpp \
-lavformat -lavcodec -ldts -lz




几个月前,我写了一篇有关使用ffmpeg下libavformat 和 libavcodec库的文章。从那以来,我收到过一些评论,并且新的ffmpeg预发行版(0.4.9-pre1) 最近也要出来了,增加了对在视频文件中定位的支持,新的文件格式,和简单的读取视频帧的接口。这些改变不久就会应用到CVS中,不过这次是我第一次在发行版中看到它们。(顺便感谢 Silviu Minut 共享长时间学习CVS版的ffmpeg的成果--他的有关ffmpeg的信息和demo程序在这里。)

在这篇文章里,我仅仅会描述一下以前的版本(0.4.8)和最新版本之间的区别,所以,如果你是采用新的 libavformat / libavcodec ,我建议你读前面的文章。

首先,说说有关编译新发行版吧。用我的编译器( SuSE 上的 gcc 3.3.1 ),在编译源文件 ffv1.c 时会报一个编译器内部的错误。我怀疑这是个精简版的gcc--我在编译 OpenCV 时也遇到了同样的事情--但是不论如何,一个快速的解决方法就是在编译此文件时不要加优化参数。最简单的方法就是作一个make,当编译时遇到编译器错误,进入 libavcodec 子目录(因为这也是 ffv1.c 所在之处),在你的终端中使用gcc命令去编译ffv1.c,粘贴,编辑删除编译器开关(译者注:就是参数)"-O3",然后使用那个命令运行gcc。然后,你可以变回ffmpeg主目录并且重新运行make,这次应该可以编译了。

都有哪些更新?
有那些更新呢?从一个程序员的角度来看,最大的变化就是尽可能的简化了从视频文件中读取个人的视频帧的操作。在ffmpeg 0.4.8 和其早期版本中,在从一个视频文件中的包中用例程av_read_packet()来读取数据时,一个视频帧的信息通常可以包含在几个包里,而另情况更为复杂的是,实际上两帧之间的边界还可以存在于两个包之间。幸亏ffmpeg 0.4.9 引入了新的叫做av_read_frame()的例程,它可以从一个简单的包里返回一个视频帧包含的所有数据。使用av_read_packet()读取视频数据的老办法仍然支持,但是不赞成使用--我说:摆脱它是可喜的。

这里让我们来看看如何使用新的API来读取视频数据。在我原来的文章中(与 0.4.8 API相关),主要的解码循环就像下面这样:

while(GetNextFrame(pFormatCtx, pCodecCtx, videoStream, pFrame))
{
img_convert((AVPicture *)pFrameRGB, PIX_FMT_RGB24, (AVPicture*)pFrame,
  pCodecCtx->pix_fmt, pCodecCtx->width, pCodecCtx->height);

// 处理视频帧(存盘等等)
DoSomethingWithTheImage(pFrameRGB);
}

GetNextFrame() 是个有帮助的例程,它可以处理这样一个过程,这个过程汇编一个完整的视频帧所需要的所有的包。新的API简化了我们在主循环中实际直接读取和解码数据的操作:

while(av_read_frame(pFormatCtx, &packet)>=0)
{
// 这是视频流中的一个包吗?
if(packet.stream_index==videoStream)
{
  // 解码视频流
  avcodec_decode_video(pCodecCtx, pFrame, &frameFinished,
    packet.data, packet.size);

  // 我们得到一帧了吗?
  if(frameFinished)
  {
    // 把原始图像转换成 RGB
    img_convert((AVPicture *)pFrameRGB, PIX_FMT_RGB24,
      (AVPicture*)pFrame, pCodecCtx->pix_fmt, pCodecCtx->width,
      pCodecCtx->height);

    // 处理视频帧(存盘等等)
    DoSomethingWithTheImage(pFrameRGB);
  }
}

// 释放用av_read_frame分配空间的包
av_free_packet(&packet);
}

看第一眼,似乎看上去变得更为复杂了。但那仅仅是因为这块代码做的都是要隐藏在GetNextFrame()例程中实现的(检查包是否属于视频流,解码帧并释放包)。总的说来,因为我们能够完全排除 GetNextFrame (),事情变得更简单了。
我已经更新了demo程序使用最新的API。简单比较一下行数(老版本222行 Vs新版本169行)显示出新的API大大的简化了这件事情。

0.4.9的另一个重要的更新是能够在视频文件中定位一个时间戳。它通过函数av_seek_frame() 来实现,此函数有三个参数:一个指向 AVFormatContext 的指针,一个流索引和定位时间戳。此函数在给定时间戳以前会去定位第一个关键帧。所有这些都来自于文档。我并没有对av_seek_frame()进行测试,所以这里我并不能够给出任何示例代码。如果你成功的使用av_seek_frame() ,我很高兴听到这个消息。

捕获视频(Video4Linux and IEEE1394)
Toru Tamaki 发给我了一些使用 libavformat / libavcodec 库从 Video4Linux 或者 IEEE1394 视频设备源中抓捕视频帧的样例代码。对 Video4Linux,调用av_open_input_file() 函数应该修改如下:
AVFormatParameters formatParams;
AVInputFormat *iformat;

formatParams.device = "/dev/video0";
formatParams.channel = 0;
formatParams.standard = "ntsc";
formatParams.width = 640;
formatParams.height = 480;
formatParams.frame_rate = 29;
formatParams.frame_rate_base = 1;
filename = "";
iformat = av_find_input_format("video4linux");

av_open_input_file(&ffmpegFormatContext,
        filename, iformat, 0, &formatParams);

For IEEE1394, call av_open_input_file() like this:

AVFormatParameters formatParams;
AVInputFormat *iformat;

formatParams.device = "/dev/dv1394";
filename = "";
iformat = av_find_input_format("dv1394");

av_open_input_file(&ffmpegFormatContext,filename, iformat, 0, &formatParams);
3

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/510586.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SKG 渠道中台借助 SAE + 大禹打造云原生 DevOPS,提效 60%

项目背景 未来穿戴健康科技股份有限公司&#xff08;SKG&#xff09;是一家专注为个人与家庭提供智能可穿戴健康产品的高新技术企业&#xff0c;专业从事 SKG 品牌可穿戴健康产品和便携式健康产品的研发、设计、生产及销售。 随着市场需求的迅速变化&#xff0c;SKG 的 IT 系…

资源预测数字模型搭建思路分享

业务背景 资源预测是项目管理过程中的一个环节&#xff0c;即通过搭建合适的数据模型&#xff0c;对未来的项目人力资源投入情况进行有效预测&#xff0c;可以更加精准的完成项目资源规划并能及时发现问题进行相关调整。 难题和痛点 PM排期时没有有效数据支撑资源使用情况&a…

视频压缩:I帧、P帧、B帧

/************************************************************************************************************************************************************************************** **说明&#xff1a; 1.本文通过整理而来&#xff0c;集多个高手的精华&a…

浅谈大数据背景下数据库安全保障体系

现阶段大数据产业的快速发展创造了极大的经济效益&#xff0c;大数据的出现推动了社会经济发展&#xff0c;但是随之而来的数据库安全问题也引起了学者对大数据信息安全问题的反思。大数据时代下的信息与隐私安全问题已经成为全球性重点关注的问题&#xff0c;为了能够更有效地…

EasyNLP 中文文图生成模型带你秒变艺术家

导读 宣物莫大于言&#xff0c;存形莫善于画。 --【晋】陆机 多模态数据&#xff08;文本、图像、声音&#xff09;是人类认识、理解和表达世间万物的重要载体。近年来&#xff0c;多模态数据的爆炸性增长促进了内容互联网的繁荣&#xff0c;也带来了大量多模态内容理解和生成…

阿里本地生活全域日志平台 Xlog 的思考与实践

1. 背景 程序员学习每一门语言都是从打印“hello world”开始的。这个启蒙式的探索&#xff0c;在向我们传递着一个信息&#xff1a;“当你踏进了编程的领域&#xff0c;代码和日志将是你最重要的伙伴”。在代码部分&#xff0c;伴随着越来越强大的idea插件、快捷键&#xff0…

关于运维,阿里云、字节、华科的专家如是说

只有今天周密的“运”筹帷幄&#xff0c;才有将来持续的“维”护稳定。不久前&#xff0c;阿里云联合中国计算机行业协会信息存储与安全专业委员会&#xff0c;邀请到了来自阿里云、字节跳动、华中科技大学的多位专家&#xff0c;共同探讨数字经济时代存储系统的运维之道。 一…

行业 SaaS 微服务稳定性保障实战

很多研发人员在日常工作中经常回遇到以下两个问题&#xff1a;竟然不可以运行&#xff0c;为什么&#xff1f;竟然可以运行&#xff0c;为什么&#xff1f; 因此&#xff0c;他们非常期望可观测能够提供解决问题的思路。 引言 2017 年&#xff0c;推特工程师 Cindy 发表了一篇…

阿里云全站加速 DCDN 重磅发布!打造新一代加速引擎

在数字化转型变革逐步深入的当下&#xff0c;安全高效成为企业上云、全球化部署的关键需求。 随着应用场景复杂度不断提升、业务需求差异化发展&#xff0c;为了给企业提供更完善的安全加速服务&#xff0c;阿里云对全站加速DCDN产品进行了全面升级&#xff0c;针对边缘安全防…

阿里云云原生一体化数仓 - 数据安全能力解读

MaxCompute产品简介 MaxCompute是一款多功能、低成本、高性能、高可靠、易于使用的数据仓库和支持全部数据湖能力的大数据平台&#xff0c;支持超大规模、serverless和完善的多租户能力&#xff0c;内建企业级安全能力和管理功能&#xff0c;支持数据保护和安全共享&#xff0…

EMT4J——让 Java 应用升级更轻松

前言 JDK 升级对于 Java 应用来说是不得不面对的事情&#xff0c;一方面 Java 生态系统希望 Java 应用能跟上最新 JDK 版本&#xff1a; Oracle 建议将 JDK 的 LTS 版本的发布周期从 3 年调整为 2 年,对于只使用 LTS 版本的应用来说,可以在更短时间内使用最新的技术&#xff…

多年锤炼,迈向Kata 3.0 !走进开箱即用的安全容器体验之旅

一、Kata 的过去 让我们将时钟拨回 2015 年 5 月&#xff0c;Hyper.sh 和 Intel 开源技术中心的工程师们分别独立发布了runV 和 Clear Containers 的虚拟化容器项目&#xff0c;而这两个项目便是 Kata Containers1 的前身。这两个项目互相有很多交流&#xff0c;在分别独立发展…

从函数计算到 Serverless 架构

前言 随着 Serverless 架构的不断发展&#xff0c;各云厂商和开源社区都已经在布局 Serverless 领域&#xff0c;一方面表现在云厂商推出传统服务/业务的 Serverless 化版本&#xff0c;或者 Serverless 计算平台&#xff0c;另一方面表现在开源社区中 Serverless 相关项目逐渐…

PolarDB B-tree 并发控制优化

InnoDB 索引 InnoDB 引擎使用索引组织表&#xff0c;每个表的数据都放在一个对应的索引中&#xff0c;该索引称为聚集索引&#xff08;clustered index&#xff09;&#xff0c;使用索引组织表的目的是&#xff1a; 动态地组织磁盘文件结构&#xff0c;维护数据记录有序&…

几种常见的 MySQL/PolarDB-MySQL 回收表空间方法对比

背景 为什么需要回收表空间&#xff1f;任何一个存储或您购买的实例规格都有容量限制&#xff0c;并且根据存储介质不同&#xff0c;保存方式不同&#xff0c;相应地成本也会不同。在线数据库的存储成本是比较高的&#xff0c;所以架构师和DBA在系统设计之初就要考虑满足未来几…

Lindorm-Operator云原生实践

背景介绍&#xff1a; 随着 Kubernetes 使用的越来越广泛&#xff0c;k8s管理的native的对象资源有时并不能满足用户的需求&#xff0c;为了提高可扩展性&#xff0c;自 v1.7 以来&#xff0c;Kubernetes 引入了 CRD 机制&#xff08;CustomResourceDefinition&#xff09;&am…

客户端单元测试实践 — C++篇

背景 我们团队在手淘中主要负责BehaviX模块&#xff0c;代码主要是一些逻辑功能&#xff0c;很少涉及到UI&#xff0c;为了减少双端不一致问题、提高性能&#xff0c;我们采用了将核心代码C化的策略。 由于团队项目偏底层&#xff0c;测试同学难以完全覆盖&#xff0c;回归成…

MySQL 统计信息不准导致的性能问题

表的统计信息错误导致优化器选择错误的执行计划。 一个客户的性能优化案例: 没有修改数据库实例的任何配置参数以及业务代码没有变更的情况下&#xff0c;一条 sql 出现大幅性能下降。 我们来看看出问题的sql 以及他的执行计划: mysql> explain -> SELECT count(con.…

设z=〖(1+xy)〗^y,求 ∂z/∂y

z〖(1xy)〗^y lnzyln&#xff08;1&#xff0b;xy&#xff09; 两边同时对y求偏导&#xff0c;得 1/z ∂z/∂yln&#xff08;1&#xff0b;xy&#xff09;&#xff0b;y1/&#xff08;1&#xff0b;xy&#xff09; x 1/z ∂z/∂yln&#xff08;1&#xff0b;xy&#xff09;&…

基于 RTS 超低延时直播优化强互动场景体验

RTS 在阿里云视频直播的基础上进行底层技术优化&#xff0c;通过集成阿里云播放器 SDK&#xff0c;支持在千万级并发场景下节点间毫秒级延时直播的能力&#xff0c;弥补了传统直播存在 3~6 秒延时的问题&#xff0c;确保了超低延时、低卡顿、秒开流畅的直播观看体验。本文介绍了…