基于DirectShow的MPEG-4视频传输系统的研究与实现
温小明 吴志刚
(东华大学计算机学院 上海 200051)
摘要 本文简单介绍了DirectShow技术,研究了利用DirectShow实现视频采集、压缩和网络传输技术。并利用第三方提供的编解码器实现了MPEG-4视频数据的网络传输系统,在该系统中利用RTP协议进行视频数据传输,同时实现了远端帧率的控制。
关键词 视频; 采集; 压缩; DirectShow; MPEG-4,RTP
1 引言
近年来,随着国民经济的发展,社会各个部门对于视频监视系统的需求越来越多。但目前的很多监视系统都跟具体的硬件相关,必须要具体的采集卡的支持才能实现。所以有必要开发一种具有通用性的视频监视系统,用普通的摄像头就能实现视频的采集。
基于DirectShow的开发能很灵活地控制音视频的效果,所以选择DirectShow这种可扩展性好的技术做开发对以后的应用升级很有帮助。此外,为了实现流媒体传输控制的策略,流媒体的传输和回放也是应解决的问题之一。由Microsoft提供的DirectShow技术基于组件对象模型技术,支持宽松的格式变化,提供高品质的多媒体流回放。利用它可以在普通微机中实现流媒体的客户端处理,并可以提高系统的通用性和可扩展性。
对于视频数据的传输,压缩率是一个必须考虑到的因素。MPEG-4是由ISO和IEC的MPEG组制定的一个关于活动图像和声音的编码国际标准。它在基于内容的交互性、压缩率、通用访问能力等方面提供了一系列新的或改进的功能。MPEG-4视频在提供较好的图像质量的同时拥有较高的压缩率,适合于作为传输的图像压缩标准。
2 相关技术
2.1 DirectShow技术简介
DirectShow是Microsoft为开发高性能多媒体应用而开发的底层应用程序接口(API),它是DirectX家族的核心成员之一。DirectShow自身是通过一种系统内置的或程序员开发的过滤器(Filter)来控制和处理多媒体数据的体系结构。该体系结构定义了如何处理和控制过滤器内部及相互之间的多媒体数据流。每个过滤器都有输入或输出针(Pin), 或两者都有。
过滤器(Filter)是DirectShow的基本组成部分,是Filter Graph(过滤器图)中最小的功能模块,DirectShow将多媒体数据的处理分离成不同的步骤,这些不同的步骤由相应的Filter去处理。这样我们可以把不同的过滤器搭配在一起达到我们要求的来处理多媒体数据。过滤器根据实现功能的不同大致可分为3类:
1 源过滤器(Source Filters)。源过滤器负责得到原始媒体数据。这些媒体数据的来源包括本地硬盘或网络上的媒体文件、各种采集卡等。
2 转换过滤器(Transform Filters)。转换过滤器的任务是处理从其他过滤器中接收的数据,经过一定的处理后再传递给下一个过滤器。编解码器就是典型的转换过滤器。
3 表现过滤器(Rendering Filters)。表现过滤器对接收到的数据进行最后的处理。它做的工作有:把媒体数据保存为文件、将数据发送到网络、显示视频、回放音频等[1]。
在DirectShow 系统之上是应用程序(Application) 。应用程序要按照程序所要实现的功能建立起相应的Filter Graph ,然后借助于Filter Graph Manager 来控制整个数据的处理过程。DirectShow 能在Filter Graph 运行的时候接收到各种事件,并通过消息的方式发送到应用程序。这样就实现了应用程序与DirectShow 系统之间的交互。
2.2 RTP/RTCP协议介绍
实时传输协议RTP(Realtime Transport Protocol)是针对Internet 上多媒体数据流的一个传输协议,1996 年由IETF( Internet 工程任务组) 的AVT小组作为RFC1889 发布AVT小组后来对该文档进行了不断改进,于2003年7月提出了代替RFC1889的RFC3550。RTP充分体现了应用层分帧这一现代通信协议的设计思想,允许其用户了解、调整甚至制定连续媒体的打包方案,该协议被广泛用于VoIP、视频等实时媒体的传送。RTP 协议包括RTP 和RTCP(RTP 控制协议) 两个关系十分密切的子协议:
(1) RTP协议-传输具有实时特性的数据;
(2)RTCP协议—监测QoS 和传送参与传输者的信息。
RTP(实时传输协议) 通常工作在UDP的上层,从上层接收多媒体信息码流(如MPEG-4视频) ,组装成RTP 数据包,然后发送给下层UDP ,相当于OSI 的会话层,提供同步和排序服务。故RTP 协议适用于传送连续性强的数据,如视频、音频等,并对网络引起的时延差错有一定的自适应能力。RTCP 为实时控制协议,用于管理控制信息,如监视网络的延时和带宽,一旦所传输的多媒体信息的带宽发生变化,接收端则通知发送端,广播符号化识别码和编码参数,达到控制传输质量的目的。此外,如果底层网络支持多点传播的话,RTP 还支持使用多点传播向多个目的端点发送数据。
RTP协议具有如下特点[5]:
(1)灵活性
RTP协议的数据报文和控制报文使用不同的端口,数据流和控制流分离,这样大大地提高了协议的灵活性,处理也简单。
(2)支持多播
如果下层网路支持,可以支持多播。
(3)可扩展性
RTP协议通常为一个具体的应用提供服务,通过一个具体的应用进程实现,而不作为OSI体系结构中单独的一层来实现,RTP只提供协议框架,开发者可以根据应用的具体要求对协议进行充分的扩展。
3 关键技术的实现
该系统的发送端实现思路如下:用USB摄像头采集数据,用Divx 5.1.1 Codec 对采集到的数据进行MPEG-4的编码,然后连到一个发送Filter把编码后的数据发送出去。其Filter Graph如图1所示:
图1 发送端的Filter Graph
接收端的实现思路如下:通过一个接收Filter接收发送端发送的数据,然后再用Divx Decoder Filter对接收到的数据进行解码。最后用Video Renderer把解码后的数据播放出来。其Filter Graph如图2所示:
图2 接收端的Filter Graph
3.1 数据采集及编码的实现
3.1.1采集Filter Graph的实现
采集应用的Filter Graph一般比较复杂,而直接使用Filter Graph Manager上的IGraphBuilder接口构建这种Filter Graph,有时候难度又很大。为此,DirectShow特别提供了一个辅助组件Capture Graph Builder,来简化这种Filter Graph的创建。
首先是创建Filter Graph Manager 组件,核心代码如下:
hr=CoCreateInstance(CLSID_FilterGraph,NULL,CLSCTX_INPROC_SERVER,
IID_IGraphBuilder,(void **)&m_pIGraphBuilder);
然后创建一个Capture Graph Builder组件,利用这个组件上的ICaptureGraphBuilder2接口来完成Filter Graph的构建。
hr=CoCreateInstance(CLSID_CaptureGraphBuilder2,NULL,CLSCTX_INPROC,
IID_ICaptureGraphBuilder2,(void **)&m_pICaptureGraphBuilder2);
接着通过调用接口方法ICaptureGraphBuilder2::SetFilterGraph(m_pIGraphBuilder)将Filter Graph Manager对象指针设置给Capture Graph Builder组件来完成对它的初始化。
m_pICaptureGraphBuilder2->SetFiltergraph(m_pIGraphBuilder);
3.1.2加入采集Filter
加入采集Filter是通过系统枚举的方法来实现的。即在DirectShow的GraphEdit目录Video Capture Sources(对应的ID为:CLSID_VideoInputDeviceCategory)下找到相应的采集设备即可。
核心代码如下:
hr=CoCreateInstance(CLSID_SystemDeviceEnum,NULL,CLSCTX_INPROC_SERVER,
IID_ICreateDevEnum,(LPVOID *)&pDevEnum);//创建系统枚举组件对象
hr=pDevEnum->CreateClassEnumerator(CLSID_VideoInputDeviceCategory,&pEnum,0);
//指定枚举的类型目录,获得IEnumMoniker接口
if (hr == S_OK)
{
IMoniker *pMoniker=NULL;
if(pEnum->Next(1,&pMoniker,NULL)==S_OK)//假设系统中只有一个采集设备,故枚
//举到的第一个设备就是符合我们要求的采集设备
{
hr=pMoniker->BindToObject(0,0,IID_IBaseFilter,(void **)&m_pCapture);
//创建采集Filter 实例
}
枚举到采集设备后,下一步的工作就是把它加入到Filter Graph中去。代码如下:
hr=m_pIGraphBuilder->AddFilter(m_pCapture,L"CaptureFilter");
3.1.3加入MPEG-4编码器Filter
这里我们采用Divx 提供的开源编码Filter。安装DivX.Pro.v5.1.1后会自动安装Divx的编码器Filter和解码器Filter(注:解码器Filter在接收端要用到)。在程序中加入Divx的编码器Filter,实现思想是在Video Compressors目录下枚举到名称为"DivX Pro(tm) 5.1.1 Codec"的Filter项后,把它加入到Filter Graph中即可。
3.2 数据的发送和接收
3.2.1数据的发送Filter的实现
数据的发送要开发一个发送Filter,为了编程上的方便,这里采用程序内Filter的形式来实现。即用类的形式而不是编写一个成一个后缀为ax的组件注册后再使用。这里我们定义一个继承自CBaseFilter的类CFilterMpeg4Sender。这个类必须实现以下功能[3]:
(1) 在类中定义CFilterMpeg4Sender上的Pin的实例mInputPin。
(2) 实现继承自CBaseFilter::GetPin,用于返回Filter上各个Pin的对象指针。
(3) 实现继承自CBaseFilter::GetPin,用于返回Filter上各个Pin的数量。
定义一个继承自CRenderedInputPin的类CMpeg4InputPin,用于实现CFilterMpeg4Sender上的输入pin,发送Filter通过该输入pin接收编码Filter输出的数据,然后按一定的规则发送。
这个类必须实现以下功能[2]:
(1) 重写方法EndOfStream。
(2) 实现IPin::BeginFlush和IPin::EndFlush两个函数。
(3) 重写方法CBasePin::CheckMediaType进行连接时媒体类型的检查。
(4) 重写方法CBasePin:: Receive(),接收Sample并发送
3.2.2数据的接收Filter的实现
数据的接收其实是要编写一个Source Filter, 这个Source Filter名称为CFilterMpeg4Receiver,也继承自CBaseFilter。这跟发送Filter的实现有些类似,有一点需要注意的是该Filter输出的MediaType的设置。
Char MediaType[]=//媒体数据类型,通过在发送端把媒体类型写到一个文件中而得到
然后通过语句:CFilterMpeg4Receiver::SetupMediaType((char *)MediaType,88)设置输出数据的MediaType。
CFilterMpeg4Receiver::SetupMediaType再调用CMpeg4OutPin::SetupMediaType()设置、接收到的媒体数据的格式,
3.2.3数据的网络传输的实现
数据的发送我们采用开源代码JRTPLIB【6】提供的RTP协议栈。最新的JRTPLIB对RFC3550的实现进行了封装,开发人员只要初步了解RTP协议就可以开发出高质量的音视频传输程序。使用JRTPLIB时,只需要通过继承RTPSession类,再重新以下几个函数就可以实现视频数据的接收。
void OnRTPPacket(RTPPacket *pack, const RTPTime &receivetime, const
RTPAddress *senderaddress);
void OnRTCPCompoundPacket(RTCPCompoundPacket *pack, const RTPTime
&receivetime, const RTPAddress *senderaddress);
在网络带宽比较低的情况下(如十几KBps),数据丢帧现象比较严重,这对于图像质量有很大的影响。我们采用拆帧(拆成1400个字节)以后再发送的方法,来降低丢帧率。接收端收到数据后,再把属于同一视频帧的数据再组起来。
网络发送接收程序流程图如图3所示:
图3 网络发送接收程序流程图
对程序流程图的说明如下:
(1)发送端拆帧的算法如下:
if (该数据帧小于1400个字节)
{
直接用RTPSessio::Send()发送出去。
}
else
{
把该帧拆成1400个字节一个包再发送。对于同一帧数据,我们采用相同的时间戳来标记。
}
(2)接收端组帧算法如下:
while(该RTP包的时间戳和上一个RTP包的时间戳相同)
{
说明该RTP包和上一个RTP包属于同一个视频帧的数据。
把接收到的数据保存在缓存中。
}
然后把属于同一视频帧的数据组好,发送到解码Filter。
经过测试(在CDMA1.X网络下),采用拆帧方法传输视频数据比直接发送丢包率更低,传输质量有了很大的提高。
3.3 数据解码及回放的实现
解码Filter使用的是Divx提供的开源解码器,在接收Filter的后面接上该解码Filter即可,最后接上Renderer Filter就可以把接收到的数据回放出来。
3.4 实现帧率控制功能
通过在采集设备和编码Filter(DivX Pro(tm) 5.1.1 Codec)之间加入一个帧率控制Filter来实现帧率的控制,该Filter相当于一个视频帧数计数器,每接收到一帧,并不立即把该帧发给下游的编码Filter,而是把计数器的值加1,当计数器的值达到最大值时才把当前收到的帧发出去。在接收端发控制帧率命令给采集端可以很方便的实现帧率的远端控制。
程序片断如下:
HRESULT CControlFrameFilter::Receive(IMediaSample * pSample)
{
static int sampleCounter=1;
if(sampleCounter==maxCounter)// maxCounter为计数器的最大值
{
OutputPin()->Deliver(pSample);//把该帧发到下游编码Filter
sampleCounter=0;//计数器清零
}
sampleCounter++;//计数器加1
return S_OK;
}}
加了帧率控制Filter的发送端 Filter Graph 如图4所示:
图4 实现了帧率控制的Filter Graph
4 总结
该系统采用了DirectShow技术实现了MPEG-4视频数据的传输,视频数据的传输采用了RTP协议。而且还实现了远端帧率的控制,该系统可以很方便的移植到未来3G网络的图像传输系统中。对编解码器进行研究,采用H.264技术实现编解码Filter是下一步要完成的工作,当然在传输质量(QoS)方面也要深入进行研究。
参考文献
1 邵林,曹汉强.基于DiectShow的视频广播系统设计与实现[J].微型机与应用,2004, 4 :58-60
2 Microsoft DirectX C++ SDK Document [EB/OL],2003
3 陆其明.DiectShow开发指南[M].北京
阅读(875) | 评论(0) | 转发(0) |