基于TMS320C6201的G.723.1多通道语音编解码的实现-loughsky-ChinaUnix博客

飞翔,嵌入式linux性能优化

首页　| 　博文目录　| 　关于我

loughsky

博客访问： 3161772
博文数量： 117
博客积分： 10003
博客等级：上将
技术积分： 5405
用户组：普通用户
注册时间： 2007-01-23 09:34

文章分类

全部博文（117）

OpenGL（4）
图形系统（22）
硬件（9）
Android（1）
邮件服务器（1）
License（0）
VC（0）
软件工程（0）
linux基础知识（0）
个人观点（0）
程序设计（2）
Linux平台技术分（2）
底层调试技术（0）
嵌入式平台（6）

FLASH（0）

gcc（4）

glibc（1）

交叉编译工具链（0）

BootLoader（0）
关注性能（59）
内存管理（0）
未分配的博文（11）

文章存档

2011年（1）

2010年（10）

2009年（69）

2008年（37）

我的朋友

相关博文

基于TMS320C6201的G.723.1多通道语音编解码的实现

分类： LINUX

2008-04-17 22:23:09

摘要：介绍了一种基于ＴＭＳ３２０Ｃ６２０１的ＩＴＵ－ＴＧ．７２３．１全双工实时多通道语音编解码的实现。首先简要介绍了Ｇ．７２３．１标准和Ｃ６２０１的芯片结构，然后提出了基于Ｃ语言和汇编语言的各种优化方法以降低计算量，最后给出了各个主要模块的性能指标。该实现能够在２００ＭＨｚ的Ｃ６２０１ＤＳＰ上实现１６路语音信号的实时编解码，完全符合ＩＴＵ－ＴＧ．７２３．１标准的定点算法，通过了ＩＴＵ－Ｔ的所有测试矢量。

关键词：语音编码定点数字信号处理器ＩＴＵ标准

当前，ＶｏｉｃｅｏｖｅｒＩＰ(ＶｏＩＰ)技术正在不断普及，通过Ｉｎｔｅｒｎｅｔ的语音通信量也日渐增加。目前ＶｏＩＰ中使用的低码率语音压缩标准主要有Ｇ．７２３．１和Ｇ．７２９两种。随着ＶｏＩＰ技术的不断发展，要求产品的集成度与性能进一步提高，利用新一代高性能ＤＳＰ芯片，实现单片ＤＳＰ处理多路语音信号，是今后的发展趋势。本文根据Ｃ６２０１芯片的特点，作了大量针对Ｇ．７２３．１标准本身的优化，降低了运算量，满足了多路信号的实时实现。

１Ｇ．７２３．１标准介绍

Ｇ．７２３．１标准是ＩＴＵ组织于１９９６年推出的一种低码率编码算法。主要用于对语音及其他多媒体声音信号的压缩，如可视电话系统、数字传输系统和高质语音压缩系统等。

Ｇ．７２３．１标准可在６．３ｋｂｐｓ和５．３ｋｂｐｓ两种码率下工作。其中，高码率算法具有较高的重建语音质量，而低码率算法的计算复杂度则较低。与一般的低码率语音编码算法一样，Ｇ．７２３．１标准采用线性预测的合成分析法（Ａｎａｌｙｓｉｓ－ｂｙ－Ｓｙｎｔｈｅｓｉｓ）。对激励信号进行量化时，高码率算法采用多脉冲最大似然量化（ＭＰ－ＭＬＱ），而低码率算法则采用算术码本激励线性预测（ＡＣＥＬＰ）。目前，Ｇ．７２３．１已经能在多种ＤＳＰ芯片上实现，如美国ＴＩ公司的ＴＭＳ３２０Ｃ５ｘ、ＴＭＳ３２０Ｃ５４ｘ和朗讯科技公司的ＤＳＰ１６ｘｘ等。

Ｇ．７２３．１编码器能对以８ｋＨｚ采样的话带语音信号进行压缩，其结构框图见图１（ａ）。从图中可以看出，编码器是基于线性预测合成分析法原理，其目的是最小化感知加权误差信号。为了降低码率，Ｇ．７２３．１采用了较长的帧尺寸，每帧２４０个样值，即３０毫秒帧长。每帧输入信号首先通过一阶高通滤波器滤除直流分量，然后将之分成四个６０个样值的子帧，每个子帧独立进行ＬＰＣ分析。为了提高ＬＰＣ系数的连续性，采用了长度为１８０个样值的重叠窗，即同时包含前后两个子帧，这使算法引入６０个样值的超前时延，因此算法的总时延为３７．５毫秒。ＬＰＣ系数用线性谱频率（ＬＳＦ）表示，ＬＳＦ参数采用预测分裂矢量量化，只对第四子帧进行。为了提高量化感知质量，高通滤波后的语音信号需通过共振峰感知加权滤波器和谐振峰噪声整形滤波器以生成初始目标信号。前者参数由各子帧的未量化ＬＰＣ系数构成，后者通过对每两子帧进行开环基音周期估计得到，其中基音周期的范围为１８到１４２个样值。ＬＰＣ合成滤波器、共振峰感知加权滤波器和谐振峰噪声整形滤波器用于系统零输入响应计算和最佳激励估计。Ｇ．７２３．１编码器还包括一个五阶基音预测器，其参数根据开环基音估计值和脉冲响应进行闭环基音搜寻得到。在进行最佳激励估计时，需从初始目标信号中减去系统零输入响应和基音预测器贡献以得到最终目标信号，然后针对高低码率分别采用ＭＰ－ＭＬＱ和ＡＣＥＬＰ方法进行量化。其中ＬＳＦ参数、基音值和激励参数需传送给解码器。

解码器首先根据得到的ＬＳＦ参数重建ＬＰＣ合成滤波器，然后根据基音值和激励参数得到自适应码本激励信号和固定码本激励信号。为了提高重建语音的主观质量，解码器还包括一个后滤波器，后滤波器由共振峰和基音后滤波器组成。激励信号依次通过基音后滤波器、合成滤波器和共振峰后滤波器合成重建语音，其结构框图见图１（ｂ）。

２ＴＭＳ３２０Ｃ６２０１芯片结构简介

ＴＭＳ３２０Ｃ６２０１是一种３２位的定点ＤＳＰ，工作频率最高达２００ＭＨｚ。它有两组运算单元，每组４个，共８个。除Ｍ单元只能作乘法外，其他单元都可以灵活使用，如Ｄ单元可以做Ｌｏａｄ、Ｓｔｏｒｅ和加减操作，Ｓ单元可以进行移位和加减。Ｃ６２０１有３２个通用寄存器，分为Ａ、Ｂ两侧。两侧的寄存器有交叉通路，同一指令可以同时访问双侧的寄存器。Ｃ６２０１采用了超长指令字结构，一次最多可以同时执行８条指令（每个单元一条）。它有１１级流水，所有的指令都是精简指令。Ｃ６２０１允许使用缓存（Ｃａｃｈｅ）模式，可以运行大型程序而不降低速度。图２是Ｃ６２０１的结构。

３标准的实现

用Ｃ６２０１实现Ｇ．７２３．１标准的最大优势在于它极强的并行处理能力，用一块ＤＳＰ可以实现多路语音的压缩，大大简化了硬件的设计。Ｃ６２０１是ＴＩ公司推出的第一种支持Ｃ编译器的ＤＳＰ芯片。通常，Ｃ编译器能完成整个工作的７０％，而３０％的进一步优化必须通过手写汇编来实现，所以对整个程序的优化分为Ｃ语言级和汇编语言级两部分。

３．１Ｃ语言级的优化

３．１．１循环展开(ｌｏｏｐ－ｕｎｒｏｌｌｉｎｇ)

使用具有并行能力的ＤＳＰ开发软件时，一个重要的思想就是充分利用ＤＳＰ的字长和数目众多的运算单元，尽量把循环体展开。通过增加每次循环中执行的指令数来减少总的循环次数，可使得在同样的时钟周期内能运行更多的指令，提高了循环的效率。

３．１．２提高寄存器的利用率

ＤＳＰ芯片内部的运算单元运行效率非常高，但如果寄存器和数据总线之间的数据交换频繁，将使ＤＳＰ的执行效率大打折扣。因为ＤＳＰ在进行内存操作时，往往需要若干周期的延迟，如Ｌｏａｄ指令要有４个周期的延迟，Ｓｔｏｒｅ指令需要２个周期的延迟。为了减少耗时的内存操作，可以在程序进入循环体之前，将要频繁使用的数据预先放入寄存器，然后反复调用，实践证明这种方法可以提高一部分效率。

３．１．３使用内在函数（Ｉｎｔｒｉｎｓｉｃ）

内在函数是在某些Ｃ６２０１ＤＳＰ的汇编指令前加上“＿”构成?它可以方便地实现某些需若干Ｃ语句才能实现的功能。它是一种非常简便高效的优化方法，它的调用格式和普通Ｃ函数一样，但在编译时编译器会自动将Ｉｎｔｒｉｎｓｉｃ用对应的汇编指令替代。Ｃ６２０１指令集中绝大多数的运算逻辑指令都可以这样使用，比如饱和绝对值、饱和加、饱和减、饱和乘、两个字中的对应半字同时加或同时减、两个字中的对应半字同时乘或交叉乘、归一化及位操作等。经过此步优化后，大部分循环体都可以生成较为有效的流水内核（ｐｉｐｌｉｎｅｄｋｅｒｎｅｌ）。用Ｉｎｔｒｉｎｓｉｃ替代Ｇ．７２３．１原先的Ｃ代码，运算量下降为原来的１／１０。

３．１．４对算法的冗余部分合理精简

经过检查，发现ＩＴＵ－ＴＧ．７２３．１的Ｃ代码存在冗余部分。象６．３ｋ码率的ＭＰ－ＭＬＱ搜索模块中，只需要用到偶数位置的脉冲响应的自相关，所以对奇数位置的脉冲响应自相关计算可以省略。

另外，在Ｇ．７２３．１标准中存在大量的１０阶ＦＩＲ和１０阶ＩＩＲ滤波器运算，如编码部分的感知加权、零输入响应、解码部分综合滤波器和后滤波等，ＦＩＲ和ＩＩＲ的通用形式可以表示为：

每次循环，ＦＩＲ滤波器内存要用新的输入值更新，ＩＩＲ滤波器内存要用新的输出值更新，使用按标准提供的算法，要专门用一个１０阶循环更新内存。如果用一个１０单位大小的循环缓存区，每次用新值覆盖最老的样值，动态调整循环缓存区的头指针，可以节省原先用于内存更新的ｃｙｃｌｅ。

３．２汇编级优化

由于Ｃ编译器只能完成７０％的工作?且对于复杂的循环，Ｃ编译器无法生成高效率的代码，所以对运算量大的模块只能用手写汇编。

３．２．１字长优化

Ｃ６２０１的字长为３２位，它支持按字节、半字、字存取。对于１６位的数组，当它在内存中连续排列时，用３２位读写指令ＬＤＷ或ＳＴＷ替代１６位读写指令ＬＤＨ或ＳＴＨ，循环次数可减少一半。另外，Ｃ６２０１的汇编指令支持两个３２位寄存器的高１６位和低１６位之间互乘，结果分别放到不同的寄存器中，互不影响。具体指令为ＳＭＰＹ(Ｌ×Ｌ)、ＳＭＰＹＨ(Ｈ×Ｈ)、ＳＭＰＹＨＬ(Ｈ×Ｌ)和ＳＭＰＹＬＨ(Ｌ×Ｈ)。通过字长优化，可以大大提高程序的运行效率。必须注意的是，在使用字长优化时，数组在内存中的位置必须对齐３２位边界。

３．２．２对外循环的优化

Ｃ６２０１的Ｃ编译器对多重循环的最内层一般能较好地优化到一句到两句，但对外循环的优化效率则差很多。手写汇编时，可以先将内循环展开，再把外循环的指令并入其中，可以减少所耗费的ｃｙｃｌｅ数。

Ｃ６２０１的循环一般分前导(Ｐｒｏｌｏｇ)、内核(Ｋｅｒｎｅｌ)及排空(Ｅｐｉｌｏｇ)三部分。代码的并行程度从Ｐｒｏｌｏｇ开始不断提高，Ｋｅｒｎｅｌ内的并行程度最高，Ｅｐｉｌｏｇ与Ｐｒｏｌｏｇ相反，并行性逐渐降低。在多重循环中，如果尽量把内循环前导部分的指令与填入排空部分未用的单元，一起执行，可以在执行本次循环的排空语句的同时执行下次循环的前导语句。这样可不多花ｃｙｃｌｅ而提高整个循环的效率。

４实现结果

经过Ｃ语言级和汇编级的多种优化，最后实现了一路Ｇ．７２３．１的编解码需要花费１０．６ＭＣＰＳ，整个代码的程序空间为２０８Ｋｂｙｔｅ（程序中包括了部分ｃ６２０１的库函数），数据空间为８Ｋｂｙｔｅ，码本大小２０ｋｂｙｔｅ，多通道的上下文数据为１．４８Ｋｂｙｔｅ。２００ＭＨｚ的Ｃ６２０１每秒可以实时编解码１６路语音信号。所有代码全部通过了ＩＴＵ－Ｔ测试矢量的测试。表１是各主要模块的运算量。

表1 G.723.1各主要模块运算量

	函数名	每次调用所费Cycle
编码部分	AtoLsp Lsp_Svq Estim_Pitch Find_Acbk Find_Best D4i64_LBC	5975 7507 11250 21891 26760 25267
编码部分	G7231_Coder	283944(at 6.3kbps) 286258(at 5.3kbps)
解码部分	G7231_Decoder	34483(at 6.3kbps) 32270(at 5.3kbps)
总计	Codec	10.6MCPS

本文提出的利用Ｃ６２０１ＤＳＰ进行ＩＴＵ－ＴＧ．７２３．１全双工?实时多通道语音编解码的实现。该实现可以在ＩＰ电话、视频会议中得到广泛应用。

阅读(2080) | 评论(0) | 转发(0) |

上一篇：使用SIMD指令高度优化Matrix类

下一篇：GPU为什么跑得快

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6