Alsa 小结-zhaixishan-ChinaUnix博客

老翟的仓库zhaixishan.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

zhaixishan

博客访问： 841208
博文数量： 125
博客积分： 4066
博客等级：上校
技术积分： 1401
用户组：普通用户
注册时间： 2010-03-03 18:58

文章分类

全部博文（125）

HEVC（1）
RenderScript研究（0）
StageFright（7）
音视频相关（11）
OpenCores（17）
Android（12）
Alsa（14）
PulseAudio（3）
网络应用（0）
系统API（6）
操作系统（1）
常用工具使用指南（10）
工具安装（6）
嵌入式移植（1）
基本功（19）
生活感悟（15）
未分配的博文（2）

文章存档

2014年（1）

2013年（1）

2012年（2）

2011年（29）

2010年（92）

我的朋友

相关博文

Alsa 小结

分类： LINUX

2010-06-11 14:09:57

关于alsa的总结：
一. alsa展现的三层结构：
（1）audio interface：
audio interface就是声卡，它含有hardware buffer，注意，这个hardware buffer是在声卡里面，不是内存。
（2）computer：
这个指的是计算机的内核和驱动（驱动由alsa提供），当（1）的audio interfacce引发中断，内核会捕捉到，再把处理移交alsa。
（3）application：
这个就是你写的程序，你开辟一个buffer，比如playback，就交给alsa来play。

在上面的框架下，流程如下：
（1）playback：
application开辟一个buffer，填上数据，调用alsa接口，alsa把buffer数据复制到其驱动的空间，再把数据交给 hardware buffer。
（2）record：
同playback，相似的。

二. 细节：
按照上面的流程，其中有许多细节我们可以加以控制，这里仅仅指出应用程序需要关心的：
2.1 操作的设备：
在alsa驱动这一层，目前为止，抽象出了4层设备，一是如hw:0,0，二是plughw:0,0，三是default:0，四是default。至于一是清楚了，二和二以上可以做数据转换，以支持一个动态的范围，比如你要播放7000hz的东西，那么就可以用二和二以上的。而你用7000hz作为参数，去设置一，就会报错。三和四，支持软件混音。我觉得default:0表示对第一个声卡软件混音，default表示对整个系统软件混音，由于我没有多声卡，所以没法试验四的效果。
这里提出两点：
（1）一般为了让所有的程序都可以发音，为使用更多的默认策略，我们选用三和四，这样少一些控制权，多一些方便。
（2）对不同的层次的设备，相同的函数，结果可能是不一样的。
比如，设置Hardware Parameters里的period和buffer size，这个是对硬件的设置，所以，default和default:0这两种设备是不能设置的。
比如，如果直接操作hw:0,0，那么snd_pcm_writei只能写如8的倍数的frame，比如16,24,否则就会剩下一点不写入而退回，而 default，就可以想写多少就写多少，我们也不必要关心里面具体的策略。

2.2 Hardware Parameters:
说明：之所以叫做Hardware Parameters，是因为alsa这一层api是较为底层的，它允许用户对上面提到的三层结构的audio interface和computer两层都做设置。其中对computer，也就是alsa驱动这一层的设置，叫做Software Parameters，而对audio interface（声卡）的设置叫做Hardware Parameters。（当然，要设置hardware parameters，也肯定是通过alsa驱动来完成，只不过哪些参数是指导硬件的，哪些是指导alsa驱动的，分开设置了）
（1）Sample rate：不用说了（这些，对于default设备也能设的，上面已经说了）
（2）Sample format：不用说了
（3）Number of channels：不用说了
（4）Data access and layout：简单点，就是说，在一个period以内，数据是按照channel1排完了再排channel2呢，还是一个frame一个frame的来排（frame在alsa里指的是一次采样时间内，两个channel的数据放一块儿就是一个frame）。默认是第二种。
（5）Interrupt interval：
中断间隔，就是靠periods决定的，有函数来设置periods，也就是说这个hardware buffer在一次遍历之内，要中断多少次，来通知内核（最终是到alsa驱动）来写入或读走数据。比如buffer是8192个frame大，而 period设为4个frame大，那么比如playback，则每当有4个frame大的hardware buffer空间空出，就会中断，通知内核（alsa驱动）来写如数据。这个是影响实时效果的关键！！！但是，我观察的，我的电脑的默认period就是 4个frame，按16字节，双通道来算的话，也就是16个字节！所以，默认就很实时了！！一般的实时程序已经够用了！！一般不用调整。
（6）Buffer size：就是hardware buffer的大小，如果alsa整套体系主要靠这个来做缓冲，那么这个的大小，将影响缓冲效果，但是一般也不调整。

2.3 Software Parameters:
（1）snd_pcm_sw_params_set_avail_min (playback_handle, sw_params, 4096)
这个仅用在interrupt-driven模式。这个模式是alsa驱动层的，不是硬件的interrupt。它的意思是，用户使用 snd_pcm_wait()时，这个实际封装的是系统的poll调用，表示用户在等待，那么在等待什么呢？对于playback来讲，就是等待下面的声卡的hardware buffer里有一定数量的空间，可以放入新的数据了，对于record来讲，就是等待下面声卡新采集的数据达到了一定数量了。这个一定数量，就是用 snd_pcm_sw_params_set_avail_min来设置。单位是frame。实际运作，没读驱动代码，不是很清楚，可能是alsa驱动根据用户设的这个参数，来设置Hardware Parameters里面的period，也可能是不改变硬件的period，每次硬件中断还是copy到自己的空间，然后数据积累到一定数量再 interrupt应用程序，使之从wait()出来。我不知道，也不必深究。
这种模式的使用，需要用户在snd_pcm_wait()出来以后，调用一个平常的wirtei或readi函数，来写入或读取那个“一定数量”的数据。如果用户不用interrupt-driven模式，那么这个函数不必使用。
（2）snd_pcm_sw_params_set_start_threshold (playback_handle, sw_params, 0U)
这个函数指导什么时候开启audio interface的AD/DA，就是什么时候启动声卡。
对于playback，假设第三个参数设为320,那么就是说，当用户调用writei，写入的数据，将暂时存在alsa驱动空间里，当这个数据量达到 320帧时，alsa驱动才开始将数据写入hardware buffer，并启动DA转换。对于record，当用户调用readi，这个数据量达到320帧时，alsa驱动才开始启动AD转换，捕捉数据。我一般把它设为0,我没试过非0,如果是非0, 我想第一次的writei和readi一定得够数量才行，否则设备不启动。
这个对实时效果是需要的，将第三个参数设置为0，保证声卡的立即启动。
（3）what to do about xruns:
xrun指的是，声卡period一过，引发一个中断，告诉alsa驱动，要填入数据，或读走数据，但是，问题在于，alsa的读取和写入操作，好象是必须用户调用writei和readi才会发生的，它不会去缓存数据！！！，所以如果上层没有用户调用writei和readi，那么就会产生 overrun（录制时，数据都满了，还没被alsa驱动读走）和underrun（需要数据来播放，alsa驱动却不写入数据），统称为xrun。我对它的理解是，不是一个period引发的中断就叫做xrun，而是当整个hardware buffer都被写满了（record时）或空了（play时），这个时候的中断下的情况才指的是xrun。无所谓了，怎么立解都行，不影响编程：）
这个东西，需要用一些函数来设置，比如snd_pcm_sw_params_set_silence_threshold()，是针对playback 的，就是设置当xxx的情况下，就用silence来写入hardware buffer。至于xxx情况，以及写入多少silence，我都不是很清楚，还有，比如xrun到什么情况下，可以停止这个设备等等函数。这个（3）的涉及的参数，我都没试过，一般情况下，就用alsa驱动的默认的xrun处理策略吧，等以后出了错误再说，而且例子里也没有提到。
但是，关于xrun，在编程时，最好这样写：
while ((pcmreturn = snd_pcm_writei(pcm_handle, data, frames)) < 0) {
snd_pcm_prepare(pcm_handle);
fprintf(stderr, "<<<<<<<<<<<<<<< Buffer Underrun >>>>>>>>>>>>>>>\n");
}
就是说，如果这次读/写距离上次读/写，时间可能过长，那么这次去读/写的时候，device已经xrun了，在不知道alsa驱动对xrun的默认策略的情况下，最好调用snd_pcm_prepare()来重新准备好设备，然后再开始下一次读写。我想，prepare()意思，可能相当于复位，不很清楚。我想，windows下的那套API下的驱动，一定是已经有了一套对xrun的处理策略，用户根本没有接口可以调整它，我想它的策略比如 playback遇到underrun，也就是填入silence罢了。
（4）transfer chunk size:
这个应该是用不上的，我没找到文档里有用这个的。

三. 编码模式：
TODO LIST：以后把下面两点补上：
（1）一般读写模式：
（2）interrupt-driven模式：作者推荐这个模式，我决定用这个模式来做吧。
我推测的原因：它非常清晰的告诉了用户，你需要读取数据或写入数据了！这样允许用户即时的作出操作：比如现在让用户从wait（）出来，用户知道需要比如写入数据了，它可以决定写入真实的数据，或者写如silence，或者其他。而用一般读写模式，你不会即时知道下层的需求！！所以，相当于你只能在你下一次读/写的时候，判断有没有xrun，其他你什么都做不了：）（并且在实时性要求不高的情况下，设置一个较大的interrupt间隔，真个alsa的效率会高一点呵呵。而且这种interrupt模式，可以使得代码简单改下就可以用到其他采用interrupt的系统上，作者这米说的）
TODO: 再好好想想这个模式，其实我不确定实际使用上有什么好?

四. 和windows API的比较：
windows audio接口的那些需要加入的buffer，属于应用程序的buffer，windows靠用户添加buffer queue来设置缓冲，而alsa并不提供接口让用户设置应用层的缓冲区，缓冲区的作用，就是减弱或消除数据流或用户操作偶尔过快或过慢造成的影响，所以 alsa是一定要有缓冲区的，我不知道是否，hardware buffer独自承担着alsa里面的buffer角色？
alsa的writei和readi好象可以改成
TODO：根据实际的编程结果，从效果看看，这样做是否效果也很好。

五. 其他：
对声卡的编程就是对两个设备进行指导的过程, 下面分3点叙述:
1. 关于Mixer编程.
我了解到的声卡,有三个主要部分:
(1)mixer
(2)dsp(ad,da)
(3)buffer
可以认为它们按上面(1)(2)(3)的顺序联接起来, 而buffer和计算机总线间接相连.
目前认为的原理是这样的:
(1)图1表现了一个mixer, 图2是很多个mixer, 但实际上, 声卡里至少有两个mixer, 一个叫做input mixer, 一个叫做output mixer. input mixer接收外来模拟信号, output mixer接收dsp给它的模拟信号. 需要知道的是, mixer的输入和输出都是模拟信号, 输入和输出的线路也叫做混音通道, 我觉得这是物理线路的范畴, 这也就是为什么一个程序调整mixer, 会影响另一个程序的原因, 因为我觉得它调整的是物理参数. 图中蓝色的方框就是可调节增益的地方(总之, 我认为它们是可供软件调节的硬件线路参数)
(2)一个mixer的输出可以作为另一个mixer的输入. 比如考虑这样一种情景, 怎样混合CD和自己的歌声? 我估计就是CD的数字信号, 先到buffer, 经dsp的D/A转换, 输入"输出混音器"的一个混音通道(source line), 再从destination line出来后, 不送往speaker, 而是送往"输入混音器"混音通道, 这样和人声(从"输入混音器"的microphone混音通道进入)一起混音, 再从destination line出来, 送往dsp做A/D转换, 最后送往buffer.
而调节各个source line/destination line的增益, 以及route souce line和destination line就是mixer做的, 也是软件可以调节的.
至于系统mixer面板上的master和pcm的区别, 我想pcm是dsp输出的模拟信号, 也就是outmixer的source line的增益吧, 而master也许是outmixer的destination line的增益吧.这个其实找不到具体的声卡结构图是很难搞清楚的.
2. 关于dsp编程.
这个最好理解为是上述mixer体系中的一条默认的流程.对于用户来讲,dsp设备就是完成基本的播放和录音功能.
而用户当然应该指导dsp完成工作, 就象指导mxier一样. 用户给dsp的指导参数主要是format(frame/s和bits/frame)和channel数, 要不然dsp怎样能做D/A或A/D转换呢.
3. 关于buffer.
涉及到的buffer有三个, 一是声卡的buffer, 二是驱动的kernel buffer, 三是用户指定的user buffer. 数据就是这样一个接一个复制上来的,或一个一个复制下去的, 复制的信号是声卡的interrupt信号. 当buffer满了(读)或buffer空了(写)时, 就会引发中断.

阅读(3658) | 评论(1) | 转发(1) |

上一篇：Alsa中PCM参数设置

下一篇：[转]LINUX C中用define定义可变参数的宏

给主人留下些什么吧！~~

tangcong292011-10-11 09:25:42

对于sw设置，snd_pcm_sw_params_set_start_threshold (playback_handle, sw_params, 0U)
OU应该是表示预填多少个frame，防止underrun。
博客写的很好，向您学习

回复 | 举报

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6