linux下语音识别-Kernel的makefile-ChinaUnix博客

Kernel的makefile

首页　| 　博文目录　| 　关于我

Kernel的makefile

博客访问： 3254958
博文数量： 685
博客积分： 0
博客等级：民兵
技术积分： 5303
用户组：普通用户
注册时间： 2014-04-19 14:17

个人简介

文章分类

全部博文（685）

Ubuntu12.04小应（4）
语音识别及语音合（3）
Pjsips与mqtt（17）
Linux内存管理子（2）
笔记本内核升级及（5）
Linux内核态进程（14）
Linux内核设计模（1）
Linux开发常用命（22）
Ubuntu常见系统故（19）

init进程_Ubuntu（3）

Grub与wingrub（4）

Ubuntu系统启动（5）
Tools Packa（34）

fstools（2）

内核热插拔事件的（3）

shell相关（2）

json-c0.9库与jso（1）

Tc：traffic-cont（3）

uci（2）

Ctags与Taglist（3）

uhttpd（7）

busybox（0）

netifd（2）

procd（0）

ubus（1）

Uboot（5）
Linux-2014（70）

I2C接口存储芯片(（3）

LED灯添加删除（4）

单板启动重要函数（1）

flash芯片更换（20）

内核重要函数（8）
TMP:boot/busybox（1）
人脸识别openCV（4）
摄像头（2）
openSIPS与流媒体（4）
Samba服务器安装（1）
Web服务器与Cgi/i（7）
Linux内核调试（10）
内核网络编程（18）
shell（1）
Android安卓（45）

Goldfish安卓模拟（4）

Android系统移植（5）

安卓驱动（1）

Android系统集成（7）

Cubietruck（1）

MTK的解决方案（8）

S3c6410（8）
原创--TMP（46）
openWRT（145）

brctl网桥（3）

lua（19）

系统机制（4）

智能路由：必备功（8）

基本路由配置：联（1）

防火墙/DMZ/UPNP（3）

dnsmasq与dnsmasq（1）

linux常用网络命（0）

netifd（1）

netstat（2）

文件系统（9）

应用软件包及内核（5）

系统日志syslogd+（1）

procd+libubox（2）

DHCP移植（1）

Hostapd与wpa移植（5）

Iptables移植（6）

Arm移植wifi驱动（5）

Ifconfig移植：网（2）

Iwpriv移植：Wifi（5）

Web服务器（2）

迅雷（0）

ARM移植openWRT（5）

工具（2）

pppoe拨号上网（2）

刷机（5）

底层驱动（11）

系统编译框架及脚（16）

LuCI（19）
driver（22）
名词概念（7）
Linux（148）

Cfg80211内核（2）

物理地址与虚拟地（1）

按键驱动（1）

Timer定时器（1）

linux_Platform设（1）

linux_tty串口驱（3）

flash驱动（3）

I2c子系统（3）

/sys与/proc（10）

MMU、cache、DDR（3）

Mips裸机（7）

pinctrl（2）

leds子系统（3）

workqueue与taskl（1）

input子系统（3）

内核机制（4）

开源应用工具移植（2）

编译链接vmlinux.（5）

函数解读（7）

内核挂死（3）

DTS设备树（4）

内核调试Kernel&n（3）

内核移植与升级（10）

根文件系统（22）

软件配置及工具链（7）

rootfs与Initramf（4）
Uboot（23）
代码检视&&心得（1）
未分配的博文（9）

文章存档

2015年（116）

2014年（569）

我的朋友

相关博文

linux下语音识别

分类：嵌入式

2015-02-26 18:51:34

原文地址：http://blog.csdn.net/littlethunder/article/details/17047663

我之前发过我的贪吃蛇的代码，我想把它变成语音控制上下左右的，于是选择科大讯飞的SDK，官方有一些文档，但有一些细节还是会让在linux下开发的孩子们产生困惑比如我，现在总结在此~

首先下载科大讯飞的SDK-linux版本，需要注册先。。。在下载下来的include文件夹下，有四个文件：msp_errors.h msp_types.h qisr.h qtts.h。前两个是通用的一些数据结构，剩下的qisr.h是语音识别用的头文件，qtts.h是语音合成用的头文件，因为我之需要语音识别的功能，只要在我的代码中include进qisr.h头文件就OK啦。在bin文件夹下比较乱，但主要就是libmsc.so和libspeex.so两个动态库，我直接把这两个动态库拷到/usr/lib里面。

在bin文件夹下注意到一个asr_keywords_utf8.txt的文件，这个SDK的思路是这样：把自己想识别的文字写到asr_keywords_utf8.txt中，然后上传到讯飞的服务器上，然后返回一个GrammarID，据说上传一次“终身有效”，意思就是不让重复上传占用服务器空间，反正有了这个GrammarID以后在不同的程序中想识别相同的文字就直接用好了，比如我想识别“左，右，上，下，图书馆，独自”，把这些汉字写到asr_keywords_utf8.txt中，而且必须是utf-8的格式，当然在linux下默认如此。下面是我写的上传这个txt并获得GrammarID的代码：

[cpp]view plaincopy
			
			#include   
		
			#include   
		
			#include   
		
			#include   
		
			#include   
		
			#define TRUE 1  
		
			#define FALSE 0  
		
			int main()  
		
			{  
		
			    int ret = QISRInit("appid=xxxxxxx");  
		
			    if(ret != MSP_SUCCESS)  
		
			    {  
		
			        printf("QISRInit with errorCode: %d \n", ret);  
		
			        return 0;  
		
			    }  
		
			    char GrammarID[128];  
		
			    memset(GrammarID, 0, sizeof(GrammarID));  
		
			    const int MAX_KEYWORD_LEN = 4096;  
		
			    ret = MSP_SUCCESS;  
		
			    const char * sessionID = NULL;  
		
			    sessionID = QISRSessionBegin(NULL, "ssm=1,sub=asr", &ret);  
		
			    if(ret != MSP_SUCCESS)  
		
			    {  
		
			        printf("QISRSessionBegin with errorCode: %d \n", ret);  
		
			        return ret;  
		
			    }  
		
			    char UserData[MAX_KEYWORD_LEN];  
		
			    memset(UserData, 0, MAX_KEYWORD_LEN);  
		
			    FILE* fp = fopen("asr_keywords_utf8.txt", "rb");  
		
			    if (fp == NULL)  
		
			    {  
		
			        printf("keyword file cannot open\n");  
		
			        return -1;  
		
			    }  
		
			    unsigned int len = (unsigned int)fread(UserData, 1, MAX_KEYWORD_LEN, fp);  
		
			    UserData[len] = 0;  
		
			    fclose(fp);  
		
			    const char* testID = QISRUploadData(sessionID, "contact", UserData, len, "dtt=keylist", &ret);  
		
			    if(ret != MSP_SUCCESS)  
		
			    {  
		
			        printf("QISRUploadData with errorCode: %d \n", ret);  
		
			        return ret;  
		
			    }  
		
			    memcpy((void*)GrammarID, testID, strlen(testID));  
		
			    printf("GrammarID: \"%s\" \n", GrammarID);  
		
			    QISRSessionEnd(sessionID, "normal");  
		
			    return 0;  
		
			}

这样GrammarID会输出到终端中，记下来就妥了。然后是录制要识别的音频文件，原来不知道要求，直接用ubuntu自带的录音机录了一段，发现总也识别不了，在bbs上问了问题才搞明白，讯飞语音对语音的要求如下：采样率16K或8KHz，采样位是16位，单声道，格式是PCM或WAV。自带的录音软件都是默认32位采样，只能用ffmpeg或自己写代码录制，ffmpeg命令如下：

[plain]view plaincopy
			
			ffmpeg -f alsa -i hw:0 -ar 16000 -ac 1 lib.wav

我用普通话录了2秒的“图书馆”音频，下面是识别的代码：

[cpp]view plaincopy
			
			#include   
		
			#include   
		
			#include   
		
			#include   
		
			#include   
		
			#define TRUE 1  
		
			#define FALSE 0  
		
			int run_asr(const char* asrfile);  
		
			const int BUFFER_NUM = 4096;  
		
			const int MAX_KEYWORD_LEN = 4096;  
		
			int main(int argc, char* argv[])  
		
			{  
		
			    int ret = MSP_SUCCESS;  
		
			    const char* asrfile ="lib.wav";  
		
			    ret = QISRInit("appid=xxxxxx");  
		
			    if(ret != MSP_SUCCESS)  
		
			    {  
		
			        printf("QISRInit with errorCode: %d \n", ret);  
		
			        return 0;  
		
			    }  
		
			    ret = run_asr(asrfile);  
		
			    QISRFini();  
		
			    char key = getchar();  
		
			    return 0;  
		
			}  
		
			int run_asr(const char* asrfile)  
		
			{  
		
			    int ret = MSP_SUCCESS;  
		
			    int i = 0;  
		
			    FILE* fp = NULL;  
		
			    char buff[BUFFER_NUM];  
		
			    unsigned int len;  
		
			    int status = MSP_AUDIO_SAMPLE_CONTINUE, ep_status = -1, rec_status = -1, rslt_status = -1;  
		
			    //const char* GrammarID="e7eb1a443ee143d5e7ac52cb794810fe";  
		
			    const char *GrammarID="c66d4eecd37d4fe1c8274a2224b832d5";  
		
			    const char* param = "rst=json,sub=asr,ssm=1,aue=speex,auf=audio/L16;rate=16000";//注意sub=asr  
		
			    const char* sess_id = QISRSessionBegin(GrammarID, param, &ret);  
		
			    if ( MSP_SUCCESS != ret )  
		
			    {  
		
			        printf("QISRSessionBegin err %d\n", ret);     
		
			        return ret;  
		
			    }  
		
			    fp = fopen( asrfile , "rb");  
		
			    if ( NULL == fp )  
		
			    {  
		
			        printf("failed to open file,please check the file.\n");  
		
			        QISRSessionEnd(sess_id, "normal");  
		
			        return -1;  
		
			    }  
		
			    printf("writing audio...\n");  
		
			    //  
		
			    int count=0;  
		
			    //  
		
			    while ( !feof(fp) )  
		
			    {  
		
			        len = (unsigned int)fread(buff, 1, BUFFER_NUM, fp);  
		
			        feof(fp) ? status = MSP_AUDIO_SAMPLE_LAST : status = MSP_AUDIO_SAMPLE_CONTINUE;  
		
			        if(status==MSP_AUDIO_SAMPLE_LAST)      
		
			            printf("MSP_AUDIO_SAMPLE_LAST\n");  
		
			        if(status==MSP_AUDIO_SAMPLE_CONTINUE)  
		
			            printf("MSP_AUDIO_SAMPLE_CONTINUE\n");  
		
			        //  
		
			        ret = QISRAudioWrite(sess_id, buff, len, status, &ep_status, &rec_status);  
		
			        if ( ret != MSP_SUCCESS )  
		
			        {  
		
			            printf("\nQISRAudioWrite err %d\n", ret);  
		
			            break;  
		
			        }  
		
			        //  
		
			        printf("%d\n",count++);  
		
			        //  
		
			        if ( rec_status == MSP_REC_STATUS_SUCCESS )  
		
			        {  
		
			            const char* result = QISRGetResult(sess_id, &rslt_status, 0, &ret);  
		
			            if (ret != MSP_SUCCESS )  
		
			            {  
		
			                printf("error code: %d\n", ret);  
		
			                break;  
		
			            }  
		
			            else if( rslt_status == MSP_REC_STATUS_NO_MATCH )  
		
			                printf("get result nomatch\n");  
		
			            else  
		
			            {  
		
			                if ( result != NULL )  
		
			                    printf("get result[%d/%d]:len:%d\n %s\n", ret, rslt_status,strlen(result), result);  
		
			            }  
		
			        }  
		
			        printf(".");  
		
			    }  
		
			    printf("\n");  
		
			    if (ret == MSP_SUCCESS)  
		
			    {     
		
			        printf("get reuslt~~~~~~~\n");  
		
			        char asr_result[1024] = "";  
		
			        unsigned int pos_of_result = 0;  
		
			        int loop_count = 0;  
		
			        do   
		
			        {  
		
			            const char* result = QISRGetResult(sess_id, &rslt_status, 0, &ret);  
		
			            if ( ret != 0 )  
		
			            {  
		
			                printf("QISRGetResult err %d\n", ret);  
		
			                break;  
		
			            }  
		
			            if( rslt_status == MSP_REC_STATUS_NO_MATCH )  
		
			            {  
		
			                printf("get result nomatch\n");  
		
			            }  
		
			            else if ( result != NULL )  
		
			            {  
		
			                //  
		
			                FILE*f=fopen("data.txt","wb");  
		
			                printf("~~~%d\n",strlen(result));  
		
			                fwrite(result,1,strlen(result),f);  
		
			                fclose(f);  
		
			                //  
		
			                printf("[%d]:get result[%d/%d]: %s\n", (loop_count), ret, rslt_status, result);  
		
			                strcpy(asr_result+pos_of_result,result);  
		
			                pos_of_result += (unsigned int)strlen(result);  
		
			            }  
		
			            else  
		
			            {  
		
			                printf("[%d]:get result[%d/%d]\n",(loop_count), ret, rslt_status);  
		
			            }  
		
			            usleep(500000);  
		
			        } while (rslt_status != MSP_REC_STATUS_COMPLETE && loop_count++ < 30);  
		
			        if (strcmp(asr_result,"")==0)  
		
			        {  
		
			            printf("no result\n");  
		
			        }  
		
			    }  
		
			    QISRSessionEnd(sess_id, NULL);  
		
			    printf("QISRSessionEnd.\n");  
		
			    fclose(fp);   
		
			    return 0;  
		
			}

输出结果如下：

[plain]view plaincopy
			
			kl@kl-Latitude:~/xunfeiSDK$ ./a.out   
		
			writing audio...  
		
			MSP_AUDIO_SAMPLE_CONTINUE  
		
			0  
		
			.MSP_AUDIO_SAMPLE_CONTINUE  
		
			1  
		
			.MSP_AUDIO_SAMPLE_CONTINUE  
		
			2  
		
			.MSP_AUDIO_SAMPLE_CONTINUE  
		
			3  
		
			.MSP_AUDIO_SAMPLE_CONTINUE  
		
			4  
		
			.MSP_AUDIO_SAMPLE_CONTINUE  
		
			5  
		
			.MSP_AUDIO_SAMPLE_CONTINUE  
		
			6  
		
			.MSP_AUDIO_SAMPLE_CONTINUE  
		
			7  
		
			.MSP_AUDIO_SAMPLE_CONTINUE  
		
			8  
		
			.MSP_AUDIO_SAMPLE_CONTINUE  
		
			9  
		
			.MSP_AUDIO_SAMPLE_CONTINUE  
		
			10  
		
			.MSP_AUDIO_SAMPLE_CONTINUE  
		
			11  
		
			.MSP_AUDIO_SAMPLE_CONTINUE  
		
			12  
		
			.MSP_AUDIO_SAMPLE_CONTINUE  
		
			13  
		
			.MSP_AUDIO_SAMPLE_CONTINUE  
		
			14  
		
			.MSP_AUDIO_SAMPLE_CONTINUE  
		
			15  
		
			.MSP_AUDIO_SAMPLE_CONTINUE  
		
			16  
		
			.MSP_AUDIO_SAMPLE_CONTINUE  
		
			17  
		
			.MSP_AUDIO_SAMPLE_CONTINUE  
		
			18  
		
			.MSP_AUDIO_SAMPLE_CONTINUE  
		
			19  
		
			.MSP_AUDIO_SAMPLE_CONTINUE  
		
			20  
		
			.MSP_AUDIO_SAMPLE_CONTINUE  
		
			21  
		
			.MSP_AUDIO_SAMPLE_CONTINUE  
		
			22  
		
			.MSP_AUDIO_SAMPLE_LAST  
		
			23  
		
			.  
		
			get reuslt~~~~~~~  
		
			[0]:get result[0/2]  
		
			~~~123  
		
			[1]:get result[0/5]: {"sn":1,"ls":true,"bg":0,"ed":0,"ws":[{"bg":0,"cw":[{"sc":"85","gm":"0","w":"图书馆","mn":[{"contact":"图书馆"}]}]}]}  
		
			QISRSessionEnd.

这个输出格式是个坑，因为官方的例子默认是直接输出识别的结果，但是结果是GB2312格式的，在linux终端下是乱码，后来才搞明白，在QISRSessionBegin（）函数初始化的时候第二个参数param中的rst改成json，就是按照json格式把所有结果全输出来后，是utf8格式的汉字，之后再用json模块来解就妥妥的了~整体代码很清晰，简单说一下:

1.先要调用QISRInit（）函数，参数是自己的appid，每个SDK都是注册才能下载的，所以是唯一的，用来区分用户的，不同级别的用户每天可以使用SDK的次数有限制，毕竟人用的多了语音识别的性能肯定会下降；

2.之后就是把GrammarID，输入输出的参数param和调用状态返回值ret作为参数传入QISRSessionBegin（）函数中进行初始化，返回值是sessionID，这个是后面所有函数的主要参数之一；

3.打开自己的音频文件，调用QISRAudioWrite（）函数写入，可以分段也可以一次，第一个参数是sessionID，上面初始化函数返回的值，第二个参数是音频数据头指针，第三个参数是音频文件大小，第四个参数是音频发送的状态，表示发送完了没有，剩下两个是服务器端检测语音状态和识别状态的返回值；

4.调用QISRGetResult（）函数获取识别的结果，第一个参数还是sessionID，第二个参数是输出识别的状态，第三个参数是与服务器交互的间隔时间，官方建议5000，我取为0，第四个参数是调用状态返回值ret，最后这个函数的返回值就是上面结果的json数据了；

5.最后的收尾清理工作，毕竟是C语言，不是java~哈哈

阅读(2643) | 评论(0) | 转发(0) |

上一篇：pjlib深入剖析和使用详解

下一篇：Ubuntu上的语音识别工具Demo

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6