用树莓派实现对话机器人-ap0405209-ChinaUnix博客

Star-Nightghost4embedded.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

ap0405209

博客访问： 1780364
博文数量： 1493
博客积分： 38
博客等级：民兵
技术积分： 5834
用户组：普通用户
注册时间： 2009-08-19 17:28

文章分类

全部博文（1493）

other（20）
QT（15）
Makefile（1）
Shell（25）
ARM（13）
Linux Progr（112）
Java（9）
Linux Drive（43）
C/C++（61）
FileSystem（2）
Uboot（15）
Kernel（44）
未分配的博文（1133）

文章存档

2016年（11）

2015年（38）

2014年（137）

2013年（253）

2012年（1054）

2011年（1）

我的朋友

相关博文

用树莓派实现对话机器人

分类：嵌入式

2016-03-15 14:31:07

原文地址：用树莓派实现对话机器人作者：vv1133

最近用树莓派实现了一个能和人对话的机器人，简要介绍一下。

树莓派（Raspberry Pi）是世界上最流行的微型电脑主板，是开源硬件的领导产品，它为学生计算机编程教育而设计，只有信用卡大小，且价格低廉。支持linux(debian)等操作系统。最重要的是资料完善，社区活跃。
我用的是树莓派B+版本，基本配置是博通BCM2836处理器，4核900M主频，1G RAM。

我的目标是做成一个和人对话的机器人，这就需要机器人有输入设备和输出设备。输入设备是麦克风，输出可以是HDMI、耳机或音响，我这里用了音响。下面是我的树莓派照片。4个USB接口分别连了无线网卡、无线键盘、麦克风、音响供电。

我们可以把机器人的对话分成三个部分：听、思考、说。
“听”，是把人说的话记录下来，并转换成文字。
“思考”，就是根据不同的输入给出不同的输出。比如，对方说“现在时间”，你就可以回答“现在是北京时间xx点xx分”。
“说”，是把文字转换成语音，并播放出来。

这三个部分涉及到大量语音识别、语音合成、人工智能等技术，这些都是要花大量时间精力研究的，好在有些公司已经开放了接口给客户使用。这里，我选择了百度的API。下面分别说明这三个部分的实现。

“听”

首先是把人说的话录制下来，我使用了arecord工具。命令如下：

arecord -D "plughw:1" -f S16_LE -r 16000 test.wav

其中，-D参数后接录制设备，连接麦克风后，树莓派上有2个设备：内部设备和外部usb设备，plughw:1代表使用外部设备。-f表示录制的格式，-r表示声音采样频率。由于后面提到的百度语音识别对音频文件格式是有要求的，我们需要录制成符合要求的格式。另外，在这里我没有指定录制的时间，它会一直录制下去，直到用户按下ctrl-c。录制后的音频文件保存为test.wav。
接下来，我们要把音频转换成文字，即语音识别（asr），百度的语音开放平台提供了免费的服务，并支持REST API
文档见：
流程基本就是获取token，把需要识别的语音信息、语音数据、token等发送给百度的语音识别服务器，就能获取到对应的文字。因为服务器支持REST API，我们可以用任何语言来实现客户端的代码，这里使用的是python

# coding: utf-8
import urllib.request
import json
import base64
import sys
def get_access_token():
url = ""
grant_type = "client_credentials"
client_id = "xxxxxxxxxxxxxxxxxx"
client_secret = "xxxxxxxxxxxxxxxxxxxxxx"
url = url + "?" + "grant_type=" + grant_type + "&" + "client_id=" + client_id + "&" + "client_secret=" + client_secret
resp = urllib.request.urlopen(url).read()
data = json.loads(resp.decode("utf-8"))
return data["access_token"]
def baidu_asr(data, id, token):
speech_data = base64.b64encode(data).decode("utf-8")
speech_length = len(data)
post_data = {
"format" : "wav",
"rate" : 16000,
"channel" : 1,
"cuid" : id,
"token" : token,
"speech" : speech_data,
"len" : speech_length
}
url = ""
json_data = json.dumps(post_data).encode("utf-8")
json_length = len(json_data)
#print(json_data)
req = urllib.request.Request(url, data = json_data)
req.add_header("Content-Type", "application/json")
req.add_header("Content-Length", json_length)
print("asr start request\n")
resp = urllib.request.urlopen(req)
print("asr finish request\n")
resp = resp.read()
resp_data = json.loads(resp.decode("utf-8"))
if resp_data["err_no"] == 0:
return resp_data["result"]
else:
print(resp_data)
return None
def asr_main(filename):
f = open(filename, "rb")
audio_data = f.read()
f.close()
#token = get_access_token()
token = "xxxxxxxxxxxxxxxxxx"
uuid = "xxxx"
resp = baidu_asr(audio_data, uuid, token)
print(resp[0])
return resp[0]