什么是ASR、TTS？-zhm_sunboy-ChinaUnix博客

坚持到底max2008.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

zhm_sunboy

博客访问： 3315198
博文数量： 346
博客积分： 10189
博客等级：上将
技术积分： 3125
用户组：普通用户
注册时间： 2008-08-05 19:46

文章分类

全部博文（346）

java（1）
flume（1）
zookeeper（0）
MQ（5）

Zeromq（0）

Metaq（0）

Jafka（0）

Kafka（5）
MongoDB（0）
Webserver（2）

LVS（0）

Tomcat（0）

Lighttpd（0）

Apache（1）

Nigix（1）
Hadoop（0）
Storm（17）
Libevent（1）
Memcached（0）
Redis（7）
Protocol（13）

SIP（12）
Algorithm（4）
Streaming（29）
网络技术（7）
Telecom（32）
计算机原理（0）
网络编程（26）
人生励志（4）
软件设计（1）
软件测试（2）
技术心得（0）
Web（1）
UML学习（2）
Wiki使用（2）
公司培训（0）
Windows编程（20）

GDIPlus使用（3）

MFC编程（4）

VC基础（9）

文件操作（1）

多线程（3）
Value-added（14）
Interview（1）
Programming（76）

Network pro（0）

Design patt（8）

Generic pro（2）

STL（4）

C++（49）

C（13）
DB（1）

Oracle（1）
Linux/Unix（77）

Unix下C/C++编程（13）

Shell脚本（14）

UNIX命令（14）

系统管理（11）

C/C++开发工具（25）
未分配的博文（0）

文章存档

2013年（35）

2011年（35）

2010年（76）

2009年（48）

2008年（152）

我的朋友

相关博文

什么是ASR、TTS？

分类：系统运维

2009-04-23 08:42:47

计算机技术总是在朝着功能更强大、使用更方便的方向发展，用户的需求永远都是技术前进的动力。ASR和TTS的出现，让人和计算机的距离更加靠近，人机接口更加自然。由于技术（识别率不够高）和人们习惯上的原因，ASR离真正的普及还有一段距离。但是，在通信领域，由于CTI的广泛应用，计算机技术不断融入通信平台，这项技术正在如火似涂的发展、普及。VoiceXML就是一个很好的例子，它的应用就是以ASR和TTS作为基础的。

ASR，英文的全称是Automated Speech Recognition，即自动语音识别技术，它是一种将人的语音转换为文本的技术。语音识别是一个多学科交叉的领域，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性，目前的语音识别系统只能在一定的限制条件下获得满意的性能，或者说只能应用于某些特定的场合。语音识别系统的性能大致取决于以下4类因素：1. 识别词汇表的大小和语音的复杂性；2. 语音信号的质量；3. 单个说话人还是多说话人；4. 硬件。

TTS，英文全称是TextToSpeech，即文语转换，又称为计算机语音合成，它的过程和ASR刚好相反，是把计算机中任意出现的文字转换成自然流畅的语音输出。一般认为，语音合成系统包括三个主要的组成部分：文本分析模块、韵律生成模块和声学模块。目前，TTS的技术已经可以达到商业化的地步。

SAPI简介

目前，市场上有很多比较成熟的语音ASR和TTS产品，而且他们大多数都支持二次开发，如微软的Speech Application SDK（SASDK）、IBM的Dutty++等。他们能识别（生成）英语、日语和中文等不同国家的语言，Dutty++甚至能够识别某些地区的方言，如广东的方言－粤语。下面我们以SAPI作为例子，简单的介绍一下ASR和TTS的开发引擎。微软的SAPI是作为Windows的一部分，已经被被集成在Windows里面。相对于其他引擎，他的识别率也比较高，如果做过适应性调整，识别率可以达到90％以上，而且他的开发包是还可以免费获取的，各种文档资源也很齐全，很方便做二次开发。由于SAPI是作为Windows的一个独立组件在发展，版本更新也比较快。

最新的SAPI 3.1提供了基于COM的高级编程接口，应用程序通过这些接口与语音引擎打交道。SAPI将ASR和TTS功能集成在同一个语音引擎中，TTS可以将文本和文件合成为语音，ASR则是将人的声音信号转换为可读的文本或文件。

阅读(5113) | 评论(0) | 转发(0) |

上一篇：3G-324M媒体编码集

下一篇：移动通信缩略语(一)

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6