Chinaunix首页 | 论坛 | 博客
  • 博客访问: 3274640
  • 博文数量: 346
  • 博客积分: 10189
  • 博客等级: 上将
  • 技术积分: 3125
  • 用 户 组: 普通用户
  • 注册时间: 2008-08-05 19:46
文章分类

全部博文(346)

文章存档

2013年(35)

2011年(35)

2010年(76)

2009年(48)

2008年(152)

分类: 系统运维

2009-04-23 08:42:47

计算机技术总是在朝着功能更强大、使用更方便的方向发展,用户的需求永远都是技术前进的动力。ASR和TTS的出现,让人和计算机的距离更加靠近,人机接口更加自然。由于技术(识别率不够高)和人们习惯上的原因,ASR离真正的普及还有一段距离。但是,在通信领域,由于CTI的广泛应用,计算机技术不断融入通信平台,这项技术正在如火似涂的发展、普及。VoiceXML就是一个很好的例子,它的应用就是以ASR和TTS作为基础的。 
ASR,英文的全称是Automated Speech Recognition,即自动语音识别技术,它是一种将人的语音转换为文本的技术。语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。语音识别系统的性能大致取决于以下4类因素:1. 识别词汇表的大小和语音的复杂性;2. 语音信号的质量;3. 单个说话人还是多说话人;4. 硬件。

TTS,英文全称是TextToSpeech,即文语转换,又称为计算机语音合成,它的过程和ASR刚好相反,是把计算机中任意出现的文字转换成自然流畅的语音输出。一般认为,语音合成系统包括三个主要的组成部分:文本分析模块、韵律生成模块和声学模块。目前,TTS的技术已经可以达到商业化的地步。

SAPI简介

目前,市场上有很多比较成熟的语音ASR和TTS产品,而且他们大多数都支持二次开发,如微软的Speech Application SDK(SASDK)、IBM的Dutty++等。他们能识别(生成)英语、日语和中文等不同国家的语言,Dutty++甚至能够识别某些地区的方言,如广东的方言-粤语。下面我们以SAPI作为例子,简单的介绍一下ASR和TTS的开发引擎。 微软的SAPI是作为Windows的一部分,已经被被集成在Windows里面。相对于其他引擎,他的识别率也比较高,如果做过适应性调整,识别率可以达到90%以上,而且他的开发包是还可以免费获取的,各种文档资源也很齐全,很方便做二次开发。由于SAPI是作为Windows的一个独立组件在发展,版本更新也比较快。

最新的SAPI 3.1提供了基于COM的高级编程接口,应用程序通过这些接口与语音引擎打交道。SAPI将ASR和TTS功能集成在同一个语音引擎中,TTS可以将文本和文件合成为语音,ASR则是将人的声音信号转换为可读的文本或文件。
阅读(4914) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~