Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1085
  • 博文数量: 2
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 40
  • 用 户 组: 普通用户
  • 注册时间: 2013-05-14 21:38
文章分类
文章存档

2013年(2)

我的朋友
最近访客

分类: 架构设计与优化

2013-05-26 13:16:59

4月19日,云知声CEO梁家恩作客DoNews 5G白话。作为语音识别领域的重要公司之一,云知声因为去年和搜狗达成合作协议而被业内熟知。梁家恩坦言,语音识别还有很长的路要走,而它的价值显而易见。云知声希望成为一个巨大的智能运算|平|台|,“那些开发者不但不用给我们付费,而且还能够在这个|平|台|上获利,从而走得更长远。”

智能语音识别的原理

“其实它并不是一个真正的智能,只是表现的像而已,本质上还是一个搜索的问题。我说出一句话,它会在数据库里面查找、比对,找出最像你说的那句话。如果刚好猜对了,而且识别度还蛮高,那么你就会觉得它很智能。”梁家恩如此解释语音识别的本质。

跟其他的语音识别公司相同,云知声最初的数据库是需要好几千人,甚至上万人去录制的,必须要知道每一个特殊的发音是什么样的。刚开始可能几千人的声音数据就可以把公司转起来,而有了用户开始使用之后,数据就会慢慢地积累起来,然后再把我们的数据分析加进去。

因此,这种基于语音数据的商业模式如果碰上像中国这样的多方言国家,困难就比较大。“像北方口音相对少些,在南方口音更复杂。我们现在在一些带口音的普通话上,都有数据库去覆盖。但如果是完全另外一种语言,比如闽南语、粤语,我们现在还不能去识别,这些数据还需要去建立。”梁家恩称。

语音识别的流程大致相同。第一个阶段就是声音的特征抽取,第二阶段就是发音模型。“我们说话的声音模式是怎么分布的,在专业领域叫声学模型。另外一个库叫做语言模型,我们说的这些话有很多词,这些词各种排列组合出现的可能性是不一样的,我们看全网抓下来看这种说法多不多,叫做语言模型。中间的还有一个叫做发音词典,发音词串是什么样的,把发音和语言模型结合起来。此外,还有一个重要环节,就是所谓的系统工程环节,我们叫做解码器或者识别引擎。”实际上语音识别就是把这几个流程给串起来,本质上就是一个比对的过程,效率和精确率的高低完全取决于这两个模型。

如何顺势而上

云知声的创始团队其实从2001年就开始研究语音识别,梁家恩是中国科技大学96级的毕业生,2001年进入中科院,一直在研究语音识别这个方向。2011年,他去了盛大创新语音主题院,但随着盛大退市,盛大创新院也逐渐消寂,。直到2012年,整个产业环境向好,看上去到了一个爆发期,语音识别的需求也非常旺盛,梁家恩就号召同学、师兄弟一起创立了云知声。

“去年十一我们才发布了产品,11月,搜狗就找到了我们,他们试了一下我们的系统,觉得跟科大讯飞不相上下,当时就决定跟我们合作了。”梁家恩称。不到两周,云知声便帮助搜狗做出了语音助手。“搜狗给我们打了一个非常好的广告:语音识别技术由云知声提供。这对我们的品牌帮助是非常大的。”

但并不是所有的大公司都会重视像云知声这样的创业公司,尤其是在语音识别流域。梁家恩表示:“语音识别在这些大公司里已经成为一个非常重要的战略,他们不会愿意把这部分放给外面的公司去做,虽然他们本身可能还需要较长的时间来做。包括像百度、搜狗、腾讯这样的公司,他们都很想涉足这一块。”

商业模式如何接地气

在梁家恩看来:“业内现在对语音识别的期待还是很高的,比如全国现在有一百万席呼叫中心,他们每年的支出就有上千亿元,而且问题的重复性很高。这都可以用机器去解决。现在推的比较热的是大数据,数据确实很大,但是你没有处理能力,使用起来就很困难。有语音识别后去做检索分析就可以把用户有用的信息挖掘出来,体现价值。”

而在教育市场的过程中,梁家恩更多的是在验证自己。“我们靠传统的商业模式:技术服务去收费,还是有下降的空间的,通过这种模式去赚钱也不是未来的一个大方向。将来会变成开发者不但不用付费给我们,而且还能够从中获利,走得更长远。互联网中广告、|游|戏|等模式能够挣钱,而语音识别也会是一个好的|平|台|,企业价值兑现才是最根本的。”

阅读(105) | 评论(0) | 转发(0) |
0

上一篇:VB编程基础教程6常数

下一篇:没有了

给主人留下些什么吧!~~