云知声梁家恩：构建语音类智能开放|平|台|-嘉懿4-ChinaUnix博客

嘉懿4的ChinaUnix博客

首页　| 　博文目录　| 　关于我

嘉懿4

博客访问： 1085
博文数量： 2
博客积分： 0
博客等级：民兵
技术积分： 40
用户组：普通用户
注册时间： 2013-05-14 21:38

文章分类

全部博文（2）

未分配的博文（2）

文章存档

2013年（2）

我的朋友

相关博文

云知声梁家恩：构建语音类智能开放|平|台|

分类：架构设计与优化

2013-05-26 13:16:59

4月19日，云知声CEO梁家恩作客DoNews 5G白话。作为语音识别领域的重要公司之一，云知声因为去年和搜狗达成合作协议而被业内熟知。梁家恩坦言，语音识别还有很长的路要走，而它的价值显而易见。云知声希望成为一个巨大的智能运算|平|台|，“那些开发者不但不用给我们付费，而且还能够在这个|平|台|上获利，从而走得更长远。”

智能语音识别的原理

“其实它并不是一个真正的智能，只是表现的像而已，本质上还是一个搜索的问题。我说出一句话，它会在数据库里面查找、比对，找出最像你说的那句话。如果刚好猜对了，而且识别度还蛮高，那么你就会觉得它很智能。”梁家恩如此解释语音识别的本质。

跟其他的语音识别公司相同，云知声最初的数据库是需要好几千人，甚至上万人去录制的，必须要知道每一个特殊的发音是什么样的。刚开始可能几千人的声音数据就可以把公司转起来，而有了用户开始使用之后，数据就会慢慢地积累起来，然后再把我们的数据分析加进去。

因此，这种基于语音数据的商业模式如果碰上像中国这样的多方言国家，困难就比较大。“像北方口音相对少些，在南方口音更复杂。我们现在在一些带口音的普通话上，都有数据库去覆盖。但如果是完全另外一种语言，比如闽南语、粤语，我们现在还不能去识别，这些数据还需要去建立。”梁家恩称。

语音识别的流程大致相同。第一个阶段就是声音的特征抽取，第二阶段就是发音模型。“我们说话的声音模式是怎么分布的，在专业领域叫声学模型。另外一个库叫做语言模型，我们说的这些话有很多词，这些词各种排列组合出现的可能性是不一样的，我们看全网抓下来看这种说法多不多，叫做语言模型。中间的还有一个叫做发音词典，发音词串是什么样的，把发音和语言模型结合起来。此外，还有一个重要环节，就是所谓的系统工程环节，我们叫做解码器或者识别引擎。”实际上语音识别就是把这几个流程给串起来，本质上就是一个比对的过程，效率和精确率的高低完全取决于这两个模型。

如何顺势而上

云知声的创始团队其实从2001年就开始研究语音识别，梁家恩是中国科技大学96级的毕业生，2001年进入中科院，一直在研究语音识别这个方向。2011年，他去了盛大创新语音主题院，但随着盛大退市，盛大创新院也逐渐消寂,。直到2012年，整个产业环境向好，看上去到了一个爆发期，语音识别的需求也非常旺盛，梁家恩就号召同学、师兄弟一起创立了云知声。

“去年十一我们才发布了产品，11月，搜狗就找到了我们，他们试了一下我们的系统，觉得跟科大讯飞不相上下，当时就决定跟我们合作了。”梁家恩称。不到两周，云知声便帮助搜狗做出了语音助手。“搜狗给我们打了一个非常好的广告：语音识别技术由云知声提供。这对我们的品牌帮助是非常大的。”

但并不是所有的大公司都会重视像云知声这样的创业公司，尤其是在语音识别流域。梁家恩表示：“语音识别在这些大公司里已经成为一个非常重要的战略，他们不会愿意把这部分放给外面的公司去做，虽然他们本身可能还需要较长的时间来做。包括像百度、搜狗、腾讯这样的公司，他们都很想涉足这一块。”

商业模式如何接地气

在梁家恩看来：“业内现在对语音识别的期待还是很高的，比如全国现在有一百万席呼叫中心，他们每年的支出就有上千亿元，而且问题的重复性很高。这都可以用机器去解决。现在推的比较热的是大数据，数据确实很大，但是你没有处理能力，使用起来就很困难。有语音识别后去做检索分析就可以把用户有用的信息挖掘出来，体现价值。”

而在教育市场的过程中，梁家恩更多的是在验证自己。“我们靠传统的商业模式：技术服务去收费，还是有下降的空间的，通过这种模式去赚钱也不是未来的一个大方向。将来会变成开发者不但不用付费给我们，而且还能够从中获利，走得更长远。互联网中广告、|游|戏|等模式能够挣钱，而语音识别也会是一个好的|平|台|，企业价值兑现才是最根本的。”

阅读(105) | 评论(0) | 转发(0) |

上一篇：VB编程基础教程6常数

下一篇：没有了

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6