Chinaunix首页 | 论坛 | 博客
  • 博客访问: 70840
  • 博文数量: 73
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 1036
  • 用 户 组: 普通用户
  • 注册时间: 2013-05-21 11:51
文章分类

全部博文(73)

文章存档

2014年(1)

2013年(72)

我的朋友

分类: 信息化

2013-10-13 14:35:40

计算机非常擅于处理数据,但其智力方面的进展却是缓慢的。近些年来,计算机领域兴起了“深度学习”。结合人工神经网络研究的成果,科学家们试图建立模拟人脑的神经网络,使计算机像人类一样思考,拥有学习能力。

如今,“深度学习”已经突破了学术圈的范畴,吸引了科技公司的资源投入,特别是以分析用户数据来盈利的公司,如 Facebook、Google 等。人工智能方面的突破,能使他们提供更加智能、人性化的服务。

在“深度学习”研究中,自然语言的分析是重要部分。人类语言交流是非常复杂的,不仅涉及到意思的理解,也涉及到感情的表达,对于计算机来说,把握前者已经很困难,而把握后者恐怕更是难上加难。NaSent 项目试图在情感分析上面走出突破。

这个项目由斯坦福大学的研究生 Richard Socher 发起,合作者包括人工智能研究员 Chris Manning,以及 Google 深度学习项目的工程师之一 Andrew Ng。

“在过去,情感分析依赖的模式多是忽略单词次序的,或者依赖于人类专家,”Socher 接受采访的时候说,“那适用于非常简单的例子,但是永远无法上升到人类水平的理解,因为单词的意思随语境而改变,即使是专家也无法准确定义情感运作的所有细节。我们的深度学习模式解决了这两个问题。”

在构建 NaSent的过程中,Socher 和他的团队从烂番茄网站拿来了 1.2 万个句子,将其拆分为 21.4 万个短语,标记为非常消极、消极、中性、积极、非常积极等,然后将这些数据输入系统之中,并以此为基础对句子做分析。

研究员们说,NaSent 的准确率是 85%。这个数字还是不错的。当然,算法还有很大的改善余地。为了构建更加强健的系统,Socher 的团队还向系统输入了 Twitter 和 IMDB 上的数据。另外,他们还建立了一个的网站,所有人都可以参与其中。如果 NaSent 的判断错误,人们可以对其判断进行重新标记。在几周的时间里,已经有 1.4 万个用户参与过这个演示。

“人们很好心地教它新东西,告诉它正确与错误,”Socher 说,“给出实时演示的好处是,人们试图去破坏它。他们在把它推向极限,给予我们新的训练数据。这会帮助我们的算法模型。”

阅读(476) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~