Chinaunix首页 | 论坛 | 博客
  • 博客访问: 87860
  • 博文数量: 44
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 431
  • 用 户 组: 普通用户
  • 注册时间: 2013-09-13 14:21
文章分类
文章存档

2014年(2)

2013年(42)

我的朋友

分类: 大数据

2013-10-16 15:06:04

    Michael Berry对大数据的浮夸之词颇不以为然。身为旅游网站TripAdvisor的分析总监,他认为更多的数据未必带来正面的业务影响,比如大数据和预测分析的例子。

  “很多预测分析的应用其实并不需要所有的数据。”Berry在Predictive Analytics World做主题演讲时说到。因此,对于数据科学家来说,重要的不是想着怎样分析所有的数据,而是看通过哪些数据可以得出真正有价值的结果。那么到底该怎么办呢?“对于这个问题,没有直截了当的答案。”Berry说。

  但是,通过每次增加一些数据的方式来测试预测模型的有效性,可以最终确定多少数据是足够的。比如,当Berry想知道旅游代理商对某家酒店或特定客户的标准价位时,采用计算平均值的方法:选取两个取均值,然后是三个…最终在1万个时均值稳定下来。如果取2万个,均值肯定会发生变化,但这已经没有必要了。

  “这就是关键所在。如果你有足够的数据,那么单纯数量上的增加就不会对结果造成很大的影响。”Berry说。

  如果过多的数据不会带来本质的不同,那么什么才是关键所在呢?“很多方面。”Berry表示。数据的纯净度、样本的合理全面以及专注于数据质量和挖掘的人才等,都会导致结果的不同。

  这些都是预测分析中的关键点,比如指出哪些变量可以使模型更健壮,或者结合哪些来源的数据可以发现新的模式。

  “比如风寒效应(wind chill factor)。”Berry说。结合了实际的温度和风速,才能切实分析出人体对于外界环境的感受。

  Berry并非唯一对当前大数据和预测分析境况有微词的人。咨询公司Rexer Analytics的创始人Karl Rexer认为数据科学家们多少都有点迷茫失措。在其2013年对数据挖掘从业者的调查看出,受访者反馈表明数据规模变得越来越大。但是,当被问及有多少数据被用于真正的分析时,答案和2007年的调查结果并无二致。

  这并非证明所谓大数据是一场闹剧。“对于传统的预测分析建模或数据挖掘项目来说,总体的样本规模并未出现增长。”Rexer说。
拓展阅读:

阅读(736) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~