Chinaunix首页 | 论坛 | 博客
  • 博客访问: 3036492
  • 博文数量: 167
  • 博客积分: 613
  • 博客等级: 中士
  • 技术积分: 5473
  • 用 户 组: 普通用户
  • 注册时间: 2011-09-13 21:35
个人简介

人, 既无虎狼之爪牙,亦无狮象之力量,却能擒狼缚虎,驯狮猎象,无他,唯智慧耳。

文章分类
文章存档

2015年(19)

2014年(70)

2013年(54)

2012年(14)

2011年(10)

分类: 大数据

2014-09-12 15:37:59

   好久没有来CU更新了,今天终于再次打开了博客。由于自己博士入学后可能做的内容与大数据有关,自己中秋节买了一本《大数据时代》,原想速度看完的,结果还是拖到了今天,后来自己又下到了PDF版,早知如此不去花冤枉钱了...不是说书不好,你懂的。闲话少叙,下面谈谈我对大数据的初步认识。
一、什么是大数据?
   大数据,英文名BigData,顾名思义,可想其数据规模一定要比传统的数据规模大得多,起码也应该是PB级别的(1PB=1024TB=1024*1024GB),这么多数据放在一起,当然,理所应当能够提供比我们掌握的小数据更多的信息。只不过,过去我们一直没有有效的方式来采集、存储以及分析这个量级的数据,因此BigData一直存在于理论中。现在之所以我们再次研究BigData,就是源于技术上的实现已经使其成为了现实,没错,核心技术就是现在炒得火热的云计算。云计算成为了大数据存在发展的平台。因此,可以理解成大数据就是利用云计算平台针对海量的数据进行采集、存储以及分析得出预测和结果的这样一个过程。说到这里,不得不提一下大数据的特征:
1. 大数据的取样集合是全集,即近似于需要的全体数据,这与传统的小数据是不同的;
2. 大数据的分析方法不再执着于精确性,而是数据在宏观上反应的趋势:这一个是因为大数据来源混杂,大多数是非结构化数据,不适合要求精确性;另一个原因则是数据量太大,大到我们可以容忍小部分数据的错误,即使有错误,在宏观表现上也无碍大局;
3. 基于以上两点,很容易我们就能够推出:大数据更加关注相关性,而非因果联系;很多时候我们只需要是什么,会怎么样就可以了,没有必要费力挖掘背后的因果联系;
4. 大数据不仅仅意味着海量数据的采集、存储以及分析处理,更加强调的是在实际运用中去挖掘数据的潜在价值,即“一双发现的眼睛”;
【小结:传统数据是“由薄到厚”,大数据是“由厚到薄”,传统数据是由收集到的少量数据获得更多的信息,大数据则是从海量数据中去伪存真,去冗存精,以此获得关联物的信息,当这些信息足够多的时候,就可以预测现象的发生,其实就是事物发展的方向,由量变到质变。但是现在的情况是“数据丰富,信息匮乏”,对于大数据的利用和分析还在起步阶段。】
二、大数据技术
   一个概念再好,如果技术上不能实现,也终究是空谈,大数据之所以能够成为现实,当然很大程度上得益于IT技术的飞速发展,尤其是云计算的发展。这里就涉及到几个基本的问题,由下到上的话,先是底层云的虚拟化技术,然后是分布式文件系统(如hadoop),再往上是各种非关系型数据库,如hbase等,再往上则可能是各种应用接口,需要的关键技术有数据挖掘、机器学习以及信息安全。每个层面上都值得好好研究,这里不再一一展开,自己也没有这个功底。需要的话我们可以线下交流。
三、大数据的认识
   关于相关和因果。我觉得大数据对我们思维的变革最重要的一点是:开始重视相关关系。过去我们探索世界的主要方法是科学实证,其实就是依赖于因果联系的分析方法。书中强调相关关系的重要性,似乎有盖过因果关系的趋势。我个人认为,二者必须分开来看,不能笼统地说一方盖过另一方。首先相关关系是研究数据在宏观上表现的现象趋势之间的联系,或许几个现象同时出现,那么可以推测它们之间存在相关性,因为是推测,因此本质上是概率的;而因果关系则研究事物背后深刻的客观联系,是稳定的,也是本质的,最容易理解的就是科学规律是可重复的,是概率为一的绝对事件;可以看出二者是对事物联系不同层次的认识,既然是不同层次,我们可以先对问题进行相关性分析,获得所有可能的相关性因素,如果有必要,再进一步深入研究确定其因果联系。可以说二者是辩证统一的,不能说谁淘汰谁,都很重要,也许在一些决策中只需要考虑相关性,但是在真的认识世界的方面,归根结底还是要揭示其因果联系。
   关于大数据安全。提到安全当然不是一两句能说清的,所有能够打破信任界限的都会造成安全问题,因为计算机是工具,不是可以自主思考判断的人。大数据安全最大的两个问题来源于其自身的本质属性,一个是Big,即数据来源的广泛以及数据量级别大,这些都使得很有可能通过联合不同源的数据分析得到一个人的某些信息,比如刻画一个人的“网络指纹”,姓名、住址、家庭信息、爱好、常去的购物网站、关心的人和事情?没错,很熟悉吧,通过google\baidu\taobao\sina-weibo等就可以轻易获得这些信息,直接威胁的是公民的个人隐私,因此如何确保越界的数据能够“安分守己”,是一个有意思的问题。另一个问题则是涉及到大数据的概率性本质,由于其是概率,因此终究只是推测,如果据此来做出商业决策,会承担较小的风险成本,尚可接受,但是如果是以此来预防犯罪,判断一个人的好坏,则是南辕北辙了:数据是“死”的,人是“活”的,可能不代表必然,如果真是如此,就会上演【少数派报告】中的那种悲剧。因此,在社会中应用大数据,应当保持谨慎。
阅读(2941) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~