Chinaunix首页 | 论坛 | 博客
  • 博客访问: 6764
  • 博文数量: 3
  • 博客积分: 50
  • 博客等级: 民兵
  • 技术积分: 50
  • 用 户 组: 普通用户
  • 注册时间: 2007-12-21 00:25
文章分类
文章存档

2013年(3)

我的朋友
最近访客

分类: 大数据

2013-10-11 10:27:23

这段时间接到很多猎头的联系,纷纷找大数据架构师,对应的客户是通信、电力或者消费品这类“传统”企业,而不是互联网企业。做了这些年的数据处理,从最底层的简单数据转换处理到最近的结合大数据和分布式数据仓库搭建的统一数据架构(见下图),算是对目前数据方面的企业应用有点认识,但我就没搞懂这些“传统”企业真的已经具备做大数据的基础吗?他们会不会不知道自己真正需要什么,其实可能只是海量数据处理的平台?

统一数据架构

统一数据架构很好的解析了传统企业规范化数据和非规范化的数据之间的关系、如何结合两者提升企业运用数据的能力以及最终发掘出两类数据互补后产生的合力。

 

传统企业规范化数据主要来自企业的业务系统(如电信和移动的BOSS、计费系统)、企业内部管理系统(如ERP、供应链管理SCM)和客户关系管理CRM等这类利用关系模型建设出来的源系统,对于这类数据的应用,已经有成熟的数据仓库DW技术,低端一点的数据挖掘Data Mining或者数据集市Data Mart。这些技术搭建起来的数据应用平台,是传统企业运用数据进行分析和挖掘,以便对企业运营决策提供支持,或者为精确营销服务的必备基础。很多企业在这条路上已经走了很久,基本上是经历了从最初主要为领导和业务部门产生报表、上报监管部门,逐渐发展到应用数据挖掘出来的价值进行营销、提高客户满意度这样的阶段,往往发展的思路是逐渐清晰的,这里所说的主要是像移动和银行这些客户,他们具有海量的数据,数据仓库或者平台建设时间早,一般都已经干了10来年。这些数据处理技术最终就发展成上图右边的企业数据仓库模式。

 

而大数据是什么呢?对于我这种被范式化洗脑多年的关系型数据库阵型的人来说,大数据应该理解为非规范化的数据,例如网站的日志、网站或交际网络的内容数据、多媒体数据和大量的文档型数据,这些数据一般不是甚至不适合存放在关系型数据库中,或者说要保存这类数据的成本较高、投入产出比较低,所以以往在企业中这些数据的应用价值一直不高,但随着网络在人类生活中的地位不断提高,尤其是社交网络近年的火热,更加提高了人与人之间关系数据的商业价值。因此,我不否认这类非规范化的数据在未来企业数据平台上存在的意义和价值,我很认同这类数据的应用将会给已经建设发展多年的传统企业数据仓库带来新的思路和创新突破,这些业界都已经有相应的例子。对应这块的数据处理技术最近被黄色小象Hadoop闹得热火朝天,就是上图黄色区域和左边的数据发掘平台。其中的数据发掘平台就是建立在Hadoop分布式存储系统上的数据分析技术(可以理解为MapReduce),这块技术往往被不明真相的群众给神化,弄得好像一定要在简历中写明用过Hadoop和MapReduce的才是懂大数据,这样想未免太肤浅了。

 

其实Hadoop和MapReduce的分布式思想一早就在计算机界出现,也研究发展了多年,这种Divide & Conquer分而治之的策略老外很喜欢,尤其在计算机领域,中间不乏出现了很好的成果,Teradata数据库就是一个优秀的分布式数据库系统:-)。Hadoop的成功是借助了最近几大互联网大鳄对这块的技术投入的热衷,因为这些企业有着比传统企业更多的数据,他们最终发展到经典的关系数据库已经不能满足其业务增长的需求,例如国内的淘宝,而且他们的数据很多是非规范化的,什么网络日志啊、微博内容等,根本不合适存放在传统的关系型数据库。另外,就算有厂商有这样的平台产品,它也是天价的,而且未来扩容很难实现线性,互联网企业是钱多,但也耐不住这样的烧,Hadoop的一个基本特性——适合部署在普通PC Server上,给了这些企业很大的想象空间,这个特性也是得益于分布式的基础。我说了这么多,总而言之,Hadoop目前在互联网用得很热,是本身技术特点和行业实际情况所决定的,换到其他行业能否简单复制成功?

 

目前我能想到的传统企业应用大数据的机遇,也是统一数据架构的出发点,就是与传统的企业数据仓库或数据平台(包括数据挖掘和集市等)进行整合,相互发挥各自特性。传统企业的原有系统不可能突然发生大的变更(未来云计算在企业中的应用是另一个课题啦。云跟大数据是一回事?那你就错了),因此经典的数据仓库应用场景不应该被忽略或者跨越,它们有存在的必然价值,是企业挖掘数据价值的基础。有一个传统行业客户曾经说过一句话让我很深刻,我们现在用数据仓库都还没发掘完数据的价值,还有很多有意义的事情需要做而没做,这么快投入到大数据的应用,有必要吗?没错,在商业领域,有价值才有意义,本身平台上有价值的东西还没充分发掘完,就急着开始搞大数据,我想只是一些人为了自己的饭碗或私利谋求的事情(对不起各位有志于做大事的销售和领导了)。最后,说一个大数据与传统数据仓库结合的例子,我以前粗糙的搭建过一个实时事件营销系统,完全是基于传统关系型数据库的实时数据处理能力。现在想回去,如果能整合大数据技术,类似统一数据架构:一方面依赖Hadoop和MapReduce对大量的客户行为历史数据,加上社交网络内容,进行长期的挖掘和分析,理出客户的行为特征和喜好;另一方面,借助传统数据仓库(其中的实时部分)的当前事件数据,例如实时的话单或金融交易,结合长久的行为特征结果和目前产生的行为,能够向客户提供更加有针对性的营销推荐。两者缺一不可,因为各自的特点决定了相互不会是替代,而是互补和促进。

阅读(266) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~