Chinaunix首页 | 论坛 | 博客
  • 博客访问: 4783
  • 博文数量: 7
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 10
  • 用 户 组: 普通用户
  • 注册时间: 2014-09-25 19:57
文章分类
文章存档

2014年(7)

我的朋友

分类: 大数据

2014-09-25 20:08:27



 第3章   大数据与商业案例


时髦概念到实际应用,大数据只用了很短的时间就完成了这个华丽的转身。曾经,不计其数的组织机构砸下重金研发大数据的周边技术。但现在,他们已将重心转移到发掘大数据真正的价值上来。

即便如此,就像当初那些颠覆性技术给不少IT(信息技术)管理人员带来的困惑,如今依然有许多人对大数据深存疑虑。大数据具有颠覆性,正如它颠覆了商业活动中BI的应用方式一样,对于许多高管而言,这是一个具有风险的命题。

CTO(首席技术官)、CIO(首席信息官)和IT管理人员在努力证明颠覆性技术的确能够促进商业活动的发展,大数据技术的出现却让他们陷入了尴尬的境地。加之企业自行处理大数据所产生的高昂成本,以及对非业务现场大数据分析过程安全性的担心,使这一情况变得更加复杂。

可能“大数据”这个词本身也导致了人们对它的误解。没有技术背景的人们也许只是从字面意思出发,认为“大数据”与“大问题”、“大成本”如影随形。大数据依赖企业的人员、技术和目标,它是为了实现特定目标并需要人工参与的一项技术。因此,综合考虑这些因素,在构建一项商业提案的时候,需要把大数据解读成“大数据分析”,才能赢得那些审慎的决策者的理解与支持。关键是要打破人们对大数据的认识局限,让人们明白大数据不只是规模大到超出传统的工具所能管理的数据集而已,它更是从大型数据库中挖掘出价值的多种技术的融合。

当然,“大”无疑是大数据的关键词,因为大量的数据无时无刻不在产生,它们大得超出了你的想象,也超出了当前的策略和技术所能管理的范围。

一场数据革命强势来袭,而“大数据”已然成为这场数据风暴的中心,它将改变商业运行模式的方方面面,比如大大提高效率,开拓发掘财富的新道路,促进商业创新蓬勃发展。大数据不再是一个引入技术领域的时髦概念,它已经迅速发展成一套实用的理念,其本质就在于:大数据分析。

3.1 价值实现

许多行业都能够通过分析那些数量激增的数据而大获裨益,例如医疗卫生、公共部门、零售业或者制造业。收集和分析交易信息使企业更加深入地了解顾客的偏好,从而及时、高效地解决新出现的问题,因而,数据被视为企业从事生产和服务的基础。

就某个具体公司而言,大数据分析的运用正是增强竞争力和促进公司发展的基石,它极有可能掀起一股提升生产率增长和消费者盈余的浪潮。

3.2 编纂大数据案例

为了便于人们理解和定量测度, 构建行之有效的大数据商业案例需要弄清楚几个关键问题,包括:知识发现,可用于商业实战的信息,短期和长期收益,难点的解决及其他与商业活动紧密相关的、可以优化商业流程的行业知识和经验。

在大多数案例中,大数据对于企业来说都是一个颠覆性因素,将对企业的数据规模、数据存储以及数据中心设计等问题产生极大的影响。这种颠覆性通常与硬件、软件、人员和技术支持的成本有关,而上述成本又无一不影响着企业利润,这就意味着投资回报率(ROI)和总体拥有成本(TCO)是大数据商业计划中要考虑的关键要素。提高投资回报率的同时降低总拥有成本便是制胜法宝,做到这一点最简单的办法就是把大数据的商业计划和企业所需的其他IT项目结合起来。

好吧,这听上去确实是一项不小的挑战,因为从事大数据有两个先决条件:存储和加工。实际上,为了实现其他的商业目标(比如合规性、数据存档、云技术试点以及其他持续发展规划),企业一直对存储技术进行持续投资并不断改进商业流程。可以说,开展大数据项目所需的基本条件现在都已备齐。

当前,越来越多的企业IT解决方案都不约而同地基于分布式处理,即将存储和应用程序分布到多个位置的多种系统之中。分布式作为大数据的“最佳搭档”,为大数据分析进一步奠定了基础。

构建一个商业案例需要查阅案例情景,收集重要信息。所幸,IBMOracleHP这些耳熟能详的大企业各自都拥有大数据解决方案,他们的手中积攒了丰富的大数据案例和素材,其中不乏原始商业案例、案例情境和其他的相关材料。

然而,构建大数据的商业案例需要灵活掌握,绝不能生搬硬套或是照搬照抄。为了确保大数据项目的成功,我们应该明白构成一个大数据商业案例中的若干关键要素。

一份完善的大数据分析的商业案例,应该包含以下内容。


  •     完整的项目背景介绍。包括项目的商业目的,大家是如何使用大数据的,有那些商业流程与大数据有关,以及项目要达成的总体目标。
  •     效益分析。大数据产生的实际效益通常难以量化和展示。大数据分析其实就是对数据进行诠释以及结论的可视化展现,即这是一种主观性分析,因为分析结果很大程度上依赖于对其进行解读诠释的人。即便如此,这种主观性的分析却并不妨碍对大数据的商业案例中的获益进行客观的表述,例如销售趋势的识别,潜在库存损耗的发现,运输延误的量化和用户满意度的测量等。能否把项目收益与企业实际需求相结合是效益分析成败的关键。以设定企业目标为例,如果企业将每年的增长目标定为5%,那么收益分析就要向人们展现大数据分析是如何帮助企业实现这一目标的。
  •     可选方案。企业既可自建基于大型机系统的数据中心的内部解决方案,也可以租用托管商提供的云服务,抑或两者兼而有之。总之,通向大数据,条条大路皆可行。对这些方案进行逐一考察,权衡利弊从而辨别出哪个更有助于大数据分析,这一点非常重要。同样,企业利益也应该加以强调,它们是连接财务决策和技术决策的纽带。
  •     范围与成本。大数据的应用范围更多的是管理问题,而非物理部署问题。这是因为,应用范围涉及各种资源,特别是人力资源。对大数据施用范围的考察就要明确项目何时开展且由谁来管理,其中诸如工作时间、技术顾问、项目培训等问题都应得到明确说明,因为这将会有助于更全面地计算经营成本,更准确地计算投资回报率。
  •     风险分析。评估风险是件很复杂的事情。由于大数据分析可为商业活动提供BI支持而使企业受益,与技术所不同的是,风险评估使用了资源却并不能产生直接效益。其他的风险可能就要牵涉安全问题(数据存储在哪里,谁能够访问数据)、CPU的占用问题(数据分析是否会影响到其他商业软件的运行)、兼容与整合问题(系统的安装与运行是否会与现有的技术产生冲突)以及商业活动的破坏性问题(安装系统导致的停工时间)。在一个大型项目中,为了构建可靠的商业案例,风险分析应该考虑到以上所有问题。


诚然,投资回报率是商业案例中永恒的主题。构建商业案例时,企业可能获得的回报(或者说利润)与项目成本的比例,可能会随着研究的深入、信息的增多而发生变化。理想情况下,随着研究的深入,商业案例的创造者可能会从大数据分析解决方案的应用中发现其他的附加价值,此时投资回报率将随之提高。尽管如此,投资回报率仍被视为决定一个项目能否得以实施的最为重要的一项指标。投资回报率这一决定因素已经成为企业及其他非营利性组织考虑是否开展一项商业案例的首要问题之一。

3.3 大数据:渐入人心

十几年以前,TeradataIBMHPOracle以及其他很多公司就已经开发出PB级规模的数据仓库产品,然而这些产品会导致数据处理过程中数据仓库喧宾夺主的情况。现如今人们所收集和存储数据的类型越来越多样化,遍及结构化、半结构化和非结构化等类型,而每一类数据都有着不同的存储和管理需求。考虑到分析过程中的信息量之大,想要进行大数据分析,数据就必须能够被多台服务器并行处理。这是一种必须,也是一种必然。

除了尽力维护好数据库中的交易数据并将其进行仔细的筛选并存入数据仓库外,企业还获得其他大量的数据,有的来自服务器生成的数量庞大的格式化日志数据,有的来自社交网络内外的顾客评价数据,还有的来自其他数据源中的零散且非结构化的数据。

摩尔定律告诉人们,大概每隔18个月,芯片所含晶体管的数目就会增加一倍,导致新一代服务器的处理能力也是18个月翻一番。同理,这也意味着服务器运行所产生的数据集规模也相应程度地扩张。从而,借助摩尔定律,我们可以推断出这些数据集正以指数级增长。

大数据技术象征着数据处理方式的一次重大转变。过去,精心筛选的数据通过网络被送入数据仓库以进行深入的分析。然而随着数据量的激增,网络传输成为了数据处理的瓶颈。在这种情况下,分布式平台(例如Hadoop)应运而生。不必传输大量数据,数据在哪里存储,分析就可以在哪里进行,分布式系统完美地解决了网络传输瓶颈。

传统的数据系统不能有效地处理大数据,一是因为这些系统的设计无法应对现在的情况,现如今数据类型日益复杂,结构化数据所占比例越来越低;二是由于它无法既迅速又比较经济地对系统进行拓展。

大数据分析和传统BI完全不同。传统的BI要求用户的数据集“干干净净”地存储在数据仓库中,并且只能调用事先已经定义好且数量有限的语句进行查询。大数据则采用完全不同的方式,它需要将组织中产生的所有数据都收集起来并进行关联。随后,管理员和分析师只需要考虑如何使用这些数据即可。从这点来讲,大数据解决方案确实较传统数据库或数据仓库具有更强的扩展能力。

想搞清楚大数据是如何逐渐被人们接受的,这还得从Hadoop的诞生和大数据运动的源头说起。寻根Hadoop,最早可以追溯到Google2004年发布的一份白皮书。书中提到为了进行数据分析,在一个名为Bigtable的索引系统的基础上,Google构建出一套平台,该平台允许协同多台服务器对数据进行分析,不过Bigtable一直仅限于Google内部使用。然而,一位名叫Doug Cutting的开发者(他也是LuceneSolr这两个项目的创始人),开发出了Bigtable开源版本并用他儿子的毛绒玩具象的名字来为其命名为Hadoop

YahooHadoop的先驱者之一,2006年前后Yahoo参与到Hadoop项目中来并进行大量的改进。分布式系统中存储着为数众多的有用数据,但如何才能进一步从这些数据中取得价值,这是Yahoo当时面临的首要挑战。因此,Yahoo制订出了实施计划:统一数据格式并将其当作统一的整体进行分析。事实表明,Hadoop正是实现这个过程的理想平台。如今,Yahoo已将Hadoop部署在4万多台服务器上,成为Hadoop最大的用户之一。

Yahoo使用这项技术帮助不同的企业来处理复杂的分析。YahooHadoop集群通过海量的日志文件记录下用户浏览过哪些内容,点击过哪些链接;同时,正如Yahoo要保存所有站内目录和文章的访问列表一样,用户对网站广告的访问也被详实地记录下来。因为,在Yahoo看来,对海量文本进行模式挖掘正是Hadoop所长。

3.4 后起之秀Cassandra

大数据领域中,另一个耳熟能详的名字就是Cassandra数据库。Cassandra功能强大,它允许在一行中存储200万列。此外,它无须事先确定数据的存储格式,便可以轻松地向现有的用户账号中添加更多的数据。

Cassandra的诞生可以追溯到一个在线服务运营商——FacebookFacebook需要一个巨大的分散式数据库来更好地满足其站内邮箱搜索服务。考虑到Bigtable架构的核心是一种面向行和列的分布式数据库结构,和Yahoo一样,Facebook当初也看上了这一点。

然而,Bigtable却存在一处硬伤:它采用的是面向主节点的设计。由于Bigtable依赖某个单一节点来调度管理所有节点上的读写活动,这就意味着一旦主结点失效,整个系统都将陷入瘫痪。

Amazon的工程师设计出来一种称为Dynamo的新的分布式架构,并在2007年的白皮书中进行了详细的说明,Cassandra就是在Dynamo之上建立起来的。至今Amazon一直使用Dynamo来跟踪数百万的用户的在线购物记录。

正是由于采用了Dynamo架构,Cassandra在与Bigtable的竞争中占据了上风。这是因为Dynamo并不依赖于某一个主控节点,而且将数据进行冗余备份至多个节点中,每一节点都可以从整个系统中接收数据、响应请求。这些做法增强了系统弹性,消除了单点故障的发生。

3.5 选择与抉择

许多大数据工具是由在线服务提供商最先开发出来的,随后成为开源软件而为更多企业所用。如今,这些工具已不再是少数大型在线服务提供商手中的“专利”,越来越多的企业都向大数据抛出了橄榄枝。金融机构、电信公司、政府机关、公共事业单位、零售企业,还有能源企业,全都在尝试应用大数据系统。

正所谓“乱花渐欲迷人眼”,最大的难题莫过于选择越多就越难抉择。在一项商业计划的设计过程中,面对诸多可选方案,既要做到趋利避害,又要满足项目需求,谈何容易。一份理想的大数据商业方案应该用实例证明,它既可以支持企业长期战略的宏观性分析,又可以处理具体的用户交易或行为的微观性分析,而这两种分析不仅能产生短期效益,更能形成长期效益。

Hadoop虽然适用于绝大多数企业,但它并不是企业唯一的选择(至少在开源的实现方面是这样)。如果企业已经决定利用内部机器生成的或是外部社交网络的海量数据,基础架构的建设其实并非拦路虎,最大的困难可能来自对大数据技术解决方案的抉择:开源的还是商业的?像ClouderaHortonworksMapR这样的企业正在致力于大数据技术的商业化,让人们可以更容易地部署和管理大数据技术。

同时,日渐壮大的云服务供应商让企业可以按需使用大数据服务,这令本已十分困难的抉择变得更加复杂。为了使商业方案最终取得成功,决策者不得不通过花费金钱进行研究和严格审核来选择最适合的平台和实现方法。所幸,大多数的前期铺垫工作都可以在方案制订阶段完成,与此同时可以对照方案的整体目标来赋以权重并衡量各种大数据实现方法的利弊。哪项技术能够让最后的技术方案成本最低、获益最快而风险最小?让我们拭目以待。


原文是数据系统,这里实际指的就是数据库管理系统。—译者注


阅读(189) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~