Chinaunix首页 | 论坛 | 博客
  • 博客访问: 4057009
  • 博文数量: 272
  • 博客积分: 7846
  • 博客等级: 少将
  • 技术积分: 6476
  • 用 户 组: 普通用户
  • 注册时间: 2009-08-25 16:27
文章分类

全部博文(272)

分类: 大数据

2013-09-22 08:42:35


 
 



 第1章   什么是大数据

  “

大数据”到底是什么?这个概念乍看上去相当模糊,它似乎指的是数量庞大信息量巨大的数据。尽管这样的描述确实符合“大数据”的字面含义,但它并没有解释清楚大数据到底是什么。

大数据常常被描述成已经大到无法用传统的数据处理工具进行管理和分析的极大的数据集。从网上我们可以得到一个被大多数人所认同的观点:当数据集已经发展到相当大的规模,常规的信息技术已无法有效地处理、适应数据集合的增长和演化时,大数据就应运而生了。换言之,数据集规模已大到难以用传统信息技术进行有效的管理,更不用说从中挖掘价值了。具体来说,难题主要在于数据的采集、存储、检索、共享、分析和数据可视化。

关于大数据到底是什么,绝非三言两语就能解释清楚。这个概念经过演变不仅包含了对数据集规模的描述,还包括数据利用的过程。大数据甚至变成了其他商务概念的代名词,如商业智能(Business Intelligence, BI)、数据分析(Analytics)和数据挖掘(Data Mining)。

大数据虽新,可“大数据”却早已存在。虽然海量的数据规模在最近两年内才形成,但大数据的概念却早已在科学界、医学界等组织中萌芽。这些组织对海量数据集进行复杂的分析,并将其运用于药物研制、物理建模及其他研究领域。然而,正是这些渊源为大数据今日的发展奠定了基础。

1.1 数据分析的春天

科学家们对大数据集进行研究和分析后得出一个结论——数据多多益善。也就是说,数据越多,分析越深入,所得的结论就越全面。于是,研究者们开始在分析过程中引入相关数据集、非结构化数据、归档数据和实时数据,而这反过来又催生出我们今日所谓的“大数据”。

在商业领域中,大数据暗藏商机。据IBM公司称,全球每天产生2.5亿亿(2.5×1018)字节的数据,当今世界90%的数据都是近两年产生的。这些数据来源广泛,有的来自收集气候信息的传感器,有的来自社交媒体网站,还有的是网络上传的数字照片和视频、电子商务交易记录,甚至是手机GPS信号等。这些都是大数据的“催化剂”。更重要的是,所有的数据都蕴含内在价值,利用数据分析、算法和其他技术是可以将这些内在价值提炼出来的。

大数据的价值及其重要性已经在一些领域得到了证明。美国国家海洋和大气管理局(NOAA)、美国国家航空航天局(NASA)、部分制药公司和许多能源公司正在把大数据技术运用于日常工作并从海量的数据中提取价值。

美国国家海洋和大气管理局运用大数据的方法助力气候、生态系统、天气和商业研究,美国国家航空航天局则使用大数据从事航空航天等研究。在大数据的帮助下,制药公司和能源公司已经在药物测试和地理分析方面得到了实际的效益。《纽约时报》利用大数据工具进行文本分析和Web挖掘;迪士尼公司则分析了旗下所有店铺、主题公园和网站的数据,试图发现数据间的关联性,进而理解用户行为。

在如今的商业活动中,大数据还扮演着其他的角色,大型企业越来越迫切地需要维护海量的结构化和非结构化数据——从数据仓库中的交易信息到员工的微博数据,从供应商的供货记录到政府的监管信息(为了符合政府法规的规定)。在近期诉讼案件的审理过程中,法庭鼓励公司保存大量文档、电子邮件以及其他电子通信消息(例如即时消息、网络通话等)。一旦公司面临诉讼,便可以从这些信息中进行电子取证,这也进一步推动了数据维护的需求。

1.2 价值何在

发掘价值从来都是说起来容易做起来难。面对技术、理论、实践中的种种挑战,大数据的发展可谓一路荆棘。任何一种挑战都可能消弭发掘大数据商业价值的能力,进而影响大数据的发展。

对大数据的概念的探究虽然涉及多个维度,不过人们认为以下4个维度最为重要,并将其统称为4V

1.海量性(Volume)。大数据都是数量巨大的数据。很多企业都拥有海量数据,数据量很容易就积累到TB(1012字节)级,甚至跃升至PB(1015字节)级。

2.多样性(Variety)。大数据冲破结构化数据的局限,不仅包括结构化数据,还覆盖了如文本、音频、视频、点击流、日志文件等各种类型的非结构化数据。

3.精确性(Veracity)。数据量多不见得都是好事,庞杂的数据可能会导致对收集到的信息的误读或统计误差,因此信息的纯度对价值发掘至关重要。

4.时效性(Velocity)。大数据对时效性要求很高,企业必须能够在短时间内高速、流畅地处理源源不断产生或流入企业的海量数据,方能最大化地显现出大数据的商业价值。与此同时,大数据还应被归档存储,以备不时之需。

大数据的4V特征为我们进行数据分析指明了方向,其中每个V在发掘大数据价值的过程中都有着内在价值。然而,大数据的复杂性并非只体现在这4个维度上,还有其他因素在起作用,这些因素存在于大数据所推动的一系列过程中。在这一系列过程中,需要结合不同的技术和分析方法才能充分揭示数据源的价值,进而用数据指导行为,促进业务的发展。

以下诸多支撑大数据的技术或概念早已有之,但现在已归至大数据范畴之下,包含如下方面。

<   传统商业智能(Traditional Business Intelligence, BI)。商业智能涵盖了多种数据采集、存储、分析、访问的技术及应用。传统的商业智能对来自数据库、应用程序和其他可访问数据源提供的详细商业数据进行深度分析,通过运用基于事实的决策支持系统,给用户提供可操作性的建议,辅助企业用户做出更好的商业决策。在某些领域中,商业智能不仅能够提供历史和实时视图,还可以支持企业预测未来的蓝图。

<   数据挖掘 (Data Mining, DM)。数据挖掘是人们对数据进行多角度的分析并从中提炼有价值的信息的过程。数据挖掘的对象通常是静态数据和归档数据,数据挖掘技术侧重于数据建模以及知识发现,其目的通常是预测趋势而绝非纯粹为了描述现状——这是从大数据集中发现新模式的理想过程。

<   统计应用 (Statistical Application)。统计应用通常是基于统计学原理利用算法来处理数据,一般用于民意调查、人口普查以及其他统计数据集。为了更好地估计、测试或预测分析,可以使用统计软件分析收集到的样本观测值来推断总体特征。调查问卷和实验报告这类经验数据都是用于数据分析的主要数据来源。

<   预测分析 (Predictive Analysis)。预测分析是统计应用的一个分支,人们基于从各个数据库得到的发展趋势及其他相关信息,分析数据集进行预测。预测分析在金融和科学领域显得尤为重要,因为加入对外部影响因素的分析,更容易形成高质量的预测结论。预测分析的一个主要目标是为业务流程、市场销售和生产制造等规避风险并寻求机遇。

<   数据建模 (Data Modeling)。数据建模是分析方法论概念的应用之一,运用算法可在不同的数据集中分析不同的假设情境。理想的情况下,对不同信息集的建模运算算法将产生不同的模型结果,进而揭示出数据集的变化以及这些变化会产生怎样的影响。数据建模与数据可视化密不可分,二者结合所揭示的信息能够为企业的某些特定商业活动提供帮助。

上述分析种类仅是大数据的一隅而已,未能展现大数据对商业的全部价值。对利益无尽的追求及不懈的竞争刺激着人们对大数据商业价值的渴求,促使组织机构利用企业内部和外部数据“仓库”中的数据来揭示发展规律、进行数据统计、获取竞争情报,协助他们部署下一步战略。大数据正是企业所需的大“仓库”。这使得大数据及其相关处理工具、平台、分析技术等在企业技术层和管理层中备受青睐。

1.3 琳琅满目的大数据

超大的数据量只是大数据概念的一个部分。人们渐渐形成共识,结构化和非结构化的数据均蕴藏着关键的商业信息,因此必须将这些数据融入商业智能和实际运营之中。另一方面,非结构化的业务数据量不仅现在在增长,在可预见的未来仍将持续增长,而且这一增长趋势非常明显。

大数据涉及结构化数据、半结构化数据和非结构化数据这三类数据。

结构化数据通常指的是传统数据库(SQL或其他数据库)中的数据,这些数据根据预先定义好的业务规则(Business Rule)存储于不同的表中。在数据库中存储数据前需要事先定义数据并创建索引,这使得访问和过滤数据变得非常简单,因此结构化数据最容易处理。

相比之下,非结构化数据一般无法直接进行商业智能分析,这是由于非结构化数据无法直接存储到数据库表中,也无法被程序直接使用或使用数据库进行分析。二进制图片文件就是非结构化数据的一个典型例子。

半结构化数据介于结构化数据和非结构化数据之间。半结构化数据因不具有严格的结构而不同于基于数据库表和关系的结构化数据。半结构化数据也不同于非结构化数据,它使用标签和各种标识区分不同的元素,并提供了记录和字段的层级结构来定义数据。

1.4 不同的数据,统一的处理

得益于标准XML语言格式和行业XML数据标准的应用(如保险行业的ACORD标准,医疗行业的HL 7标准),不同类型的数据处理方法日渐趋同。虽然XML技术拓展了大数据分析和集成工具所能处理的数据类型,但是受限于数据的复杂结构及巨量规模,现有工具的转化能力无法满足不断增多的数据处理需求,从而加剧了有限处理能力与新兴需求之间的矛盾。人们急需一种新的通用数据转换工具以应对所有类型的数据(结构化、半结构化、非结构化),不用编写代码就能部署在任何应用软件或平台架构上。

对大数据的认识和分析依旧存在争论,与之相关的工具、技术和过程仍在不断发展。但是,这并不意味着想从大数据中探究价值的人们除了等待别无他法。大数据对商业活动的意义非常大,我们绝不能无所作为。

想要更好地实现数据分析的目标绝非易事,大数据发展的瓶颈在于满足分析需求的同时找到不同数据源的最优处理方法。如此看来,将硬件、软件及处理流程整合成一套可用、易用的管理程序来及时生成分析结论,似乎是明智之举。追根溯源,这一切正是得益于数据。

存储问题对大数据而言至关重要,因为数据必须存储在便于访问和维护之处。由于购买和管理SANNAS这样基于网络的存储系统相当昂贵,这一挑战对于很多公司来说代价不菲。

毕竟存储技术早已成熟并且成功商用,存储设备已经成为标准数据中心的常规配备。尽管如此,这仍然无法满足企业对多种存储技术新生的需求。重要的是,随着大数据分析的推进,企业方能利用BI对大数据集进行处理。

对于大数据分析过程所需的处理能力而言,常规的存储模式常常无能为力。诸如SANSNAS和其他传统的存储技术,无法应对大数据与生俱来的那些动辄TB甚至PB级的非结构化信息。大数据分析若想成功,就需要更多突破:一种全新的海量数据处理方法,以及一个全新的存储平台理念。

1.5 一款开源利器

Hadoop是一个开源项目,它提供了处理大数据的平台。尽管Hadoop已经存在多年,但是越来越多的企业现在才刚刚开始领略到它的威力。Hadoop平台旨在解决海量数据所产生的问题,尤其是混杂有结构化或非结构化的复杂数据问题,因为这些数据无法有效地存储在表中。在类似聚类分析和定位分析这样的场景中,需要深度分析和大量计算进行支撑方能得以处理,而这恰是Hadoop的长处所在。

Hadoop可对海量数据进行有效的序化和访问,从而解决了绝大多数与大数据相关的常见问题,为想要利用大数据的决策者清除了障碍。

Hadoop设计的初衷就是允许数量众多的机器组成一个平台而共同协作,却不必共享任何内存或磁盘。考虑到这一特点,Hadoop怎样带来附加价值便一目了然:网络管理员只需要购置大批商用服务器并安置到机架上,分别运行Hadoop软件即可。

更何况,Hadoop有助于简化大型数据集的繁杂管理。实际操作中,一旦某一组织的数据被载入Hadoop平台,软件就会把数据切分成容易操作的小数据集,然后将其自动分发给不同服务器。由于分布式技术的一个本质特征就是弃用了对数据进行访问的统一入口,那么对于Hadoop中的分布式数据而言,这也就意味着人们可以使用Hadoop从多个地方访问同一数据。而且,Hadoop还跟踪记录数据驻留的位置,并且通过创建多个存储副本来保护数据。该设计增强了系统整体的健壮性,因为即使某个服务器脱机或者宕掉,数据仍可以从一个已知保存完好的副本中自行恢复。

不同于传统数据库系统,Hadoop对数据的深入处理并非一蹴而就。传统集中式的数据库系统固有的局限性,如挂入服务器级系统上的大量硬盘及多个处理器,使得数据分析不但受限于磁盘性能,更取决于其所拥有处理器的数量。

而在Hadoop集群中,Hadoop把任务和数据分发至各个服务器,然后利用这些服务器来进行计算。具体而言,一项任务被分解为一系列作业后,Hadoop将这些作业分发给集群中的每台服务器,服务器分别处理各自的数据分片后,再将所有结果作为统一的整体返回。Hadoop的这个过程被称为“映射-化简”(MapReduce),即指令或作业被映射至所有服务器,而运算结果被化简为单个数据集的过程。

正因为Hadoop能够分发数据并利用所有可用的集群处理器并行工作来解决复杂计算的问题,因此对海量数据的处理成了Hadoop的拿手好戏。

1.6 入门容易修行难

然而,一旦在尝试着步入Hadoop的世界后,你就会发现Hadoop的使用并不是即插即用那么简单的事情,因为除了要满足一定的前提条件以外,硬件配置和系统设置是成功的必备条件。

首当其冲的是理解和定义分析的过程。由于数据的抽取(extract)、转换(transform)和加载(load)在构建BA(业务分析)或BI(商业智能)解决方案中起到关键作用,所以人们将其合称为ETL。所幸,大多数CIO(首席信息官)不仅对BABI的过程较为熟悉,还能够把最常用的ETL层和这个过程结合起来。因此,要进行大数据分析之前,企业首先需要挑选并确定哪些数据用来分析,然后对数据进行检验、对比和汇总,最后进行数据整合(ETL)。整个过程同时伴有数量庞大的数据,这些数据来源广泛(社交网络、数据日志、网站、移动设备、传感器和其他领域)并且类型复杂(结构化、非结构化)。

Hadoop基于容错性集群架构,拥有更强的数据计算能力,能够对大数据进行并行或批量处理,还具有一套从数据存储到分析的开放生态圈。不仅该生态圈能够对企业构架进行全方位的支持,Hadoop上述这些特点更有助于支持企业进行大数据分析。

当然,并非所有的企业都需要大数据分析的支持。对于那些确实需要的企业来说,应该考虑利用Hadoop的能力来满足企业需求。不过Hadoop本身并非万能药。在构建Hadoop项目时,企业还必须根据实际需求确定需要用到哪些额外的Hadoop组件。

例如,从软件上看,Hadoop组件虽多,但让其运行起来却只需少数组件构成的组件集合即可。这些组件有:用于数据管理的HDFSHBase,作为任务处理框架的MapReduceOOZIE,用以提高开发人员开发效率的开发框架PigHive,以及用于BI的开源项目Pentaho。从硬件的角度看,一个测试项目并不需要大量设备。硬件需求可以简单到仅仅两台拥有多核CPU、至少24 GB内存、十几个TB硬盘的服务器即可。事实证明,这样的硬件配置对于一个测试项目的运行而言,已然足够。

需要对数据管理者在观念上打个“预防针”:有效管理和使用Hadoop不能离开专业知识和经验。若真缺乏,信息技术管理部门则应该考虑与服务提供商进行合作,他们可对Hadoop项目提供鼎力支持。此外,这些专业知识对于安全而言,尤为重要。由于HadoopHDFSHBase中默认集成的安全性组件数量极少,所以为了防止数据遭到破坏或窃取,企业仍然需要对数据进行安全保护。

在全面评估之后,企业应该组建一个内部Hadoop项目来对大数据分析的能力进行初步测试。如果初测结果理想,企业还希望更加深入地了解大数据分析,那么已有大量现成的商业和(或)托管解决方案可供选择。



① 点击流(Click Stream),即指记录用户在Web服务器上的浏览历史。通过分析用户造访页面的历史数据,可以发现用户访问网站的路径、瓶颈、热点连接等,并根据这些数据对系统功能进行相应调整。因此,点击流有时也被称为用户访问路径分析。——译者注

 ACORD Transactional/Business Wrapper (TXLife) XML 规范日渐成为寿险、养老金和健康保险行业内用于内部和外部数据集成的首选数据格式。——译者注

 HL 7Health Level Severn),健康信息交换第七层协议。HL 7标准是医疗领域不同应用系统之间电子数据传输的协议,主要目的是要发展各型医疗信息系统间,如临床、检验、保险、管理及行政等各项电子资料交换的标准;主要应用在医疗保健领域,特别是在住院患者急需的医护设施领域内进行及时的电子数据交换。——译者注

 HBase(Hadoop Database)是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HDFS作为其文件存储系统。——译者注

阅读(7258) | 评论(0) | 转发(2) |
给主人留下些什么吧!~~