分类: 云计算
2011-11-25 10:47:46
导读:尽管还存在安全等问题,但Hadoop已经为部署在大企业中的大型项目做好准备。Hadoop作为Apache的顶级开源项目,主要被应用于分析大数据集,现今已被包括eBay、Facebook、Yahoo、AOL和Twitter等互联网公司广泛采用。而就在上个月微软、和甲骨文也都纷纷拥抱Hadoop。
越来越多的企业已经开始摸索Hadoop技术,目的就是为处理博客、点击所带来的数据流和社交媒体所带来的数据。Hadoop可以供存储和分析的能力,以便在大数据中为客户提升业务洞察力。
大数据在企业中迅速扩张 相关人才短缺
目前相关人才短缺的问题相当严重。来自JP摩根大通公司以及eBay的IT高管们在本月于纽约举行的Hadoop全球大会都表达了同样的观点。eBay公司搜索与平台部门副总裁Hugh Williams就在大会上表示目前他们正在诚招Hadoop专业人员。而JP摩根大通公司总经理Larry Feinsmith则半开玩笑的表示,他们不仅愿意聘用合格的专业人士,还会提供比eBay高出10%的优厚待遇。
Larry Feinsmith表示现今JP摩根大通仍然严重的依赖传统的关系数据库系统进行事务处理。但随着越来越多的欺诈检测以及IT风险管理和自我服务等,过去的系统已经不能满足现有的需求,而Hadoop技术的特性恰好能够适应当今企业的业务。
JP摩根大通现在拥有150PB在线存储的数据,30000个数据库。用户帐户记录的总金额达到350亿美元。这些数据充分说明了数据是JP摩根大通的命脉。Hadoop的优势就是适合存储海量的非结构数据,这使得企业能够有效收集和存储网络日志,以及交易数据和社交媒体的数据。Larry Feinsmith说到。
而eBay搜索和平台副总裁Hugh Williams表示eBay现在正在使用Hadoop技术和HBase数据库。以便进行实时的数据分析。同时还利用Hadoop技术为其网站构建了新的搜索引擎。据他透露eBay活跃买家和卖家超过了9700万,网站每天有接近20亿次的页面浏览量,同时带来每天2.5亿次的搜索或查询和数百亿的数据库调用。他还表示eBay现在有9PB的数据存储在Hadoop和Teradata集群之中,并且数据量还在迅速的增长。
Hadoop存在硬性标准 数据挖掘等领域人才为潜在对象
Forrester研究公司分析师James Kobielus认为在当今的企业中,Hadoop就是新一代的数据仓库,并应被看作是新的数据源。比起当今传统关系数据库管理系统,Hadoop使企业具有存储、管理海量结构化数据和非结构化数据卷的能力。
James Kobielus表示越来越多的企业对诸如Hadoop分析技术需求的增加导致Hadoop相关从业人员炙手可热。能够驾驭Hadoop的人对企业贡献极大,他们理应获取相应的薪酬。Hadoop需要从业者具备高级分析领域的相关工作经验,例如像具备使用MapReduce及R语言等新一代技术解决方案处理预测及统计建模的能力。而具备多元统计分析、数据挖掘、预测建模、自然语言处理、内容分析、文本分析及社交领域分析等领域技术背景的相关人员都是从事Hadoop的潜在对象。
Hadoop受到企业广泛关注的同时也带来了对Hadoop平台专业管理人员的硬性需求。他们的工作职责包括Hadoop集群、安全及管理,并对其进行优化以确保集群对企业的可用性。之前负责管理Teradata及Oracle Exadata的数据库管理员现在正试图向Hadoop集群管理的角色转变。他们会意识到这是一个全新的天地。同时,存储管理专业人员也是不可或缺,他们现在要做的就是帮助Hadoop环境与现有传统数据库技术相结合。
Hadoop专业人员主要分三类
Karmasphere公司总裁 Martin Hall表示目前对Hadoop专业人员的需求主要分三大类:数据分析师(又称数据科学家)、数据工程师以及IT数据管理专家。Karmasphere现主要经营项目正是为Hadoop环境开发软件产品。
Martin Hall认为,数据管理专家的职责在于选择、安装、管理、规范以及扩展大规模的Hadoop集群。这些专业人员决定了Hadoop是否应立足于云还是采取预置模式,包括供应商该如何选择以及使用那款Hadoop分布方案、集群规模以及被用于运行生产应用程序还是用于进行质量测试等。此职位应具备的技能与以往负责传统关系数据库与数据库环境类的任务颇为相似。
同时,Hadoop数据工程师还要负责创建数据处理工作以及建立分布式MapReduce算法,以便数据分析师使用。从事Java和C++等领域技能水平能力较为突出的专业人士更便于在企业大规模部署Hadoop的浪潮中得到更多的机会。
而第三类专业需求则是在SAS、SPSS以及以R语言为代表的编程语言等方面具备丰富经验的数据科学家。这些专业人士能够将建立、分析、共享以及智能整合加以集中,并存储于Hadoop环境中。
就目前来看,Hadoop领域的人才短缺意味着企业会更加依赖于服务供应商提供的部署技术。支撑这一论点的一大迹象是在专业的咨询及系统集成行业内,专攻Hadoop实际应用带来的收入要远远大于Hadoop产品销售所带来的收入。
如今Cloudera、MapR、Hortonworks以及这样的企业如今已经在提供Hadoop的相关培训课程,人们应该充分利用这些资源,通过建立Hadoop卓越中心使自己的企业获得最大收益。