Chinaunix首页 | 论坛 | 博客
  • 博客访问: 8388
  • 博文数量: 11
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 65
  • 用 户 组: 普通用户
  • 注册时间: 2014-08-05 11:09
文章分类
文章存档

2017年(2)

2016年(2)

2015年(3)

2014年(4)

我的朋友

分类: IT业界

2014-08-05 11:19:58

不过虽然说Hadoop是处理巨量资料的利器,但是在查询数据与展示数据上来说,若是也得让查询者撰写MapReduce语法,未免也显得太过麻烦。为了解决这样的问题,也因此Hive技术于焉诞生,他让前端使用者可以透过接近SQL的语法查询,但是透过编译转换为MapReduce的操作以查询hdfs档案系统。但是使用Hive上仍旧有许多语法以及功能的限制,所以在今天的文章中,我们将介绍如何透过Power Query存取Hadoop中的数据直接进行分析瑪姬美容集團呃錢
 
在此使用的是微软云端的Hadoop解决方案HDInsight,HDInsight是微软与Hortonworks合作,将原有Apache Hadoop移植到Windows平台。同时微软透过云端虚拟机器技术,让Hadoop使用者无须花时间在繁复的丛集架设与导入的过程中,可以在云端环境中单纯的透过几步设定就完成Hadoop丛集的建置。

以下我们将会示范如何建构Microsoft Azure HDInsight丛集,并且将资料载入HDInsight之中,并且透过Power Query存取HDInsight的资料并且进行分析。
 
首先在设定HDInsight之前,您必须要有Microsoft Azure帐户。您只需要点选下方「+新增」按钮,选取「Data Service」—>「HDInsight」—>「Hadoop」,即可开启建立HDInsight丛集选项,您必须于介面输入:
丛集名称:您的HDInsight丛集识别名称,请全部小写膠原自生
丛集大小:设定您所需要的资料节点数
密码:设定HDInsight密码,必须要10个字元以上,而且要至少有一个大写、一个小写、一个数字以及一个特殊符号
储存体帐户:储存此HDInsight丛集资料的储存体帐户。建议不要与其他用途共用。由于HDInsight的储存体帐户有限制地区,所以须注意可使用的地区选项。目前离我们最近的是东南亚。
 
 
在按下「建立HDInsight丛集」之前还是要提醒各位,HDInsight不是免费服务,它是根据丛集节点「存在」的时间来收费,也就是你建立后即使你关机跑去睡个觉的期间,它还是一直在收费的,计费周期一直到你将整个HDInsight丛集删除为止。所以请务必记得收费模式,在练习时也要量力而为免得收到帐单时傻眼。
阅读(298) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~