全部博文(2759)
发布时间:2013-09-18 00:38:29
Hive是目前应用最多最广的SQL on Hadoop工具,近期很多专业的大数据公司推出了很多新的,基于列式或者内存热数据的SQL工具,像Impala,Tez,Spark等等,但是Hive仍然是目前使用率最高和普及面最广的SQL on Hadoop的工具。在以前淘宝罗李的报告中,淘宝90%的业务跑在Hive上面。暴风影音的比例更高一些,大概95%以上都是跑在Hive上面。尽管很多人对Hive有看法,效率低,查询慢,bug多。但是并不可否认hive是一个开创性的工具,提供了更多的想象空间。而且,在生产集群上的数据查询程序的开发效率,Hive要远远高于自己写MR。......【阅读全文】
发布时间:2013-09-11 12:08:11
hadoop hbase job task datanode master Performance 性能......【阅读全文】
发布时间:2013-08-27 03:40:28
1.需要在eclipse中将hadoop集群的几个xml配置文件放置到一个文件夹中例如:在项目中新建个conf目录放置:core-site.xml、 hdfs-site.xml、 mapred-site.xml、 hbase-site.xml2.需要将需要的jar包导入项目:Build Path->Add external Archives,选择需要的jar包:3.如果项目运行需要制定其他文件作为一些配置信息传入,.........【阅读全文】