hadoop streaming-jiangwen127-ChinaUnix博客

EricLiseo2register.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

jiangwen127

博客访问： 2498191
博文数量： 392
博客积分： 7040
博客等级：少将
技术积分： 4138
用户组：普通用户
注册时间： 2009-06-17 13:03

个人简介

范德萨发而为

文章分类

全部博文（392）

nosql（1）
c/c++（7）
machine lea（67）
设计模式（1）
web架构（35）
关系型database（23）
distributed（11）
fuckingwindows（1）
SE（24）
life（9）
berkeleyDB（4）
beauty of math（3）
Java_study（11）
algorithm（77）
kernel（16）
hadoop（13）
programming（8）
network（9）
linux operation（14）
bash（12）
reading（5）
STL using（8）
intern（0）
job_hunter（29）
未分配的博文（4）

文章存档

2017年（5）

2016年（19）

2015年（34）

2014年（14）

2013年（47）

2012年（40）

2011年（51）

2010年（137）

2009年（45）

我的朋友

性能？

据网上某人做的测试，Hadoop streaming比用Java写的程序慢30%左右(具体连接忘了)，当然这个数字不是绝对的，我也没有做过相关测试，但是还是能局部的反应出其性能状况

使用?

请看这里、
相关blog和文章还是比较多的，但是文章内容都差不多，下面写下个人使用后的观点，关于其中提到的问题，很可能是由于没有找到合理的解决方法，希望看过文章的朋友能提出

优势：

简单快速：使用Linux的标准输入输出，因此可以使用c/c++/python及各种Linux自带的命令。只需要了解基本的MapReduce过程即可使用(Map数据拆分、Reduce归并)

缺点：

无法控制数据类型:由于使用stdin和stdout，无法向后台MapReduce框架提供数据类型(个人推断所有的数据都作为字符串来处理的，这样在需要处理int等数据时会出现一些问题，比如排序)。
可选功能：streaming使用参数来配置各种选项，这样如果有的功能没有提供的话，该如何实现呢？比如我遇到需要对Int数据排序的问题，排序函数如何指定。目前尚没有找到答案

hadoop streaming适用于简单的MapReduce计算，当涉及到较复杂的需求时，个人认为还是使用Java会更加灵活。并且streaming方面的资料比较少。

阅读(2247) | 评论(0) | 转发(0) |

上一篇：26进制转换 boj1237

下一篇：berkeleyDB secondary DB associate

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6