Hadoop-将python代码运行在hadoop上-清无-ChinaUnix博客

清无时空【ChinaUnix】韩清无

首页　| 　博文目录　| 　关于我

清无

博客访问： 416750
博文数量： 162
博客积分： 0
博客等级：民兵
技术积分： 1501
用户组：普通用户
注册时间： 2016-10-21 19:45

文章分类

全部博文（162）

编程语言及技术相（37）

Office及VBA（2）

C/C++（2）

Android（9）

Java（1）

HTML/CSS/JavaScr（3）

NodeJS（0）

Python（19）
服务器及操作系统（52）

Linux-Common（17）

Linux-常用命令（6）

Centos（7）

Fedora（11）

Nginx（1）

计算机硬件相关（1）

网络安全及其他（0）

Windows相关（8）
机器学习及科学计（20）

Tensorflow相关（2）

机器学习相关名词（5）

Python科学计算库（2）

DeepLearning（3）

Caffe学习（1）

Hadoop（3）

数据挖掘（1）
ScienceResearch（2）

专业名词术语（2）
数据库相关（13）

Redis相关（1）

MySQL（11）
常用软件及工具相（20）

SecureCRT（1）

Office办公软件相（0）

CodeBlocks（4）

Jenkins（1）

Docker（2）

VirtualBox（2）

VI(VIM)（3）

Git（7）
其他分类（18）

个人记事（7）

BD-QA相关（10）
未分配的博文（0）

文章存档

2018年（1）

2017年（101）

2016年（60）

推荐博文

相关博文

Hadoop-将python代码运行在hadoop上

分类： HADOOP

2017-01-07 12:29:21

1.启动hadoop, start-all.sh 启动hadoop
2. copy local example data to hdfs
bin/hadoop dfs -copyFromLocal /opt/tmp /user/hduser/gutenberg
3.开始运行
bin/hadoop jar contrib/streaming/hadoop-*streaming*.jar -file /home/hduser/mapper.py -mapper /home/hduser/mapper.py -file /home/hduser/reducer.py -reducer /home/hduser/reducer.py -input /user/hduser/gutenberg/* -output /user/hduser/gutenberg-output
4. 查看输出内容
bin/hadoop dfs -cat /user/hduser/gutenberg-output/part-00000

hadoop dfs -copyFromLocal tmp ~/tmp

hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-*streaming*.jar -file ~/work/hadoop/mapper.py -mapper ~/work/hadoop/mapper.py -file ~/work/hadoop/reducer.py -reducer ~/work/hadoop/reducer.py -input ~/tmp -output ~/tmp-output

阅读(1822) | 评论(0) | 转发(0) |

上一篇：Fedora-sudoers中添加用户

下一篇：Hadoop-常用shell命令

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6