hadoop不同路径相同文件名不覆盖-enenshiwo-ChinaUnix博客

韩轶明

首页　| 　博文目录　| 　关于我

enenshiwo

博客访问： 274139
博文数量： 84
博客积分： 0
博客等级：民兵
技术积分： 927
用户组：普通用户
注册时间： 2015-03-06 23:00

个人简介

growing

文章分类

全部博文（84）

网络编程（3）
Python（4）
STL（1）
数据库（4）
设计模式（2）
html（3）
Linux（20）
数据结构与算法（28）
C/C++（12）
git（4）
空想家（3）
未分配的博文（0）

文章存档

2017年（6）

2016年（61）

2015年（17）

我的朋友

相关博文

hadoop不同路径相同文件名不覆盖

分类： HADOOP

2016-11-10 22:37:31

hadoop上下拉不同目录里的日志文件（日志名字相同），机器太多，是用*匹配的，因为日志名字相同，导致覆盖最后只有一份，想把日志全部拉下来不覆盖怎么拉？

日志太多了，最后是用“hadoop fs -getmerge 目录目标文件”合并到一个文件里拉下来的，这样就不会覆盖了，但是好慢。。。而且看不了运行的过程，干等。

其实不用拉日志是要去集群上跑，这样可以分片执行，但是因为提前不知道要去集群上，写的也不是map和reduce的格式，而且在中间要用接口获取数据，总之很麻烦的要生成中间文件，不能用map,reduce

有时间要好好学学hadoop

阅读(2176) | 评论(0) | 转发(0) |

上一篇：git clone失败提示CApath:none

下一篇：effective c++ 重读笔记。

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6