Chinaunix首页 | 论坛 | 博客
  • 博客访问: 256831
  • 博文数量: 84
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 927
  • 用 户 组: 普通用户
  • 注册时间: 2015-03-06 23:00
个人简介

growing

文章分类

全部博文(84)

文章存档

2017年(6)

2016年(61)

2015年(17)

我的朋友

分类: HADOOP

2016-11-10 22:37:31

hadoop上下拉不同目录里的日志文件(日志名字相同),机器太多,是用*匹配的,因为日志名字相同,导致覆盖最后只有一份,想把日志全部拉下来不覆盖怎么拉?

日志太多了,最后是用“hadoop fs -getmerge  目录 目标文件”合并到一个文件里拉下来的,这样就不会覆盖了,但是好慢。。。而且看不了运行的过程,干等。

其实不用拉日志是要去集群上跑,这样可以分片执行,但是因为提前不知道要去集群上,写的也不是map和reduce的格式,而且在中间要用接口获取数据,总之很麻烦的要生成中间文件,不能用map,reduce

有时间要好好学学hadoop
阅读(2020) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~