hadoop上下拉不同目录里的日志文件(日志名字相同),机器太多,是用*匹配的,因为日志名字相同,导致覆盖最后只有一份,想把日志全部拉下来不覆盖怎么拉?
日志太多了,最后是用“hadoop fs -getmerge 目录 目标文件”合并到一个文件里拉下来的,这样就不会覆盖了,但是好慢。。。而且看不了运行的过程,干等。
其实不用拉日志是要去集群上跑,这样可以分片执行,但是因为提前不知道要去集群上,写的也不是map和reduce的格式,而且在中间要用接口获取数据,总之很麻烦的要生成中间文件,不能用map,reduce
有时间要好好学学hadoop
阅读(2143) | 评论(0) | 转发(0) |