效字当先,以质为本。测试开发入行十余年,辉煌过,迷茫过,持续探寻人生的激情和前进的步伐!好好生活,认真工作!
发布时间:2017-11-27 18:30:31
最近有个需求,就是对视频日志中的部分URL提取出来,并随机挑选五条。由于线上日志比较大,而且需要每天执行一次,如果单纯的用python即便是多线程性能也会大大折扣。于是考虑到用hadoop的MR去实现。准备工作:1、hadoop集群;2、mapper和reducer划分;初步把提取url的操作划分为mapper中执行,随机挑选5条由reducer去.........【阅读全文】