沈岩shenyan.blog.chinaunix.net
shenyanxxxy
阿弥陀佛
全部博文(211)
堆排序(0)
虚拟化技术(6)
debug(1)
百度霸面(0)
UNIX编程(2)
面向对象C++(1)
处理器体系结构(2)
设计(0)
面试(1)
Mysql(1)
ceph(2)
文件系统(9)
学习memcached(1)
2020年(2)
2019年(3)
2018年(5)
2017年(6)
2016年(10)
2015年(9)
2014年(73)
2013年(90)
2012年(13)
镇水铁牛
hotcss
cengku
9768p1
shanck
scq2099y
brucexia
MagicBoy
zyd_cu
trump200
17208635
liaozhen
webinweb
格伯纳
stolennn
jacks888
wsqrjs98
hxl
发布时间:2020-11-01 16:45:16
那什么是spark 数据不均衡的问题呢?当某一个column 的value 出现特别多次,比如1000次以上。然后table1 与table2 join 的时候,就会导致某个分区的task 执行时间特别长。详见下图,下图就是在spark join操作的时候遇到的数据分布不均衡,导致的某个task 执行时间过长。比如,table1: itemid.........【阅读全文】
shenyanxxxy2016-01-14 13:19
少林功夫好:楼主能分析一下如何修改源码,然后从内部实现每天生成一个带日期的日志么?
修改源码非一日之功,多阅读开源项目,你说的这个功能用shell + date命令就可以。
少林功夫好2016-01-13 15:56
楼主能分析一下如何修改源码,然后从内部实现每天生成一个带日期的日志么?
shenyanxxxy2015-05-20 21:25
登录 注册