阿弥陀佛
发布时间:2020-11-01 16:45:16
那什么是spark 数据不均衡的问题呢?当某一个column 的value 出现特别多次,比如1000次以上。然后table1 与table2 join 的时候,就会导致某个分区的task 执行时间特别长。详见下图,下图就是在spark join操作的时候遇到的数据分布不均衡,导致的某个task 执行时间过长。比如,table1: itemid.........【阅读全文】
发布时间:2020-10-31 20:43:04
汇集一些网上的答案,总结一下:2. 平时工作涉及的领域比较小,而且不会涉猎太多的数据结构和算法,底层的库都会帮你实现了,但是你不可能一辈子只是甘于做一个CRUD 数据库增删改查的程序员,需要突破自己。4. 换工作,算法是作为评价一个人的潜力的baseline。可以拉开人与人差距的一个点。因为算法.........【阅读全文】