阿弥陀佛
发布时间:2020-11-01 16:45:16
那什么是spark 数据不均衡的问题呢?当某一个column 的value 出现特别多次,比如1000次以上。然后table1 与table2 join 的时候,就会导致某个分区的task 执行时间特别长。详见下图,下图就是在spark join操作的时候遇到的数据分布不均衡,导致的某个task 执行时间过长。比如,table1: itemid.........【阅读全文】
发布时间:2014-12-20 11:41:51
看了一下 The rsync algorithm这个算法,知道了远程同步两个文件的原理。问题:A电脑上有文件a,B电脑上有文件b,当b文件被修改的时候,如何快速的将数据同步到a文件中。核心步骤分三步:1. 计算分片哈希2. 比对两个文件的分片哈希3. 通过数据压缩算法传修改过的数据。将数据分成块,然后分别计算出一个32bit的che.........【阅读全文】
发布时间:2014-12-07 16:39:02
对于ax+b这种情形,线性回归函数,例如最小二乘法是可以解决这些问题的,但是对于多维变量函数f(x,y)而言,就无法很好的解决了。为了能够得到多维变量的回归函数,h(x)表示的是房屋的价格,根据输入的变量所产生的输出,我们采用如下方式组织各个影响因素。但是各个xn前面的参数是无法确定的,因此可以采用梯度下降的方法.........【阅读全文】