如何解决spark中的数据分布不均衡的问题(data skew)

沈岩shenyan.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

shenyanxxxy

博客访问： 1931417
博文数量： 211
博客积分： 464
博客等级：下士
技术积分： 3794
用户组：普通用户
注册时间： 2011-01-24 18:25

个人简介

阿弥陀佛

文章分类

全部博文（211）

机器学习（2）
Go语言学习（1）
设计模式（3）
nginx源码阅读（3）
存储系统源码分析（2）
HTTP协议（3）
系统源码学习（6）
网页开发（1）
搜索引擎（2）
shell脚本（1）
算法（14）

堆排序（0）

堆排序（0）
内核（20）

虚拟化技术（6）
经验（47）

debug（1）

百度霸面（0）
程序设计（15）

UNIX编程（2）

面向对象Ｃ＋＋（1）
杂事（5）
感悟（46）

处理器体系结构（2）

设计（0）

面试（1）
存储技术（29）

Mysql（1）

ceph（2）

文件系统（9）

学习memcached（1）
未分配的博文（11）

文章存档

2020年（2）

2019年（3）

2018年（5）

2017年（6）

2016年（10）

2015年（9）

2014年（73）

2013年（90）

2012年（13）

我的朋友

最近访客

推荐博文

如何解决spark中的数据分布不均衡的问题(data skew)

发布时间：2020-11-01 16:45:16

那什么是spark 数据不均衡的问题呢？当某一个column 的value 出现特别多次，比如1000次以上。然后table1 与table2 join 的时候，就会导致某个分区的task 执行时间特别长。详见下图，下图就是在spark join操作的时候遇到的数据分布不均衡，导致的某个task 执行时间过长。比如，table1: itemid.........【阅读全文】

阅读(2541) | 评论(0) | 转发(0)

一个已经工作的人，为什么还是需要学好数据结构和算法？

发布时间：2020-10-31 20:43:04

汇集一些网上的答案，总结一下：2. 平时工作涉及的领域比较小，而且不会涉猎太多的数据结构和算法，底层的库都会帮你实现了，但是你不可能一辈子只是甘于做一个CRUD 数据库增删改查的程序员，需要突破自己。4. 换工作，算法是作为评价一个人的潜力的baseline。可以拉开人与人差距的一个点。因为算法.........【阅读全文】

阅读(899) | 评论(0) | 转发(0)

tensorflow 的nce-loss实现

发布时间：2019-08-16 10:10:00

先看看tensorflow的nce-loss的API：假设nce_loss之前的输入数据是K维的，一共有N个类，那么nce_l.........【阅读全文】

阅读(1414) | 评论(0) | 转发(0)

taobao图推荐算法论文学习笔记

发布时间：2019-08-15 20:44:04

找时间学习了一下论文：Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba该论文根据用户的行为在 item与item之间建立图。再根据Graph，使用random walk 算法生成sequence。总共分为三个步骤：1. 根据用户的行为在 item与item之间建立图，（需要提出一些over active user.........【阅读全文】

阅读(4161) | 评论(0) | 转发(1)

fastText 的negative sample 的理论与实践

发布时间：2019-08-11 22:56:51

为什么word2vec需要negative sampling？因为在训练word2vec的时候采用了浅层神经网络方法，对所有的vocabulary 进行 one-hot 编码，这样输出层就是一层softmax layer。而计算softmax layer，必须要将该数据与其他的vocabulary的embedding进行重算，这样非常的耗时。（因为one-hot 的维度有可能是上百万的，计算量太大）所.........【阅读全文】

阅读(4935) | 评论(0) | 转发(0)

给主人留下些什么吧！~~

shenyanxxxy2016-01-14 13:19

少林功夫好：楼主能分析一下如何修改源码，然后从内部实现每天生成一个带日期的日志么？

修改源码非一日之功，多阅读开源项目，你说的这个功能用shell + date命令就可以。

回复　　| 　举报

少林功夫好2016-01-13 15:56

楼主能分析一下如何修改源码，然后从内部实现每天生成一个带日期的日志么？

回复　　| 　举报

shenyanxxxy2015-05-20 21:25

回复　　| 　举报

留言热议

请登录后留言。

登录注册

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6