Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1899137
  • 博文数量: 211
  • 博客积分: 464
  • 博客等级: 下士
  • 技术积分: 3794
  • 用 户 组: 普通用户
  • 注册时间: 2011-01-24 18:25
个人简介

阿弥陀佛

文章分类

全部博文(211)

文章存档

2020年(2)

2019年(3)

2018年(5)

2017年(6)

2016年(10)

2015年(9)

2014年(73)

2013年(90)

2012年(13)

发布时间:2020-11-01 16:45:16

那什么是spark 数据不均衡的问题呢?当某一个column 的value 出现特别多次,比如1000次以上。然后table1 与table2 join 的时候,就会导致某个分区的task 执行时间特别长。详见下图,下图就是在spark join操作的时候遇到的数据分布不均衡,导致的某个task 执行时间过长。比如,table1: itemid.........【阅读全文】

阅读(2301) | 评论(0) | 转发(0)

发布时间:2020-10-31 20:43:04

汇集一些网上的答案,总结一下:2.  平时工作涉及的领域比较小,而且不会涉猎太多的数据结构和算法,底层的库都会帮你实现了,但是你不可能一辈子只是甘于做一个CRUD 数据库增删改查的程序员,需要突破自己。4.  换工作,算法是作为评价一个人的潜力的baseline。可以拉开人与人差距的一个点。因为算法.........【阅读全文】

阅读(807) | 评论(0) | 转发(0)

发布时间:2019-08-16 10:10:00

先看看tensorflow的nce-loss的API:假设nce_loss之前的输入数据是K维的,一共有N个类,那么nce_l.........【阅读全文】

阅读(1344) | 评论(0) | 转发(0)

发布时间:2019-08-15 20:44:04

找时间学习了一下论文:Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba该论文根据用户的行为在 item与item之间建立图。再根据Graph,使用random walk 算法生成sequence。总共分为三个步骤:1. 根据用户的行为在 item与item之间建立图,(需要提出一些over active user.........【阅读全文】

阅读(4052) | 评论(0) | 转发(1)

发布时间:2019-08-11 22:56:51

为什么word2vec需要negative sampling?因为在训练word2vec的时候采用了浅层神经网络方法,对所有的vocabulary 进行 one-hot 编码,这样输出层就是一层softmax layer。而计算softmax layer,必须要将该数据与其他的vocabulary的embedding进行重算,这样非常的耗时。(因为one-hot 的维度有可能是上百万的,计算量太大)所.........【阅读全文】

阅读(4858) | 评论(0) | 转发(0)
给主人留下些什么吧!~~

shenyanxxxy2016-01-14 13:19

少林功夫好:楼主能分析一下如何修改源码,然后从内部实现每天生成一个带日期的日志么?

修改源码非一日之功,多阅读开源项目,你说的这个功能用shell + date命令就可以。

回复  |  举报

少林功夫好2016-01-13 15:56

楼主能分析一下如何修改源码,然后从内部实现每天生成一个带日期的日志么?

回复  |  举报

shenyanxxxy2015-05-20 21:25

回复  |  举报
留言热议
请登录后留言。

登录 注册