taobao图推荐算法论文学习笔记-shenyanxxxy-ChinaUnix博客

沈岩shenyan.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

shenyanxxxy

博客访问： 1930269
博文数量： 211
博客积分： 464
博客等级：下士
技术积分： 3794
用户组：普通用户
注册时间： 2011-01-24 18:25

个人简介

阿弥陀佛

文章分类

全部博文（211）

机器学习（2）
Go语言学习（1）
设计模式（3）
nginx源码阅读（3）
存储系统源码分析（2）
HTTP协议（3）
系统源码学习（6）
网页开发（1）
搜索引擎（2）
shell脚本（1）
算法（14）

堆排序（0）

堆排序（0）
内核（20）

虚拟化技术（6）
经验（47）

debug（1）

百度霸面（0）
程序设计（15）

UNIX编程（2）

面向对象Ｃ＋＋（1）
杂事（5）
感悟（46）

处理器体系结构（2）

设计（0）

面试（1）
存储技术（29）

Mysql（1）

ceph（2）

文件系统（9）

学习memcached（1）
未分配的博文（11）

文章存档

2020年（2）

2019年（3）

2018年（5）

2017年（6）

2016年（10）

2015年（9）

2014年（73）

2013年（90）

2012年（13）

我的朋友

相关博文

taobao图推荐算法论文学习笔记

分类：大数据

2019-08-15 20:44:04

	找时间学习了一下论文：Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba

	该论文根据用户的行为在 item与item之间建立图。再根据Graph，使用random walk 算法生成sequence。

	总共分为三个步骤：

	1. 根据用户的行为在 item与item之间建立图，（需要提出一些over active user）

	2. 使用random walk 算法生成sequence。

	3. 利用word2vec学习每个item（node）的embedding（Baseline 版本）。

	冷启动问题（cold start issue）

	baseline的版本不能够解决cold start的问题。

	为了解决cold start 问题，基于这个baseline版本，论文把其他的feature也放入到神经网络当中。

	解决方案1：

	SI 0 to n 都采用one-hot编码，然后每个SI（side information）都训练出一个embedding系列。

	最后将所有的embedding做average sum。Hv为混合后的向量，再放入到神经网络中做训练。利用反向反馈训练参数。

	解决方案2：

	在解决方案1的基础上，每个feature的embedding计算出一个weight，但是本文中采用的矩阵A的size是（|V|*n）的，也就是每一个node都会有n个weight。计算量比较大，本文说用了100个GPU计算出来的。大厂真是有钱。这样weight sum 层之后，最后这个item的embedding变成了下面这个形式。

	解决方案3：

	应该将title的信息作为feature，放入embedding当中，个人觉得，这个做法可以参考CENE 那篇论文。

	negative Sample training

	negative sampling 采用word2vec的sample 方法。可以找batch里面与本node无关的点作为negative 数据。

	φ是节点与embedding的映射函数。

	实验部分的参数：1. skipgram 的context window=5，dimension=160，number of walks per node=20， length of random walk=10

	应用：

	这个淘宝的推荐系统是在ranking 之前挑选出candidates，并在Ranking系统中做排序，这个部分比较耗时，可以采用LSH来建索引，方便查找。

	文章最后使用CTR来评估结果，CF对应base，CF是协同过滤算法。BGE是本文实现的第一个版本（baseline版本）。

阅读(4158) | 评论(0) | 转发(1) |

上一篇：fastText 的negative sample 的理论与实践

下一篇：tensorflow 的nce-loss实现

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6