发布时间:2013-09-11 17:10:03
接触这块将近3个月左右,期间给自己的定位也是业务层开发。对平台级的产品没有太深入的理解和研究,所以也不能大谈特谈什么storm架构之类的了。说说业务中碰到流式计算问题吧:1.还是要介绍下简要的架构(原谅我不会画图)流式数据接入层------------------->流式数据处理层------.........【阅读全文】
发布时间:2013-01-13 15:20:15
1.协同过滤的主要部分是相似度的计算,直接抽象成物品间距离的计算比较方便理解和计算。 方法有很多,比如我们都学过的欧几里得,相关性系数,具体公式就不细讲了。真实的推荐系统的计算方式就复杂了,做系统的时候再深入了解好了。 ps:相关性系数可以修正用户标准不一致问题。比如有人打分苛刻,有人打分偏高导致推荐不一致的问题。2.存储方式:这里是一个全矩阵。用双层dict保存。稀疏矩阵:基于物品的存储空间要远基于用户密集矩阵:存储空间差不多如下图是个用户和物品的分数表,中间是分值。 比如user3对item3的打分是3. item1item2item3item4item5......【阅读全文】