Chinaunix首页 | 论坛 | 博客
  • 博客访问: 186842
  • 博文数量: 13
  • 博客积分: 1660
  • 博客等级: 上尉
  • 技术积分: 688
  • 用 户 组: 普通用户
  • 注册时间: 2008-08-04 16:38
文章分类
文章存档

2014年(2)

2013年(11)

分类: 云计算

2013-01-13 13:41:20

好久前的笔记,翻出来整理了下,顺便mark之。

一,史前时代之基于人口统计的推荐
    顾名思义,就是针对用户的年龄,性别,地域等基本属性来推荐物品,会对这些基本属性属于一个分类的用户推荐一类物品。
    它的优点是可以解决冷启动的问题,缺点是比较粗造。
    例子: 第一次进入亚马逊,当当,推荐你本年度中国最受欢迎的热门书籍。

    一点自己的看法:
    1,推荐本质上是从数据中获取信息,信息就是用来消除不确定性的,这里可以避免冷启动不是由于他不需要数据,而是选择了直接利用了现实生活中信息,这些信息其实是历史学家,心理学家,特别是统计工作者的功劳。
    2,粗造的原因同上,这些家们要整理出通用的规律,必然要丢弃掉很多信息。学过压缩,加密的就会清楚,这种必然还不了原的。尤其是当这些统计属性如果不包含你要推荐商品的信息时,比如音乐,电影,还原出来的熵就接近于0。

二,奴隶时代之基于内容的推荐
    我们推荐什么物品,这些物品的属性也是包含了很多的可利用的信息。比如摇滚音乐,摇滚本质是对生活态度的一种反应。我们就可以根据结合这些来对不同的人群来推荐。
    它的优点是可以更加精确。缺点是对物品的认识各有不同,需要专家来对物品建模,打标签。
    例子:在房地产页面上推汽车广告。还有很多公司这样跟人打tag:年纪25以上,经常投资经济论坛定义为优质客户。
 
    一点自己的看法:
    1,要推荐物品,还是需要仔细分析物品的。但缺点是直接从物品出发,没有以人为本。这样的分类结合第一种的话可以更准确。
    2,从这里可以看出两种不同的角度,比如从人出发,比如从物出发。可以看到之后的推荐系统发展,依旧还是从这个角度出发,比如协同过滤中的基于用户推荐,和基于物品推荐两种。

------------------------------------------------华丽的分割线----------------------------------------------------

三,封建时代之基于用户的协同过滤
    其原理是根据用户对物品偏好,发现和当前用户口味相近的用户群。比如K-邻居算法。
    例子:这个最好举例了,因为自己平常的上的豆瓣FM就是这样(豆瓣应该是多种算法结合,不过这么举例也无妨了)。
   
    一点自己的看法:
    1,前几天和同事交流时,发现对基于人口统计的推荐究竟是不是协同过滤还迷惑了下。因为这里也是对人进行了分类,年龄性别地理一样的就是一个用户群啊。后来仔细想了想,觉得这个地方最本质的区别就是这分类的来源了。
    协同过滤的分类应该是未知的,当我们拿到一堆用户和行为数据,我们不知道有会分出一个什么类来,这个类究竟是什么,说不定还可以分出一个神经质用户群的类来。

四,封建时代之基于物品的协同过滤
    这里和前面原理一样,将角度切换到了物品。根据你的历史喜好来推荐。
    例子:你的历史只看IMDB100的电影,那就推荐打分高的电影了。

    一点自己的看法:
    1,基于物品,就是物以类聚,基于人就是人与群分。利用的都是相似度的计算。如果从技术上来讲,只是分类的对象不一样,矩阵里计算的对象不一样。
    2,怎么计算物品相似度?打分系统,like,+1等是不是都精确度不高。
    2,其实推荐不必那么准确。太准确了,基于物品的推荐让你跳不出你自己的历史。基于用户的推荐让你走不出自己的圈子。
     
五,现代社会之基于模型的推荐
    简而言之就是机器学习。先根据一些样本来训练一个推荐模型,而后根据实时的用户信息来计算推荐。这个模型本身也就是动态变化的。这个推荐应该是目前最上流的方式了。
   
    这个了解不是很深。从概念上来讲是不是意味这之前推荐系统里K个分类,在这里会动态变化?一个人之前在分类1里,有过另外一些操作行为之后就会划分到新分类K+1里去?


总结:
    这里的方法各有利弊,目前互联网都有用到。毕竟一个商业系统有成本控制,哪个投入产出比好就用哪个了。另外很多推荐方法的相似度计算,分值权重都可能跟实际推荐结合紧密,往往是要在不断的实践中去修正系数,甚至变动计算公式的。
    总言之,概念归概念,现实中一切都不是死的。
阅读(2183) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~