Chinaunix首页 | 论坛 | 博客
  • 博客访问: 186501
  • 博文数量: 13
  • 博客积分: 1660
  • 博客等级: 上尉
  • 技术积分: 688
  • 用 户 组: 普通用户
  • 注册时间: 2008-08-04 16:38
文章分类
文章存档

2014年(2)

2013年(11)

发布时间:2013-02-05 14:06:59

这是一次概念的纠结过程,对写代码没有太大意义。过程是这样的:首先,我的概念里往往只有同步和异步,没有太多去区别同异步IO和同异步通知两种。另外还记得apu(2rd)中有一句“select和poll可以实现异步形式的通知”。接着,听到了epoll是同步IO这个概念,比较意外。坚持.........【阅读全文】

阅读(17767) | 评论(5) | 转发(1)

发布时间:2013-01-14 22:03:18

1.爬虫,广度优先遍历问题:a数据量大的时候,如何快速判断是否已经读取过b分布式爬虫怎么并发c递归树里某一层的量太大了,放在哪里,数据库里?2.大型的搜索引擎会建立倒排索引,本例中木有。word1-->doc1--->doc4--->doc5--->doc8……word2-->doc2--->doc3--->doc4--->doc6…….........【阅读全文】

阅读(2423) | 评论(0) | 转发(0)

发布时间:2013-01-13 15:41:48

1.是无监督学习(不需要预先学习)中的一种  unsupervised learning。还有负矩阵因式分解和自组织映射也是。2.对博客来进行聚类,步骤如下: word1word2word3word4word5word6word7blog1 2 1 3 5 0 1 3blog2   count   blog3       3.层级聚类法a.对博客的单词统计 dict= {key......【阅读全文】

阅读(1974) | 评论(0) | 转发(0)

发布时间:2013-01-13 15:20:15

1.协同过滤的主要部分是相似度的计算,直接抽象成物品间距离的计算比较方便理解和计算。  方法有很多,比如我们都学过的欧几里得,相关性系数,具体公式就不细讲了。真实的推荐系统的计算方式就复杂了,做系统的时候再深入了解好了。  ps:相关性系数可以修正用户标准不一致问题。比如有人打分苛刻,有人打分偏高导致推荐不一致的问题。2.存储方式:这里是一个全矩阵。用双层dict保存。稀疏矩阵:基于物品的存储空间要远基于用户密集矩阵:存储空间差不多如下图是个用户和物品的分数表,中间是分值。 比如user3对item3的打分是3. item1item2item3item4item5......【阅读全文】

阅读(2128) | 评论(0) | 转发(0)

发布时间:2013-01-13 13:41:20

好久前的笔记,翻出来整理了下,顺便mark之。一,史前时代之基于人口统计的推荐    顾名思义,就是针对用户的年龄,性别,地域等基本属性来推荐物品,会对这些基本属性属于一个分类的用户推荐一类物品。    它的优点是可以解决冷启动的问题,缺点是比较粗造。    例子: 第一次进入亚马逊,当当,推荐你本年度中国最受欢迎的热门书籍。    一点自己的看法:    1,推荐本质上是从数据中获取信息,信息就是用来消除不确定性的,这里可以避免冷启动不是由于他不需要数据,而是选择了直接利用了现实生活中信息,这......【阅读全文】

阅读(2173) | 评论(0) | 转发(0)
给主人留下些什么吧!~~

noiplee2012-01-16 16:11

bluecase: 我blog啥都没有,还有留言的?.....
有缘啊

回复  |  举报

noiplee2010-12-10 22:04

回复  |  举报
留言热议
请登录后留言。

登录 注册