流式数据处理的计算模型_bluecase-ChinaUnix博客

生活在别处xiangyu.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

bluecase

博客访问： 188281
博文数量： 13
博客积分： 1660
博客等级：上尉
技术积分： 688
用户组：普通用户
注册时间： 2008-08-04 16:38

文章分类

全部博文（13）

思考，快与慢（0）
互联网（1）
数据分析（8）
C++（0）
Linux内核相关（0）
python相关（0）
Linux系统（2）
数据库相关（2）
未分配的博文（0）

文章存档

2014年（2）

2013年（11）

我的朋友

最近访客

推荐博文

流式数据处理的计算模型

发布时间：2013-09-11 17:10:03

接触这块将近3个月左右，期间给自己的定位也是业务层开发。对平台级的产品没有太深入的理解和研究，所以也不能大谈特谈什么storm架构之类的了。说说业务中碰到流式计算问题吧：1.还是要介绍下简要的架构(原谅我不会画图)流式数据接入层------------------->流式数据处理层------.........【阅读全文】

阅读(15478) | 评论(0) | 转发(0)

推荐系统实践小结

发布时间：2013-08-27 20:37:05

之前对于推荐，一直都仅限于理论书籍，浅一点像《集体智慧编程》《推荐系统实践》，复杂的像《数据挖掘》《机器学习》，当然也没看太深入。当时对推荐系统的看法是，这是一个以算法为核心的系统，一切价值体现都在算法模型上了。不过这段时间有幸参与到真实系统，稍有改观。下最近的一些想法吧，当然作为一个系统开发人.........【阅读全文】

阅读(7386) | 评论(2) | 转发(2)

集体智慧之搜索

发布时间：2013-01-14 22:03:18

1.爬虫，广度优先遍历问题：a数据量大的时候，如何快速判断是否已经读取过b分布式爬虫怎么并发c递归树里某一层的量太大了，放在哪里，数据库里？2.大型的搜索引擎会建立倒排索引，本例中木有。word1-->doc1--->doc4--->doc5--->doc8……word2-->doc2--->doc3--->doc4--->doc6…….........【阅读全文】

阅读(2452) | 评论(0) | 转发(0)

集体智慧之聚类

发布时间：2013-01-13 15:41:48

1.是无监督学习(不需要预先学习)中的一种 unsupervised learning。还有负矩阵因式分解和自组织映射也是。2.对博客来进行聚类，步骤如下： word1word2word3word4word5word6word7blog1 2 1 3 5 0 1 3blog2 count blog3 3.层级聚类法a.对博客的单词统计 dict= {key......【阅读全文】

阅读(2004) | 评论(0) | 转发(0)

集体智慧之协同过滤

发布时间：2013-01-13 15:20:15

1.协同过滤的主要部分是相似度的计算，直接抽象成物品间距离的计算比较方便理解和计算。方法有很多，比如我们都学过的欧几里得，相关性系数，具体公式就不细讲了。真实的推荐系统的计算方式就复杂了，做系统的时候再深入了解好了。 ps：相关性系数可以修正用户标准不一致问题。比如有人打分苛刻，有人打分偏高导致推荐不一致的问题。2.存储方式：这里是一个全矩阵。用双层dict保存。稀疏矩阵：基于物品的存储空间要远基于用户密集矩阵：存储空间差不多如下图是个用户和物品的分数表，中间是分值。比如user3对item3的打分是3. item1item2item3item4item5......【阅读全文】

阅读(2173) | 评论(0) | 转发(0)

给主人留下些什么吧！~~

noiplee2012-01-16 16:11

bluecase: 我blog啥都没有，还有留言的？.....

有缘啊

回复　　| 　举报

noiplee2010-12-10 22:04

回复　　| 　举报

留言热议

请登录后留言。

登录注册

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6