Chinaunix首页 | 论坛 | 博客
  • 博客访问: 186506
  • 博文数量: 13
  • 博客积分: 1660
  • 博客等级: 上尉
  • 技术积分: 688
  • 用 户 组: 普通用户
  • 注册时间: 2008-08-04 16:38
文章分类
文章存档

2014年(2)

2013年(11)

发布时间:2013-09-11 17:10:03

接触这块将近3个月左右,期间给自己的定位也是业务层开发。对平台级的产品没有太深入的理解和研究,所以也不能大谈特谈什么storm架构之类的了。说说业务中碰到流式计算问题吧:1.还是要介绍下简要的架构(原谅我不会画图)流式数据接入层------------------->流式数据处理层------.........【阅读全文】

阅读(15406) | 评论(0) | 转发(0)

发布时间:2013-08-27 20:37:05

之前对于推荐,一直都仅限于理论书籍,浅一点像《集体智慧编程》《推荐系统实践》,复杂的像《数据挖掘》《机器学习》,当然也没看太深入。当时对推荐系统的看法是,这是一个以算法为核心的系统,一切价值体现都在算法模型上了。不过这段时间有幸参与到真实系统,稍有改观。下最近的一些想法吧,当然作为一个系统开发人.........【阅读全文】

阅读(7290) | 评论(2) | 转发(2)

发布时间:2013-04-07 18:39:33

最近要用提供上十亿的数据查询,目前主流的几种NoSQL并不能拿来就用。找了几个相关的db考察了一番,记录一下。业务需求:1.key-value数据结构,随机读,低延时。2.数据量大(10亿+),机器紧张。3.一次性写(一天一次),多次读。4.支持主要的协议,高可用,易扩展。入选:一,redis优点:纯内存,读取性能很好,.........【阅读全文】

阅读(8798) | 评论(0) | 转发(0)

发布时间:2013-02-05 14:06:59

这是一次概念的纠结过程,对写代码没有太大意义。过程是这样的:首先,我的概念里往往只有同步和异步,没有太多去区别同异步IO和同异步通知两种。另外还记得apu(2rd)中有一句“select和poll可以实现异步形式的通知”。接着,听到了epoll是同步IO这个概念,比较意外。坚持.........【阅读全文】

阅读(17767) | 评论(5) | 转发(1)

发布时间:2013-01-14 22:03:18

1.爬虫,广度优先遍历问题:a数据量大的时候,如何快速判断是否已经读取过b分布式爬虫怎么并发c递归树里某一层的量太大了,放在哪里,数据库里?2.大型的搜索引擎会建立倒排索引,本例中木有。word1-->doc1--->doc4--->doc5--->doc8……word2-->doc2--->doc3--->doc4--->doc6…….........【阅读全文】

阅读(2423) | 评论(0) | 转发(0)
给主人留下些什么吧!~~

noiplee2012-01-16 16:11

bluecase: 我blog啥都没有,还有留言的?.....
有缘啊

回复  |  举报

noiplee2010-12-10 22:04

回复  |  举报
留言热议
请登录后留言。

登录 注册