Chinaunix首页 | 论坛 | 博客
  • 博客访问: 2794813
  • 博文数量: 471
  • 博客积分: 7081
  • 博客等级: 少将
  • 技术积分: 5369
  • 用 户 组: 普通用户
  • 注册时间: 2012-01-04 21:55
文章分类

全部博文(471)

文章存档

2014年(90)

2013年(69)

2012年(312)

分类: 系统运维

2012-07-19 14:23:21

在TSE中,对访问过的URL,未访问过的URL和获得的网页内容分别作MD5摘要(算法可以参看RFC1321)[RFCs,2004],获得其唯一标识,建立3个集合。新解析出的URL,首先根据已经访问过的URL的MD5集合判断是否已经抓取过,如果没有则放入未访问URL库,否则放弃;查找的时候可以做到O(1)的时间复杂度。



有一千万条短信,有重复,以文本文件的形式保存,一行一条,有重复。请用5分钟时间,找出重复出现最多的前10条。 
收藏了1万条url,现在给你一条url,如何找出相似的url。(面试官不解释何为相似
阅读(836) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~