在TSE中,对访问过的URL,未访问过的URL和获得的网页内容分别作MD5摘要(算法可以参看RFC1321)[RFCs,2004],获得其唯一标识,建立3个集合。新解析出的URL,首先根据已经访问过的URL的MD5集合判断是否已经抓取过,如果没有则放入未访问URL库,否则放弃;查找的时候可以做到O(1)的时间复杂度。
有一千万条短信,有重复,以文本文件的形式保存,一行一条,有重复。请用5分钟时间,找出重复出现最多的前10条。
收藏了1万条url,现在给你一条url,如何找出相似的url。(面试官不解释何为相似
阅读(866) | 评论(0) | 转发(0) |