Chinaunix首页 | 论坛 | 博客
  • 博客访问: 97001
  • 博文数量: 41
  • 博客积分: 2016
  • 博客等级: 大尉
  • 技术积分: 560
  • 用 户 组: 普通用户
  • 注册时间: 2008-09-30 17:40
文章分类
文章存档

2011年(7)

2010年(5)

2009年(19)

2008年(10)

我的朋友
最近访客

分类: 系统运维

2008-10-26 10:49:17

Dark Web,有多种称谓:deep Web, Deepnet, invisible Web, hidden Web,相对于surface Web,一般是指搜索引擎无法索引的万维网内容。网络上有个热帖Is the Web still the Web?代表了部分人对万维网发展方向的忧虑。下面将讨论什么使万维网变暗了,是否有方法将暗信息提取出来。



什么是Dark Web

维基百科上有个词条,说明了哪些信息是暗藏在万维网中的。

  • 动态内容(Dynamic content),是指发起一个查询请求或者提交一个HTML表单(form),在响应消息中返回的内容,有些情况下,需要在编辑框中输入领域相关的信息,搜索引擎更难处理。
  • 孤立内容(Unlinked content),指一些页面没有被任何页面链接,即没有链入页面(inlink或者backlink),这样网络爬虫程序无法发现它们。
  • 私有内容(Private Web),指一些网站需要登录才能访问,即用登录口令保护的内容。
  • 情景耦合内容(Contextual Web),指一些内容能否被访问跟实际情景相关,例如,只允许特定地址的客户端访问,只能按照某种浏览顺序访问等。
  • 访问受限内容(Limited access content),采用一些防止访问的技术手段隐藏的内容,例如,在robots.txt文件中设定的访问规则,使用CAPTCHA(验证码)或者 HTTP头中声明pragma:no-cache/cache-control:no-cache等。
  • 脚本化内容(Scripted content),例如通过Javascript程序计算出链接的实际地址指向的内容或者通过AJAX或Flash程序动态从服务器上下载的内容。
  • 非HTML/非文本内容(Non-HTML/text content),将文字内容编码到图像、视频或者特定格式的文件中,普通的搜索引擎无法访问。


万维网在变暗吗

Is the Web still the Web?作 者所担心的并不是杞人忧天,现状确实是更多的网站越来越像孤立的应用系统,本来就没有打算与别的网站共享信息。但是从另一方面讲,万维网(Web)和互联 网(internet)本来就是两码事,万维网是后来者,是Tim Berners-Lee定义的使用超文本联系起来的信息存储、检索和共享系统。万维网可以看作是互联网上的一个应用系统,这样就没有理由排斥别的应用系统 与其共存。如果这些并存的应用系统中的信息需要共享,需要采用特定的技术方法。



发掘暗信息

例如,Flash中的内容难于被普通网络爬虫提取,但是只要将网络爬虫针对Flash内容格式进行适配,问题即可解决,当前主要的几个搜索引擎都已经能够提取Flash中的内容。

当前很多界面优美的网站采用了AJAX技术,网站变成了一个胖客户端(Rich Client)应用系统,浏览器加载的HTML页面基本上是个空壳,绝大多数内容需要Javascript脚本动态产生,普通的网络爬虫几乎提取不到有价值的信息,而借助Mozilla浏览器平台技术,能够有效地提取脚本管理的内容。一文好像给人一个信号:巨头也在这样做。

阅读(934) | 评论(0) | 转发(0) |
0

上一篇:没有了

下一篇:高效的市场竞争分析工具和竞争性定价方法

给主人留下些什么吧!~~