Dark Web,有多种称谓:deep Web, Deepnet, invisible Web, hidden Web,相对于surface Web,一般是指搜索引擎无法索引的万维网内容。网络上有个热帖Is the Web still the Web?代表了部分人对万维网发展方向的忧虑。下面将讨论什么使万维网变暗了,是否有方法将暗信息提取出来。
什么是Dark Web
维基百科上有个词条,说明了哪些信息是暗藏在万维网中的。
- 动态内容(Dynamic content),是指发起一个查询请求或者提交一个HTML表单(form),在响应消息中返回的内容,有些情况下,需要在编辑框中输入领域相关的信息,搜索引擎更难处理。
- 孤立内容(Unlinked content),指一些页面没有被任何页面链接,即没有链入页面(inlink或者backlink),这样网络爬虫程序无法发现它们。
- 私有内容(Private Web),指一些网站需要登录才能访问,即用登录口令保护的内容。
- 情景耦合内容(Contextual Web),指一些内容能否被访问跟实际情景相关,例如,只允许特定地址的客户端访问,只能按照某种浏览顺序访问等。
- 访问受限内容(Limited access content),采用一些防止访问的技术手段隐藏的内容,例如,在robots.txt文件中设定的访问规则,使用CAPTCHA(验证码)或者 HTTP头中声明pragma:no-cache/cache-control:no-cache等。
- 脚本化内容(Scripted content),例如通过Javascript程序计算出链接的实际地址指向的内容或者通过AJAX或Flash程序动态从服务器上下载的内容。
- 非HTML/非文本内容(Non-HTML/text content),将文字内容编码到图像、视频或者特定格式的文件中,普通的搜索引擎无法访问。
万维网在变暗吗
Is the Web still the Web?作 者所担心的并不是杞人忧天,现状确实是更多的网站越来越像孤立的应用系统,本来就没有打算与别的网站共享信息。但是从另一方面讲,万维网(Web)和互联 网(internet)本来就是两码事,万维网是后来者,是Tim Berners-Lee定义的使用超文本联系起来的信息存储、检索和共享系统。万维网可以看作是互联网上的一个应用系统,这样就没有理由排斥别的应用系统 与其共存。如果这些并存的应用系统中的信息需要共享,需要采用特定的技术方法。
发掘暗信息
例如,Flash中的内容难于被普通网络爬虫提取,但是只要将网络爬虫针对Flash内容格式进行适配,问题即可解决,当前主要的几个搜索引擎都已经能够提取Flash中的内容。
当前很多界面优美的网站采用了AJAX技术,网站变成了一个胖客户端(Rich Client)应用系统,浏览器加载的HTML页面基本上是个空壳,绝大多数内容需要Javascript脚本动态产生,普通的网络爬虫几乎提取不到有价值的信息,而借助Mozilla浏览器平台技术,能够有效地提取脚本管理的内容。一文好像给人一个信号:巨头也在这样做。