Dark Web ---- 万维网正在变暗？-geo898-ChinaUnix博客

Dark Web，有多种称谓：deep Web, Deepnet, invisible Web, hidden Web，相对于surface Web，一般是指搜索引擎无法索引的万维网内容。网络上有个热帖Is the Web still the Web?代表了部分人对万维网发展方向的忧虑。下面将讨论什么使万维网变暗了，是否有方法将暗信息提取出来。

什么是Dark Web

维基百科上有个词条，说明了哪些信息是暗藏在万维网中的。

动态内容（Dynamic content），是指发起一个查询请求或者提交一个HTML表单（form），在响应消息中返回的内容，有些情况下，需要在编辑框中输入领域相关的信息，搜索引擎更难处理。
孤立内容（Unlinked content），指一些页面没有被任何页面链接，即没有链入页面（inlink或者backlink），这样网络爬虫程序无法发现它们。
私有内容（Private Web），指一些网站需要登录才能访问，即用登录口令保护的内容。
情景耦合内容（Contextual Web），指一些内容能否被访问跟实际情景相关，例如，只允许特定地址的客户端访问，只能按照某种浏览顺序访问等。
访问受限内容（Limited access content），采用一些防止访问的技术手段隐藏的内容，例如，在robots.txt文件中设定的访问规则，使用CAPTCHA（验证码）或者 HTTP头中声明pragma:no-cache/cache-control:no-cache等。
脚本化内容（Scripted content），例如通过Javascript程序计算出链接的实际地址指向的内容或者通过AJAX或Flash程序动态从服务器上下载的内容。
非HTML/非文本内容（Non-HTML/text content），将文字内容编码到图像、视频或者特定格式的文件中，普通的搜索引擎无法访问。

万维网在变暗吗

Is the Web still the Web?作者所担心的并不是杞人忧天，现状确实是更多的网站越来越像孤立的应用系统，本来就没有打算与别的网站共享信息。但是从另一方面讲，万维网（Web）和互联网（internet）本来就是两码事，万维网是后来者，是Tim Berners-Lee定义的使用超文本联系起来的信息存储、检索和共享系统。万维网可以看作是互联网上的一个应用系统，这样就没有理由排斥别的应用系统与其共存。如果这些并存的应用系统中的信息需要共享，需要采用特定的技术方法。

发掘暗信息

例如，Flash中的内容难于被普通网络爬虫提取，但是只要将网络爬虫针对Flash内容格式进行适配，问题即可解决，当前主要的几个搜索引擎都已经能够提取Flash中的内容。

当前很多界面优美的网站采用了AJAX技术，网站变成了一个胖客户端（Rich Client）应用系统，浏览器加载的HTML页面基本上是个空壳，绝大多数内容需要Javascript脚本动态产生，普通的网络爬虫几乎提取不到有价值的信息，而借助Mozilla浏览器平台技术，能够有效地提取脚本管理的内容。一文好像给人一个信号：巨头也在这样做。