分类: 系统运维
2009-10-06 23:10:13
用详尽的数字说明暗网(dark web, deep web)有多大,还解释了巨头们(例如,谷歌(google),百度(baidu),雅虎(yahoo))怎样发掘暗网中的信息。全面罗列了哪些内容属于暗网内容,暗网的内容类别很多,都适合发掘吗?
私有内容和访问受限内容显然不适合网络爬虫抓取并被搜索引擎收录,很多时候,这些内容是内容拥有者的私密信息,例如:和述及的案件就是有关私密信息的。还有很多信息是内容拥有者不想被搜索引擎收录的,使用一些技术手段阻止网络蜘蛛(也叫网络爬虫)爬行,最有效的手段是通过表单提交(form submission)和Javascript动态生成网页内容,前者给搜诉引擎的网络爬虫造成麻烦的原因是因为网络爬虫不知道怎样自主地填写表单,虽然据说Google等实验自适应的表单提交技术,但是,完全准确而且全面地填写表单并非易事;后者主要可以阻止传统的网络爬虫,这类网络爬虫一般只是采集HTML文档内容,并不解释HTML文档中的Javascript脚本。这些内容都不适合而且也不应该被搜索引擎收录。因此,关于暗网规模的数字是有水分的。
采用基于Javascript的Ajax框架可以带来极佳的用户体验,甚至可以跟胖客户端(rich client)程序相媲美,但是作为网站的主人,如果想自己的内容被搜索引擎收录,不能忽视。作为mashup(混搭)服务的提供者或者互联网信息采集者,要抽取Javascript动态生成的内容也是可行的,例如,能够有效的采集Javascript管理的内容,如果内容发布者既想保持Ajax带来的用户体验,又想提高自己的内容被索引和搜索的机会,采用信息共享手段,可以有效地提高自己的内容的曝光率。