网站肉容如何避免被百度google爬虫抓取-yilongtech-ChinaUnix博客

为欣而动yilongtech.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

yilongtech

博客访问： 533413
博文数量： 93
博客积分： 2479
博客等级：大尉
技术积分： 1008
用户组：普通用户
注册时间： 2007-11-07 11:59

文章分类

全部博文（93）

linux epoll（1）
virtualization（0）
linux ftp（4）
java（5）
存储（0）
linux OS（13）
ccna（5）
english（1）
情感生活（5）
database（15）

oracle（6）

mysql（8）
linux cluster（0）
linux server（9）
shell（15）
linux精华贴（20）
未分配的博文（0）

文章存档

2012年（2）

2011年（41）

2010年（24）

2009年（21）

2008年（5）

我的朋友

相关博文

网站肉容如何避免被百度google爬虫抓取

分类：系统运维

2011-03-31 13:22:41

什么是网络爬虫?
网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件。

爬虫有好处也有坏处：

威胁主要是流量方面，包括爬虫的访问以及搜索引擎被使用带来的实际用户访问。

对网站有好有坏，

不好的地方会增加网站的访问负荷;有时,还会涉及到用户的隐私；

好的地方也是增加了访问流量;

如果搜索引擎收录了你的网站，你的网站的流量会增加，也就是有更多的用户访问量。

你想让更多用户知道的话，就允许网络爬虫，如果需要防止的话，就需要监测网站，把一些不良网络爬虫的给堵止掉，一般是封IP。正常情况下，在网站的目录下放一个robots.txt的文件，里面可以声明禁止爬虫来爬，做为一个有品的爬虫程序，就不去爬了，当然没品的不在此列。
如何来配置一个robots.txt文件?

其实是比较简单的,
User-agent: * 表示所有的爬虫,即对所有的爬虫都有作用;
Allow: 表示允许爬虫访问,抓取的内容
Disallow: 禁止爬虫抓取的内容

假如此网站禁止爬虫抓取,那么,只要在网站的根目录下,创建一个robots.txt文件
User-agent: *
Disallow: /
就可以了..

关于爬虫的文章:

http://robbin.javaeye.com/blog/451014

阅读(6504) | 评论(0) | 转发(0) |

上一篇：SA必备的Linux系统监控工具

下一篇：oracle实用语句小结

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6