Chinaunix首页 | 论坛 | 博客
  • 博客访问: 24996
  • 博文数量: 15
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 365
  • 用 户 组: 普通用户
  • 注册时间: 2014-11-12 16:51
个人简介

304不锈钢装饰管www.ydgyfs.com

文章分类
文章存档

2014年(15)

我的朋友

分类: 信息化

2014-12-11 17:47:44

在此之前小编讲解过关于dedecms的robots.txt文件设置,今天小编给大家讲解一下关于WordPress的robots.txt文件的一些设置书写等。由于WordPress的特殊性,很多站长朋友在安装完程序后,最头痛的就是robots.txt文件的书写,当网站有一些内容不想被搜索引擎收录时,可以通过设置robots.txt文件告知搜索引擎机器人这个文件不要爬取。如果网站上没有禁止搜索引擎收录的内容,则不用设置robots.txt文件,或设置为空,设置robots.txt文件可以有效的保护用户的隐私,同时也有利于节省蜘蛛的带宽,从而让蜘蛛爬取更加容易,更加有利于网站的收录。
首先小编先简单的介绍一下robots.txt文件中的一些规则:
1、允许爬取:
User-agent:*
Disallow:
这两行的意思就是允许所有的蜘蛛爬取网站所有的页面,第二行虽然“Disallow”是不允许的意思,但是Disallow后面是空的,所以第二行的意思就是“不允许爬取的内容为空”。
2、以百度蜘蛛为例,禁止爬取:
User-agent:Baiduspider
Disallow:/
User-agent:*
Disallow:
第一行和第二行的意思就是是不允许百度蜘蛛爬取任何页面,后面两行的解释同上。如果想要屏蔽百度蜘蛛和360蜘蛛的爬取,那么就在前面继续复制,把Baiduspider改成360spider。如下:
User-agent:Baiduspider
Disallow:/
User-agent:360spider
Disallow:/
User-agent:*
Disallow:
所以如果想要继续添加其他屏蔽的蜘蛛,同样继续往上添加就行。
3、以禁止爬取wordpress后台页面为例,不允许任何蜘蛛爬取其中的某个或者某些页面:
User-agent:*
Disallow:/wp-admin/
大家都知道,wordpress后台在根目录下的wp-admin文件夹里面,在Disallow后面加上/wp-admin的意思就是不允许所有的蜘蛛爬取这个目录。
4、以禁止baidu蜘蛛为例,禁止爬取wordpress后台:
User-agent:Baiduspider
Disallow: /
User-agent: *
Disallow: /wp-admin/
这四行代码的意思就是不允许百度爬取wordpress后台,允许其他搜索引擎爬取后台,如果想要设置多个蜘蛛不允许爬取wordpress程序后台,同第2条一样,把不允许的蜘蛛添加上去,小编以360和baidu蜘蛛不允许爬取wordpress后台为例,代码如下:
User-agent:360spider
Disallow: /
User-agent:Baiduspider
Disallow: /
User-agent: *
Disallow: /wp-admin/
接下来小编为大家讲解一下wordpress的robots.txt文件书写。
其实wordpress的robots文件很简单,主要看3个要点:
不允许蜘蛛爬取网站后台地址
首先设置不让搜索引擎抓取wordpress后台页面,这几乎是每位站长设置robots.txt文件的首要目的,这也不仅限于wordpress程序,不同类型的网站后台页面所在页面的文件夹名称不一样。
静态化后,不允许蜘蛛爬取动态url
wordpress的url最好还是设置为静态化,因为过多的动态参数不利于SEO。但是许多站长朋友在设置静态化后,每次发布文章时,搜索引擎收录,总会同时收录静态和动态的url,这样做的缺点就是会导致文章页面权重分散,而且会导致重复页面过多最终受到搜索引擎的惩罚。要避免这种情况的出现方法很简单,就是在robots.txt文件里面设置,让蜘蛛不爬取动态url,这样动态url就不会被收录。
结尾加上xml格式的网站地图
在robots.txt文件的结尾加上网站地图,可以让网站地图在蜘蛛爬取时第一时间被抓取,更加利于页面的收录。代码如下:
User-agent:*
Disallow:/wp-admin/
Disallow:/*?*
Sitemap:网站域名.com/sitemap.xml
前三行的意思就是在禁止所有蜘蛛爬取wordpress后台的前提下,禁止爬取包含?的url。(动态url特征是有“?”)
robots.txt文件的书写还有一下三点需要注意的地方:
斜杠“/”
首先开头的斜杠是一定要有的,结尾有斜杠的意思是这个目录下的所有页面,如果没有斜杠,那就是屏蔽的既有包括斜杠的,也有不包括斜杠的,例如/wp-admin.html,/wp-admin.php等等页面。这是两个不同的概念,必须根据需要考虑后面是否加上斜杠。
字母大小写
除了每行的首字母之外,其他都必须小写。
Disallow和Allow
对于很多新手站长朋友来说,掌握其中一种的写法就够了,如果同时被灌输这两种写法很容易混淆,所以如果是新手朋友,那么robots.txt文件最好只使用一种写法就好了,防止混淆,造成错误。
希望可以帮助到各位站长朋友!LED路灯外壳
阅读(483) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~