wordpress博客robots.txt文件写法

2015年3月30日 21:46:14网站建设已关闭评论493阅读模式

Robots协议，又称为机器人协议，网站用来告知搜索引擎哪些页面可以被抓取，哪些页面不能被抓取的。Robots.txt 文件必须放在网站的根目录。放在子目录的 Robots.txt 文件搜索引擎不能爬取到，所以不会起任何作用。它并不是一个命令，只是一种国际上通行的规范，将网站的一些不能被抓取的文件或者目录，记录在robots.txt中，当搜索引擎的蜘蛛访问这个网站时候，首先就会去访问robots文件，得知不能被抓取目录和文件信息。

如果你的站点对所有搜索引擎公开，则不用做这个文件或者robots.txt为空就行。一般情况下，robots.txt里只写着两个函数：User-agent和 Disallow。

User-agent:* 表示不允许所有的搜索引擎抓取。

User-agent:baiduspider 只允许百度搜索引擎抓取。

User-agent: * Disallow:/ 禁止所有搜索引擎抓取。(Allow表示允许)

比如，如果你不允许所有搜索引擎抓取http://www.xxx.com/archives/385.html 这个页面的。如下这样写即可：(当然，如果搜索引擎不遵守的，加了也没用)

User-agent: *

Disallow: /archives/385.html

WordPress博客的robots.txt文件写法得根据自身网站情况来定，当然我们可以借鉴一些知名wordpress网站的robots.txt写法。

以下就是www.bokequ.com的robots

User-agent: *

Disallow: /wp-

Disallow: /?

Disallow: /feed/

Disallow: /*/feed/

Disallow: /trackback/

Disallow: /*/trackback/

Disallow: /page/

Disallow: /a-category/*/page/

Disallow: /a-tag/*/page/

Sitemap: http://www.bokequ.com/sitemap.html

wordpress博客robots.txt文件写法

下面详细解释下每行规则的含义：

User-agent: * 对所有搜索引擎开放收录

Disallow: /wp- 禁止搜索引擎收录所有包含“wp-”字样的url，如wp-admin、wp-content、wp-includes、wp-login.php等

Disallow: /? 禁止搜索引擎收录所有包含“?”字样的url

Disallow: /feed/ 禁止搜索引擎收录RSS订阅页面

Disallow: /*/feed/ 禁止搜索引擎收录所有分类目录、TAG、文章的RSS订阅

Disallow: /trackback/ 禁止收录网站的trackback

Disallow: /*/trackback/ 禁止收录所有分类目录、TAG、文章的trackback

Disallow: /page/ 禁止百度收录首页分页，防止首页权重过于分散

Disallow: /a-category/*/page/ 禁止百度收录分类目录分页

Disallow: /a-tag/*/page/ 禁止百度收录TAG标签分页

Sitemap: http://www.bokequ.com/sitemap.html

robots.txt文件增加Sitemap链接地址.

热门搜索