Robots协议,又称为机器人协议,网站用来告知搜索引擎哪些页面可以被抓取,哪些页面不能被抓取的。Robots.txt 文件必须放在网站的根目录。放在子目录的 Robots.txt 文件搜索引擎不能爬取到,所以不会起任何作用。它并不是一个命令,只是一种国际上通行的规范,将网站的一些不能被抓取的文件或者目录,记录在robots.txt中,当搜索引擎的蜘蛛访问这个网站时候,首先就会去访问robots文件,得知不能被抓取目录和文件信息。
如果你的站点对所有搜索引擎公开,则不用做这个文件或者robots.txt为空就行。一般情况下,robots.txt里只写着两个函数:User-agent和 Disallow。
User-agent:* 表示不允许所有的搜索引擎抓取。
User-agent:baiduspider 只允许百度搜索引擎抓取。
User-agent: * Disallow:/ 禁止所有搜索引擎抓取。(Allow表示允许)
比如,如果你不允许所有搜索引擎抓取http://www.xxx.com/archives/385.html 这个页面的。如下这样写即可:(当然,如果搜索引擎不遵守的,加了也没用)
User-agent: *
Disallow: /archives/385.html
WordPress博客的robots.txt文件写法得根据自身网站情况来定,当然我们可以借鉴一些知名wordpress网站的robots.txt写法。
以下就是www.bokequ.com的robots
User-agent: *
Disallow: /wp-
Disallow: /?
Disallow: /feed/
Disallow: /*/feed/
Disallow: /trackback/
Disallow: /*/trackback/
Disallow: /page/
Disallow: /a-category/*/page/
Disallow: /a-tag/*/page/
Sitemap: http://www.bokequ.com/sitemap.html
下面详细解释下每行规则的含义:
User-agent: * 对所有搜索引擎开放收录
Disallow: /wp- 禁止搜索引擎收录所有包含“wp-”字样的url,如wp-admin、wp-content、wp-includes、wp-login.php等
Disallow: /? 禁止搜索引擎收录所有包含“?”字样的url
Disallow: /feed/ 禁止搜索引擎收录RSS订阅页面
Disallow: /*/feed/ 禁止搜索引擎收录所有分类目录、TAG、文章的RSS订阅
Disallow: /trackback/ 禁止收录网站的trackback
Disallow: /*/trackback/ 禁止收录所有分类目录、TAG、文章的trackback
Disallow: /page/ 禁止百度收录首页分页,防止首页权重过于分散
Disallow: /a-category/*/page/ 禁止百度收录分类目录分页
Disallow: /a-tag/*/page/ 禁止百度收录TAG标签分页
Sitemap: http://www.bokequ.com/sitemap.html
robots.txt文件增加Sitemap链接地址.
评论