WordPress搜索引擎协议robots.txt怎么写

  • A+
所属分类:未分类
摘要

wordpress修改固定链接后,原先的固定链接也会被收录,如果想屏蔽重复收录,需要修改WordPress robots.txt,robots.txt怎么写呢?

如果你有留意,在查看博客页面源代码时,title里有有一个带?的动态链接,百度很有可能会收录它,一个页面两个收录,我就碰到过这样的情况。

robots.txt可以限制或阻止搜索引擎对网站某些页面或目录的访问与抓取,在搜索引擎访问网站时会,会先查看你的网站根目录下有没有robots.txt协议文件,有的话会按照robots.txt设置的指令进行爬行。

不想被收录的页面、图片、目录都可以编写robots.txt协议来完成,其中WordPress博客优化就必须使用robots.txt文件,Wordpress的固定链接修改后,一个页面存在两个链接,搜索引擎会收录这两个链接,这并不利于SEO,就需要设置wordpress的robots.txt文件,禁止搜索引擎访问和搜录原来带?的动态链接。

首页要了解下robots.txt的代码意思,百度、谷歌等搜索引擎的协议编写是一样的,你的博客是否进行了WordPress固定链接伪静态化设置,这直接决定着写robots.txt页面的格式,下边就介绍下WordPress的robots.txt写法。

robots.txt写法

博主根据自己的固定链接格式来写入robots.txt文件,对民网使用的是伪静态化固定链接/%postname%/,这种链接形式编写robots.txt如下。

#允许所有的搜索引擎抓取,虽然使用百度搜索的人多,但还是有20%的人使用其它搜索引擎,能够为博客带来更多的流量。

1、允许所有蜘蛛爬行

User-agent: *

2、禁止抓取根目录中的网站文件,能够提高蜘蛛爬行速度。

Disallow: /wp-admin/

Disallow: /wp-includes/

Disallow: /wp-content/

Disallow: /wp-login.php

3、禁止抓取订阅页面,订阅页面与日志页面重复。

Disallow: /feed/

Disallow: /*/feed/

Disallow: /comments/feed/

4、禁止抓取收录评论页,有的评论不和谐或与文章内容重复。

Disallow: /*/comment-page-*

5、禁止抓取搜索页面,搜索页面列表与日志列表重复。

Disallow: /?s=*

Disallow: /*/?s=*

6、禁止抓取通告页面,机器人在评论栏留的垃圾留言,如果关闭了trackback功能,就不用编写这个。

Disallow: /*/trackback/

Disallow: /*/*/trackback/

Disallow: /wp-trackback.php*

7、禁止抓取分类页面除第一页之外的分页,修改过固定链接的话,闭屏/?p=*

Disallow: /category/*/page/

Disallow: /?p=*

8、禁止抓取除第一页之外的分页,修改过固定链接的话,闭屏/?tag=*

Disallow: /tag/*/page/

Disallow: /?tag=*

9、禁止抓取作者页面,与日志列表索引重复。

Disallow: /author/

10、禁止抓取page分页,与日志列表索引重复。

Disallow: /page/

11、禁止抓取日期存档2018年的页面,与日志列表索引重复。

Disallow: /2018/

12、在最后一行附上网站地图地址,便于蜘蛛爬行。

Sitemap: http://duimin.com/sitemap.xml

如果是禁止某些蜘蛛收录,比如禁止就是这样的格式。

User-agent: Baiduspider
Disallow: /
User-agent: Sosospider
Disallow: /
User-agent: sogou spider
Disallow: /
User-agent: YodaoBot
Disallow: /
User-agent: Googlebot
Disallow: /
User-agent: Bingbot
Disallow: /
User-agent: Slurp
Disallow: /
User-agent: Teoma
Disallow: /
User-agent: ia_archiver
Disallow: /
User-agent: twiceler
Disallow: /
User-agent: MSNBot
Disallow: /
User-agent: Scrubby
Disallow: /
User-agent: Robozilla
Disallow: /
User-agent: Gigabot
Disallow: /
User-agent: googlebot-image
Disallow: /
User-agent: googlebot-mobile
Disallow: /
User-agent: yahoo-mmcrawler
Disallow: /
User-agent: yahoo-blogs/v3.9
Disallow: /
User-agent: psbot
Disallow: /
User-agent: *
Disallow:
Disallow: /bin/

robots.txt怎么写

先创建robots.txt的文档,鼠标右键→创建文本文档→写入协议代码→把文档改名为robots→上传到网站根目录,就这么简单,日后搜索引擎会按照根目录中的robots.txt进行爬行。

一旦修改了固定链接,就必须设置robots.txt文件,从而避免wordpress页面重复收录,下边是对民网/%postname%/链接格式下的robots.txt写法!

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-includes/

Disallow: /wp-content/

Disallow: /wp-login.php

Disallow: /feed/

Disallow: /*/feed

Disallow: /comments/feed/

Disallow: /?s=*

Disallow: /*/?s=*

Disallow: /wp-trackback.php*

Disallow: /*/comment-page-*

Disallow: /category/

Disallow: /author/

Disallow: /?p=*

Disallow: /tag/

Disallow: /page/*/

Disallow: /trackback/

Disallow: /xmlrpc.php

Disallow: /category/

Disallow: /author/

Disallow: /feed/

Disallow: /search/

Disallow: /*?*

Crawl-delay: 5

Request-rate: 30/1m

Sitemap: http://duimin.com/sitemap.xml/

User-agent: ia_archiver

Disallow:

User-agent: Mediapartners-Google

Disallow:

User-agent: Baiduspider

Disallow:

User-agent: YisouSpider

Disallow: /

User-agent: grapeshot

Disallow: /

User-agent: bingbot

Disallow: /

PS:以上不一定全用上,可以选择性编写,在编写robots.txt时一定要谨慎,代码错误的话会影响网站的收录。

发表评论

:?::razz::sad::evil::!::smile::oops::grin::eek::shock::???::cool::lol::mad::twisted::roll::wink::idea::arrow::neutral::cry::mrgreen: