wordpress 的 robots.txt 详细介绍 写法 -云顶国际

简单说 robots.txt 文件就是告诉搜索引擎哪些文件不要抓取,哪些文件要抓取,所以写好 robots.txt 很重要!刚接触  的用户可能不会留意到这点,下面分享一篇  的 robots.txt 详细介绍:

博客程序默认是有自动生成 robots.txt文件,但是文件很简单,只有三行代码:

user-agent: * 
disallow: /wp-admin/ 
disallow: /wp-includes/

很显然自动生成的robots.txt文件有点草率,明显是不适应网站搜索引擎优化的,因此,为网站手动编写robots.txt文件应该成为建站的重要工作。

编写robots.txt必须要谨慎,否则一不小心输入错误,就会导致整个网站收录情况受到影响,得不偿失! 所以特别写来此文来论述一下robots.txt的正确写法

robots.txt的基本语法

要编写就要先了解,robots.txt也是有自己的规则的。

文件头部规则:

robots.txt文件的开头为user-agent:开头,用来指定搜索引擎蜘蛛,如果要针对百度搜索蜘蛛,可以输入

user-agent:baiduspider

如果要对全体搜索引擎起作用,则输入

user-agent: * 

disallow规则:

disallow: /abc 表示禁止访问收录abc.php、abc.html和abc文件夹下的所有文件。

disallow: /abc/ 表示仅禁止访问abc文件夹下的所有文件,但是不限制abc.php、abc.html文件。

allow规则:

allow规则同disallow。

*和$的使用规则:

*表示通配符

disallow: /cgi-bin/*.htm

表示禁止收录cgi-bin文件夹下的所有htm后缀的文件。

disallow: /*?replytocom=

表示禁止收录含有“replytocom=”字符的地址。

$用于通指禁止访问某后缀的文件

disallow: /*.css$

表示禁止收录以css后缀的文件。

sitemap规则:

sitemap用来告诉搜索引擎网站地图的位置

sitemap: https://www.xiaoyi.vc/sitemap.xml

针对网站的robots.txt的编写

的结构简单易懂,对的robots.txt编写还是比较简单的。

为了避免收录系统文件:

disallow: /wp-admin/  
disallow: /wp-includes/ (这两条是自动生成的,一定要保留)  
disallow: /wp-content/plugins (禁止收录插件目录)  
disallow: /wp-content/themes  (禁止收录模板目录)  
disallow: /wp-content/uploads (看个人喜好,如果希望网站的图片被收录,则可以去掉这条)  

为了避免收录重复的内容:

disallow: /feed  
disallow: /articles/*/feed  (这两条用来禁止收录内容重复的feed源)  
disallow: /tag/  (用于禁止收录tag标签页)  
disallow: /category/  (用于禁止收录文章目录,因为此页面都是无意义的文章列表)  
disallow: /page/  (禁止收录翻页的页面)  
disallow: /*?replytocom= (禁止收录评论页面)  
disallow: /trackback (禁止收录trackback,如果关闭了此功能可以删掉)  
disallow: /*?* (禁止访问带?的页面,如果使用默认文章固定链接的千万不要添加这一句)  

为了正确引导搜索引擎找到网址地图(如果有的话)

sitemap: https://www.xiaoyi.vc/sitemap.xml

总结全部的robots.txt全文如下:

user-agent: *   
disallow: /wp-admin/   
disallow: /wp-includes/   
disallow: /wp-content/plugins   
disallow: /wp-content/themes   
disallow: /wp-content/uploads   
disallow: /feed   
disallow: /articles/*/feed   
disallow: /tag/   
disallow: /category/   
disallow: /page/   
disallow: /*?replytocom=   
disallow: /trackback   
disallow: /*?*   
sitemap: https://www.xiaoyi.vc/sitemap.xml

将代码编写在记事本上,然后保存为robots.txt,直接上传到网站的根目录就可以生效了,千万不要搞错放在了主题文件夹里面,检查方式可以直接在地址栏上输入“域名 robots.txt”,如果能正确访问就可以。

         
网站地图