SEO新手站长可能对robots.txt文件知之甚少,因为这个文件写完就不会修改了。当然,除非有一天你不想让蜘蛛爬上你的网站,或者网站有禁止发布的私人文件,你可以在这个时候修改robots.txt文件的语法,具体的语法这里就不细说了。
虽然robots.txt在日常SEO工作中很少被触及,但意义重大。机器人的作用不仅仅局限于网页的隐私,还在于清理网页的一些路径,比如删除死链。以下是用尹华凤的SEO技术博客全面了解真实的robots.txt文件。
1.什么是robots.txt文件? Robots.txt是一个文本文件,存储在网站的根目录下。它通常会告诉搜索引擎的爬行程序(也称为web crawler或spider)这个网站中哪些内容不应该通过搜索引擎的爬行程序获取,哪些内容可以通过爬行程序获取。
Robots.txt必须是小写的,这是与web蜘蛛建立的协议。当网络蜘蛛来到你的网站时,他们首先会看到的是你网站根目录下的robots.txt协议文件,它会按照你的规定进行抓取。但是有些骄傲的蜘蛛不遵守规则,一般蜘蛛都会遵守。如果你网站的根目录下没有这样的文件,网络蜘蛛就会沿着我们网站上面的链接一个一个的爬。
二、robots.txt有哪些功能? (1)可以引导搜索引擎的蜘蛛抓取指定的栏目或内容。相当于去了一个陌生的城市,有人给你带路。
(2)当我们的网站修改或URL重写优化时,坏链接被屏蔽。除非万不得已,否则不要重新设计网站。这样会对网站造成很大的伤害,导致降权或者失去所有排名。
(3)可以屏蔽死链接和404错误页面。随着网站的发展,死链接和404错页面不可避免。
(4)屏蔽那些没有内容、没有价值的页面。
(5)屏蔽重复页面,如评论页面和搜索结果页面。
(6)阻止任何不想包含的页面。
(7)引导蜘蛛抓取网站地图。让蜘蛛更快地抓取我们网站的链接。
总结:因为robots.txt文件是网站和spider之间的协议,所以spider在抓取网站时必须首先(理论上)遵守协议。所以很多网站的robots.txt文件里都有一种情况,就是把网站的站点地图放进去,比如峰峰的博客也不例外,自然是为了吸引蜘蛛快速抓取网站链接,便于收录。还有,查询其他网站的robots.txt文件时,可以直接在域名后面加一个robots.txt。