爬虫robots(robots生成)

SEO新手站长可能对robots.txt文件知之甚少,因为这个文件写完就不会修改了。当然,除非有一天你不想让蜘蛛爬上你的网站,或者网站有禁止发布的私人文件,你可以在这个时候修改ro

SEO新手站长能对robots.txt文件知之甚少,因为这个文件写完就不会修改了。当然,除非有一天你不想让蜘蛛爬上你的网站,或者网站有禁止发布的私人文件,你可以在这个时候修改robots.txt文件的语法,具体的语法这里就不细说了。

虽然robots.txt在日常SEO工作中很少被触及,但意义重大。机器人的作用不仅仅局限于网页的隐私,还在于清理网页的一些路径,比如删除死链。以下是用尹华凤的SEO技术博客全面了解真实的robots.txt文件。

1.什么是robots.txt文件? Robots.txt是一个文本文件,存储在网站的根目录下。它通常会告诉搜索引擎的爬行程序(也称为web crawler或spider)这个网站中哪些内容不应该通过搜索引擎的爬行程序获取,哪些内容可以通过爬行程序获取。

Robots.txt必须是小写的,这是与web蜘蛛建立的协议。当网络蜘蛛来到你的网站时,他们首先会看到的是你网站根目录下的robots.txt协议文件,它会按照你的规定进行抓取。但是有些骄傲的蜘蛛不遵守规则,一般蜘蛛都会遵守。如果你网站的根目录下没有这样的文件,网络蜘蛛就会沿着我们网站上面的链接一个一个的爬。

二、robots.txt有哪些功能? (1)可以引导搜索引擎的蜘蛛抓取指定的栏目或内容。相当于去了一个陌生的城市,有人给你带路。

(2)当我们的网站修改或URL重写优化时,坏链接被屏蔽。除非万不得已,否则不要重新设计网站。这样会对网站造成很大的伤害,导致降权或者失去所有排名。

(3)可以屏蔽死链接和404错误页面。随着网站的发展,死链接和404错页面不可避免。

(4)屏蔽那些没有内容、没有价值的页面。

(5)屏蔽重复页面,如评论页面和搜索结果页面。

(6)阻止任何不想包含的页面。

(7)引导蜘蛛抓取网站地图。让蜘蛛更快地抓取我们网站的链接。

总结:因为robots.txt文件是网站和spider之间的协议,所以spider在抓取网站时必须首先(理论上)遵守协议。所以很多网站的robots.txt文件里都有一种情况,就是把网站的站点地图放进去,比如峰峰的博客也不例外,自然是为了吸引蜘蛛快速抓取网站链接,便于收录。还有,查询其他网站的robots.txt文件时,可以直接在域名后面加一个robots.txt。

版权声明:(爬虫robots(robots生成))由互联网用户自发贡献,该文观点仅代表作者本人,本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件标题或链接至 service#hao123w.com ,本站将立刻删除。
(0)
上一篇 2021年7月10日 上午12:00
下一篇 2021年7月10日 上午12:11
hao123w, hao123生活号 - 让生活更简单!,更多信息请访问 http://www.hao123w.com/