robots文件基本定义及内容设置
为什么robots.txt文件很重要
robots.txt文件(也称为漫游器排除协议或标准)是一个文本文件,用于告诉搜索引擎爬虫能抓取网站上的哪些页面,不能抓取哪些页面。 搜索引擎访问网站。都会先检查robots.txt中的说明。
假设搜索引擎找到了以下示例robots.txt文件:
这是robots.txt文件的基本框架。*表示robots.txt文件适用于所有访问该网站的爬虫。Disallow(禁止)之后的斜线告诉爬虫不要访问该站点上的任何页面。
您可能想知道为什么阻止Web机器人访问其站点。毕竟,SEO的主要目标之一是让搜索引擎轻松地抓取您的网站,从而提高排名。
如果搜索引擎对您的网站进行爬网,它将对您的每个页面进行爬网。如果网页很多,爬虫将需要一段时间来对其进行抓取,这可能会对排名产生负面影响。
这是因为爬虫也会有一个“抓取预算”,分为两部分。首先是爬网速率限制,然后是爬网需求
基本上,抓取预算是“ 爬虫可以并且想要抓取的URL数量”。所以我们应该让爬虫抓取最有价值的页面。
一般在网站URL后面/robots.txt会看到默认的文件。例:www.xxxxxxxx.com/robots.txt
例如,如果您访问该网站(neilpatel.com)的robots.txt文件,则会看到该文件不允许登录页面(wp-admin)。
所以我们应当熟悉robots.txt文件中使用的某些语法。
禁止所有蜘蛛访问网站的任何部分,格式如下:
User-agent:*
Disallow:/
禁止所有蜘蛛访问网站的某几个部分,比如下例中禁止访问001、002、003目录:
User-agent:*
Disallow:/001/
Disallow:/002/
Disallow:/003/
禁止某个搜索引擎蜘蛛的访问,比如下例中的百度蜘蛛:
User-agent:BadBot
Disallow:/
只允许某个蜘蛛的访问,再例举百度蜘蛛:
User-agent:BadBot
Disallow:
User-agent:*
Disallow:/
robots.txt 文件在线生成工具 www.baisheng999.com/practicaltools/robots/
0条评论