商业源码织梦教程 2023-09-29 8:19:02

书写robotstxt文件来屏蔽所有搜索引擎抓取dedecms默认后台的登陆路径

找到网站死链后，到百度站长平台提交死链，等待百度删除即可。

robotstxt文件用法举例：

1 允许所有的robot访问

User-agent: Allow: / 或者 User-agent: Disallow:

2 禁止所有搜索引擎访问网站的任何部分

User-agent:

Disallow: /

3 仅禁止Baiduspider访问您的网站

User-agent: Baiduspider

Disallow: /

4 仅允许Baiduspider访问您的网站

User-agent: Baiduspider

Disallow:

5 禁止spider访问特定目录

User-agent:

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /~joe/

6 允许访问特定目录中的部分url

User-agent:

Allow: /cgi-bin/see

Allow: /tmp/hi

Allow: /~joe/look

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /~joe/

7 使用””限制访问url

禁止访问/cgi-bin/目录下的所有以”htm”为后缀的URL(包含子目录)。

User-agent:

Disallow: /cgi-bin/htm

8 使用”$”限制访问url

仅允许访问以”htm”为后缀的URL。

User-agent:

Allow: htm$

Disallow: /

例9 禁止访问网站中所有的动态页面

User-agent:

Disallow: /

10 禁止Baiduspider抓取网站上所有

仅允许抓取网页，禁止抓取任何。

User-agent: Baiduspider

Disallow: jpg$

Disallow: jpeg$

Disallow: gif$

Disallow: png$

Disallow: bmp$

11 仅允许Baiduspider抓取网页和gif格式

允许抓取网页和gif格式，不允许抓取其他格式

User-agent: Baiduspider

Allow: gif$

Disallow: jpg$

Disallow: jpeg$

Disallow: png$

Disallow: bmp$

12 仅禁止Baiduspider抓取jpg格式

User-agent: Baiduspider

Disallow: jpg$

如何写robotstxt文件才能集中网站权重？

一：什么是robots协议robots协议（也称为爬虫协议、爬虫规则、机器人协议等）也就是robotstxt，网站通过robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不希望被抓取。• Robots协议是网站国际互联网界通行的道德规范，其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。• 因其不是命令，是一种单方面协议，故需要搜索引擎自觉遵守。

淘宝利用robots屏蔽了百度蜘蛛的抓取

淘宝的robots协议

二：robotstxt放置位置robotstxt文件应该放置在网站根目录下。例如，当spider访问一个网站（比如 http://wwwtaobaocom）时，首先会检查该网站中是否存在http://wwwtaobaocom/robotstxt这个文件，如果 Spider找到这个文件，它就会根据这个文件的内容，来确定它访问权限的范围。

三：robotstxt文件的写法

操作步骤：

1新建一个文本文档，命名为robotstxt

2开始写robots

User-agent: （针对所有搜索引擎）

Disallow: / (禁止爬取所有页面，/代表目录)

Disallow: /admin/ (禁止抓取admin目录)

Disallow: /admin (禁止抓取包含admin的路径)

Allow: /admin/s3html (允许抓取admin目录下s3html文件)

一个“/”表示路径，两个“/”表示文件夹

Allow: /admin/php/ (允许抓取admin下面的php文件的所有内容)

Disallow: /css$ (禁止抓取所有带css的文件)

sitemap:

注意：

• 冒号后面有空格，空格后面都有/(都要以/开头)，开头第一个字母大写• 因为搜索引擎蜘蛛来抓取网站的时候最先看的就robots文件，我们把网站地图的地址放到robots协议中有利于搜索引擎蜘蛛的抓取，从而提高网站的收录。

您好，朋友。跟版网很高兴为您解答：

织梦dedecms默认是不被搜索引擎抓取后台登录路径的，如果您要写在robotstxt中的话，恰恰会暴露后台地址给那些黑您网站的人。

个人建议不要将敏感目录写在robotstxt中，否则会很不安全。

希望我的回答能够帮到您。

robotstxt的写法是做seo的人员必须知道的（什么是robotstxt），但该如何写，禁止哪些、允许哪些，这就要我们自己设定了。

百度蜘蛛是一机器，它只认识数字、字母和汉字，而其中robotstxt就是最重要也是最开始和百度“对话”的内容。

当我们的网站在没有建好的时候，我们不希望百度来抓取我们的网站，往往有人会禁止百度来抓取。但是，这种做法是非常不好的，这样会让百度蜘蛛很难再来到你的网站了。所以，我们必须现在本地搭建网站，等一切都搞好以后，再去买域名、空间，要不，一个网站的反复修改，会对你的网站有一定的不利影响。

我们的网站起初的robotstxt写法如下：

User-agent:

Disallow: /wp-admin/

Disallow: /wp-includes/

User-agent: 的意思是，允许所以引擎抓取。

而Disallow: /wp-admin/和Disallow: /wp-includes/，则是禁止百度抓取我们的隐私，包括用户密码、数据库等。这样的写法既保护了我们的隐私，也让百度蜘蛛的抓取最大化。

如果，你想禁止百度蜘蛛抓取某一个页面，比如123html，那就加一句代码“Disallow: /123html/”即可。

robotstxt写好后，只需要上传到网站的根目录下即可。

robots基本概念

　　Robotstxt文件是网站的一个文件，它是给搜索引擎蜘蛛看的。搜索引擎蜘蛛爬行道我们的网站首先就是抓取这个文件，根据里面的内容来决定对网站文件访问的范围。它能够保护我们的一些文件不暴露在搜索引擎之下，从而有效的控制蜘蛛的爬取路径，为我们站长做好seo创造必要的条件。尤其是我们的网站刚刚创建，有些内容还不完善，暂时还不想被搜索引擎收录时。

　　robotstxt也可用在某一目录中。对这一目录下的文件进行搜索范围设定。

　　几点注意：

　　网站必须要有一个robottxt文件。

　　文件名是小写字母。

　　当需要完全屏蔽文件时，需要配合meta的robots属性。

robotstxt的基本语法

　　内容项的基本格式：键: 值对。

　　1) User-Agent键

　　后面的内容对应的是各个具体的搜索引擎爬行器的名称。如百度是Baiduspider，谷歌是Googlebot。

　　一般我们这样写：

　　User-Agent:

　　表示允许所有搜索引擎蜘蛛来爬行抓取。如果只想让某一个搜索引擎蜘蛛来爬行，在后面列出名字即可。如果是多个，则重复写。

　　注意：User-Agent:后面要有一个空格。

　　在robotstxt中，键后面加：号，后面必有一个空格，和值相区分开。

　　2)Disallow键

　　该键用来说明不允许搜索引擎蜘蛛抓取的URL路径。

　　例如：Disallow: /indexphp 禁止网站indexphp文件

　　Allow键

　　该键说明允许搜索引擎蜘蛛爬行的URL路径

　　例如：Allow: /indexphp 允许网站的indexphp

　　通配符

　　代表任意多个字符

　　例如：Disallow: /jpg 网站所有的jpg文件被禁止了。

　　结束符$

　　表示以前面字符结束的url。

　　例如：Disallow: /$ 网站所有以结尾的文件被禁止。

　　四、robotstxt实例分析

　　例1 禁止所有搜索引擎访问网站的任何部分

　　User-agent:

　　Disallow: /

　　例2 允许所有的搜索引擎访问网站的任何部分

　　User-agent:

　　Disallow:

　　例3 仅禁止Baiduspider访问您的网站

　　User-agent: Baiduspider

　　Disallow: /

　　例4 仅允许Baiduspider访问您的网站

　　User-agent: Baiduspider

　　Disallow:

　　例5 禁止spider访问特定目录

　　User-agent:

　　Disallow: /cgi-bin/

　　Disallow: /tmp/

　　Disallow: /data/

　　注意事项：1)三个目录要分别写。2)请注意最后要带斜杠。3)带斜杠与不带斜杠的区别。

　　例6 允许访问特定目录中的部分url

　　我希望a目录下只有bhtm允许访问，怎么写

　　User-agent:

　　Allow: /a/bhtm

　　Disallow: /a/

　　注：允许收录优先级要高于禁止收录。

　　从例7开始说明通配符的使用。通配符包括("$" 结束符;

　　""任意符)

　　例7 禁止访问网站中所有的动态页面

　　User-agent:

　　Disallow: /

　　例8 禁止搜索引擎抓取网站上所有

　　User-agent:

　　Disallow: /jpg$

　　Disallow: /jpeg$

　　Disallow: /gif$

　　Disallow: /png$

　　Disallow: /bmp$

　　其他很多情况呢，需要具体情况具体分析。只要你了解了这些语法规则以及通配符的使用，相信很多情况是可以解决的。

meta robots标签

　　meta是网页html文件的head标签里面的标签内容。它规定了此html文件对与搜索引擎的抓取规则。与robottxt 不同，它只针对写在此html的文件。

　　写法：

　　…里面的内容列出如下

　　noindex - 阻止页面被列入索引。

　　nofollow - 阻止对于页面中任何超级链接进行索引。

　　noarchive - 不保存该页面的网页快照。

　　nosnippet - 不在搜索结果中显示该页面的摘要信息，同时不保存该页面的网页快照。

　　noodp - 在搜索结果中不使用Open Directory Project中的描述信息作为其摘要信息。

robotstxt是搜索引擎中访问网站的时候要查看的第一个文件。Robotstxt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。

当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robotstxt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

robotstxt必须放置在一个站点的根目录下，而且文件名必须全部小写。

语法：最简单的 robotstxt 文件使用两条规则：

• User-Agent: 适用下列规则的漫游器

• Disallow: 要拦截的网页

www5ztaocom欢迎您

网站文件搜索引擎蜘蛛页面

DABAN RP主题是一个优秀的主题，极致后台体验，无插件，集成会员系统
网站模板库 » 书写robotstxt文件来屏蔽所有搜索引擎抓取dedecms默认后台的登陆路径

商业源码钻石

分享到：

书写robotstxt文件来屏蔽所有搜索引擎抓取dedecms默认后台的登陆路径

商业源码钻石

0条评论

发表评论取消回复

商业源码 钻石

商业源码钻石