书写robotstxt文件来屏蔽所有搜索引擎抓取dedecms默认后台的登陆路径

书写robotstxt文件来屏蔽所有搜索引擎抓取dedecms默认后台的登陆路径,第1张

找到网站死链后,到百度站长平台提交死链,等待百度删除即可。

robotstxt文件用法举例:

1 允许所有的robot访问

User-agent: Allow: / 或者 User-agent: Disallow:

2 禁止所有搜索引擎访问网站的任何部分

User-agent:

Disallow: /

3 仅禁止Baiduspider访问您的网站

User-agent: Baiduspider

Disallow: /

4 仅允许Baiduspider访问您的网站

User-agent: Baiduspider

Disallow:

5 禁止spider访问特定目录

User-agent:

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /~joe/

6 允许访问特定目录中的部分url

User-agent:

Allow: /cgi-bin/see

Allow: /tmp/hi

Allow: /~joe/look

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /~joe/

7 使用””限制访问url

禁止访问/cgi-bin/目录下的所有以”htm”为后缀的URL(包含子目录)。

User-agent:

Disallow: /cgi-bin/htm

8 使用”$”限制访问url

仅允许访问以”htm”为后缀的URL。

User-agent:

Allow: htm$

Disallow: /

例9 禁止访问网站中所有的动态页面

User-agent:

Disallow: /

10 禁止Baiduspider抓取网站上所有

仅允许抓取网页,禁止抓取任何。

User-agent: Baiduspider

Disallow: jpg$

Disallow: jpeg$

Disallow: gif$

Disallow: png$

Disallow: bmp$

11 仅允许Baiduspider抓取网页和gif格式

允许抓取网页和gif格式,不允许抓取其他格式

User-agent: Baiduspider

Allow: gif$

Disallow: jpg$

Disallow: jpeg$

Disallow: png$

Disallow: bmp$

12 仅禁止Baiduspider抓取jpg格式

User-agent: Baiduspider

Disallow: jpg$

如何写robotstxt文件才能集中网站权重?

一:什么是robots协议robots协议(也称为爬虫协议、爬虫规则、机器人协议等)也就是robotstxt,网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不希望被抓取。• Robots协议是网站国际互联网界通行的道德规范,其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。• 因其不是命令,是一种单方面协议,故需要搜索引擎自觉遵守。

淘宝利用robots屏蔽了百度蜘蛛的抓取

淘宝的robots协议

二:robotstxt放置位置robotstxt文件应该放置在网站根目录下。例如,当spider访问一个网站(比如 http://wwwtaobaocom)时,首先会检查该网站中是否存在http://wwwtaobaocom/robotstxt这个文件,如果 Spider找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。

三:robotstxt文件的写法

操作步骤:

1新建一个文本文档,命名为robotstxt

2开始写robots

User-agent: (针对所有搜索引擎)

Disallow: / (禁止爬取所有页面,/代表目录)

Disallow: /admin/ (禁止抓取admin目录)

Disallow: /admin (禁止抓取包含admin的路径)

Allow: /admin/s3html (允许抓取admin目录下s3html文件)

一个“/”表示路径,两个“/”表示文件夹

Allow: /admin/php/ (允许抓取admin下面的php文件的所有内容)

Disallow: /css$ (禁止抓取所有带css的文件)

sitemap:

注意:

• 冒号后面有空格,空格后面都有/(都要以/开头),开头第一个字母大写• 因为搜索引擎蜘蛛来抓取网站的时候最先看的就robots文件,我们把网站地图的地址放到robots协议中有利于搜索引擎蜘蛛的抓取,从而提高网站的收录。

您好,朋友。跟版网很高兴为您解答:

织梦dedecms默认是不被搜索引擎抓取后台登录路径的,如果您要写在robotstxt中的话,恰恰会暴露后台地址给那些黑您网站的人。

个人建议不要将敏感目录写在robotstxt中,否则会很不安全。

希望我的回答能够帮到您。

robotstxt的写法是做seo的人员必须知道的(什么是robotstxt),但该如何写,禁止哪些、允许哪些,这就要我们自己设定了。

百度蜘蛛是一机器,它只认识数字、字母和汉字,而其中robotstxt就是最重要也是最开始和百度“对话”的内容。

当我们的网站在没有建好的时候,我们不希望百度来抓取我们的网站,往往有人会禁止百度来抓取。但是,这种做法是非常不好的,这样会让百度蜘蛛很难再来到你的网站了。所以,我们必须现在本地搭建网站,等一切都搞好以后,再去买域名、空间,要不,一个网站的反复修改,会对你的网站有一定的不利影响。

我们的网站起初的robotstxt写法如下:

User-agent:

Disallow: /wp-admin/

Disallow: /wp-includes/

User-agent: 的意思是,允许所以引擎抓取。

而Disallow: /wp-admin/和Disallow: /wp-includes/,则是禁止百度抓取我们的隐私,包括用户密码、数据库等。这样的写法既保护了我们的隐私,也让百度蜘蛛的抓取最大化。

如果,你想禁止百度蜘蛛抓取某一个页面,比如123html,那就加一句代码“Disallow: /123html/”即可。

robotstxt写好后,只需要上传到网站的根目录下即可。

robots基本概念

  Robotstxt文件是网站的一个文件,它是给搜索引擎蜘蛛看的。搜索引擎蜘蛛爬行道我们的网站首先就是抓取这个文件,根据里面的内容来决定对网站文件访问的范围。它能够保护我们的一些文件不暴露在搜索引擎之下,从而有效的控制蜘蛛的爬取路径,为我们站长做好seo创造必要的条件。尤其是我们的网站刚刚创建,有些内容还不完善,暂时还不想被搜索引擎收录时。

  robotstxt也可用在某一目录中。对这一目录下的文件进行搜索范围设定。

  几点注意:

  网站必须要有一个robottxt文件。

  文件名是小写字母。

  当需要完全屏蔽文件时,需要配合meta的robots属性。

robotstxt的基本语法

  内容项的基本格式:键: 值对。

  1) User-Agent键

  后面的内容对应的是各个具体的搜索引擎爬行器的名称。如百度是Baiduspider,谷歌是Googlebot。

  一般我们这样写:

  User-Agent:

  表示允许所有搜索引擎蜘蛛来爬行抓取。如果只想让某一个搜索引擎蜘蛛来爬行,在后面列出名字即可。如果是多个,则重复写。

  注意:User-Agent:后面要有一个空格。

  在robotstxt中,键后面加:号,后面必有一个空格,和值相区分开。

  2)Disallow键

  该键用来说明不允许搜索引擎蜘蛛抓取的URL路径。

  例如:Disallow: /indexphp 禁止网站indexphp文件

  Allow键

  该键说明允许搜索引擎蜘蛛爬行的URL路径

  例如:Allow: /indexphp 允许网站的indexphp

  通配符

  代表任意多个字符

  例如:Disallow: /jpg 网站所有的jpg文件被禁止了。

  结束符$

  表示以前面字符结束的url。

  例如:Disallow: /$ 网站所有以结尾的文件被禁止。

  四、robotstxt实例分析

  例1 禁止所有搜索引擎访问网站的任何部分

  User-agent:

  Disallow: /

  例2 允许所有的搜索引擎访问网站的任何部分

  User-agent:

  Disallow:

  例3 仅禁止Baiduspider访问您的网站

  User-agent: Baiduspider

  Disallow: /

  例4 仅允许Baiduspider访问您的网站

  User-agent: Baiduspider

  Disallow:

  例5 禁止spider访问特定目录

  User-agent:

  Disallow: /cgi-bin/

  Disallow: /tmp/

  Disallow: /data/

  注意事项:1)三个目录要分别写。2)请注意最后要带斜杠。3)带斜杠与不带斜杠的区别。

  例6 允许访问特定目录中的部分url

  我希望a目录下只有bhtm允许访问,怎么写

  User-agent:

  Allow: /a/bhtm

  Disallow: /a/

  注:允许收录优先级要高于禁止收录。

  从例7开始说明通配符的使用。通配符包括("$" 结束符;

  ""任意符)

  例7 禁止访问网站中所有的动态页面

  User-agent:

  Disallow: /

  例8 禁止搜索引擎抓取网站上所有

  User-agent:

  Disallow: /jpg$

  Disallow: /jpeg$

  Disallow: /gif$

  Disallow: /png$

  Disallow: /bmp$

  其他很多情况呢,需要具体情况具体分析。只要你了解了这些语法规则以及通配符的使用,相信很多情况是可以解决的。

meta robots标签

  meta是网页html文件的head标签里面的标签内容。它规定了此html文件对与搜索引擎的抓取规则。与robottxt 不同,它只针对写在此html的文件。

  写法:

<meta name="robots" content="…" />。

  …里面的内容列出如下

  noindex - 阻止页面被列入索引。

  nofollow - 阻止对于页面中任何超级链接进行索引。

  noarchive - 不保存该页面的网页快照。

  nosnippet - 不在搜索结果中显示该页面的摘要信息,同时不保存该页面的网页快照。

  noodp - 在搜索结果中不使用Open Directory Project中的描述信息作为其摘要信息。

robotstxt是搜索引擎中访问网站的时候要查看的第一个文件。Robotstxt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。

当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robotstxt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

robotstxt必须放置在一个站点的根目录下,而且文件名必须全部小写。

语法:最简单的 robotstxt 文件使用两条规则:

• User-Agent: 适用下列规则的漫游器

• Disallow: 要拦截的网页

www5ztaocom欢迎您

DABAN RP主题是一个优秀的主题,极致后台体验,无插件,集成会员系统
网站模板库 » 书写robotstxt文件来屏蔽所有搜索引擎抓取dedecms默认后台的登陆路径

0条评论

发表评论

提供最优质的资源集合

立即查看 了解详情