书写robotstxt文件来屏蔽所有搜索引擎抓取dedecms默认后台的登陆路径
找到网站死链后,到百度站长平台提交死链,等待百度删除即可。
robotstxt文件用法举例:
1 允许所有的robot访问
User-agent: Allow: / 或者 User-agent: Disallow:
2 禁止所有搜索引擎访问网站的任何部分
User-agent:
Disallow: /
3 仅禁止Baiduspider访问您的网站
User-agent: Baiduspider
Disallow: /
4 仅允许Baiduspider访问您的网站
User-agent: Baiduspider
Disallow:
5 禁止spider访问特定目录
User-agent:
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
6 允许访问特定目录中的部分url
User-agent:
Allow: /cgi-bin/see
Allow: /tmp/hi
Allow: /~joe/look
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
7 使用””限制访问url
禁止访问/cgi-bin/目录下的所有以”htm”为后缀的URL(包含子目录)。
User-agent:
Disallow: /cgi-bin/htm
8 使用”$”限制访问url
仅允许访问以”htm”为后缀的URL。
User-agent:
Allow: htm$
Disallow: /
例9 禁止访问网站中所有的动态页面
User-agent:
Disallow: /
10 禁止Baiduspider抓取网站上所有
仅允许抓取网页,禁止抓取任何。
User-agent: Baiduspider
Disallow: jpg$
Disallow: jpeg$
Disallow: gif$
Disallow: png$
Disallow: bmp$
11 仅允许Baiduspider抓取网页和gif格式
允许抓取网页和gif格式,不允许抓取其他格式
User-agent: Baiduspider
Allow: gif$
Disallow: jpg$
Disallow: jpeg$
Disallow: png$
Disallow: bmp$
12 仅禁止Baiduspider抓取jpg格式
User-agent: Baiduspider
Disallow: jpg$
如何写robotstxt文件才能集中网站权重?
一:什么是robots协议robots协议(也称为爬虫协议、爬虫规则、机器人协议等)也就是robotstxt,网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不希望被抓取。• Robots协议是网站国际互联网界通行的道德规范,其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。• 因其不是命令,是一种单方面协议,故需要搜索引擎自觉遵守。
淘宝利用robots屏蔽了百度蜘蛛的抓取
淘宝的robots协议
二:robotstxt放置位置robotstxt文件应该放置在网站根目录下。例如,当spider访问一个网站(比如 http://wwwtaobaocom)时,首先会检查该网站中是否存在http://wwwtaobaocom/robotstxt这个文件,如果 Spider找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。
三:robotstxt文件的写法
操作步骤:
1新建一个文本文档,命名为robotstxt
2开始写robots
User-agent: (针对所有搜索引擎)
Disallow: / (禁止爬取所有页面,/代表目录)
Disallow: /admin/ (禁止抓取admin目录)
Disallow: /admin (禁止抓取包含admin的路径)
Allow: /admin/s3html (允许抓取admin目录下s3html文件)
一个“/”表示路径,两个“/”表示文件夹
Allow: /admin/php/ (允许抓取admin下面的php文件的所有内容)
Disallow: /css$ (禁止抓取所有带css的文件)
sitemap:
注意:
• 冒号后面有空格,空格后面都有/(都要以/开头),开头第一个字母大写• 因为搜索引擎蜘蛛来抓取网站的时候最先看的就robots文件,我们把网站地图的地址放到robots协议中有利于搜索引擎蜘蛛的抓取,从而提高网站的收录。
您好,朋友。跟版网很高兴为您解答:
织梦dedecms默认是不被搜索引擎抓取后台登录路径的,如果您要写在robotstxt中的话,恰恰会暴露后台地址给那些黑您网站的人。
个人建议不要将敏感目录写在robotstxt中,否则会很不安全。
希望我的回答能够帮到您。
robotstxt的写法是做seo的人员必须知道的(什么是robotstxt),但该如何写,禁止哪些、允许哪些,这就要我们自己设定了。
百度蜘蛛是一机器,它只认识数字、字母和汉字,而其中robotstxt就是最重要也是最开始和百度“对话”的内容。
当我们的网站在没有建好的时候,我们不希望百度来抓取我们的网站,往往有人会禁止百度来抓取。但是,这种做法是非常不好的,这样会让百度蜘蛛很难再来到你的网站了。所以,我们必须现在本地搭建网站,等一切都搞好以后,再去买域名、空间,要不,一个网站的反复修改,会对你的网站有一定的不利影响。
我们的网站起初的robotstxt写法如下:
User-agent:
Disallow: /wp-admin/
Disallow: /wp-includes/
User-agent: 的意思是,允许所以引擎抓取。
而Disallow: /wp-admin/和Disallow: /wp-includes/,则是禁止百度抓取我们的隐私,包括用户密码、数据库等。这样的写法既保护了我们的隐私,也让百度蜘蛛的抓取最大化。
如果,你想禁止百度蜘蛛抓取某一个页面,比如123html,那就加一句代码“Disallow: /123html/”即可。
robotstxt写好后,只需要上传到网站的根目录下即可。
robots基本概念
Robotstxt文件是网站的一个文件,它是给搜索引擎蜘蛛看的。搜索引擎蜘蛛爬行道我们的网站首先就是抓取这个文件,根据里面的内容来决定对网站文件访问的范围。它能够保护我们的一些文件不暴露在搜索引擎之下,从而有效的控制蜘蛛的爬取路径,为我们站长做好seo创造必要的条件。尤其是我们的网站刚刚创建,有些内容还不完善,暂时还不想被搜索引擎收录时。
robotstxt也可用在某一目录中。对这一目录下的文件进行搜索范围设定。
几点注意:
网站必须要有一个robottxt文件。
文件名是小写字母。
当需要完全屏蔽文件时,需要配合meta的robots属性。
robotstxt的基本语法
内容项的基本格式:键: 值对。
1) User-Agent键
后面的内容对应的是各个具体的搜索引擎爬行器的名称。如百度是Baiduspider,谷歌是Googlebot。
一般我们这样写:
User-Agent:
表示允许所有搜索引擎蜘蛛来爬行抓取。如果只想让某一个搜索引擎蜘蛛来爬行,在后面列出名字即可。如果是多个,则重复写。
注意:User-Agent:后面要有一个空格。
在robotstxt中,键后面加:号,后面必有一个空格,和值相区分开。
2)Disallow键
该键用来说明不允许搜索引擎蜘蛛抓取的URL路径。
例如:Disallow: /indexphp 禁止网站indexphp文件
Allow键
该键说明允许搜索引擎蜘蛛爬行的URL路径
例如:Allow: /indexphp 允许网站的indexphp
通配符
代表任意多个字符
例如:Disallow: /jpg 网站所有的jpg文件被禁止了。
结束符$
表示以前面字符结束的url。
例如:Disallow: /$ 网站所有以结尾的文件被禁止。
四、robotstxt实例分析
例1 禁止所有搜索引擎访问网站的任何部分
User-agent:
Disallow: /
例2 允许所有的搜索引擎访问网站的任何部分
User-agent:
Disallow:
例3 仅禁止Baiduspider访问您的网站
User-agent: Baiduspider
Disallow: /
例4 仅允许Baiduspider访问您的网站
User-agent: Baiduspider
Disallow:
例5 禁止spider访问特定目录
User-agent:
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /data/
注意事项:1)三个目录要分别写。2)请注意最后要带斜杠。3)带斜杠与不带斜杠的区别。
例6 允许访问特定目录中的部分url
我希望a目录下只有bhtm允许访问,怎么写
User-agent:
Allow: /a/bhtm
Disallow: /a/
注:允许收录优先级要高于禁止收录。
从例7开始说明通配符的使用。通配符包括("$" 结束符;
""任意符)
例7 禁止访问网站中所有的动态页面
User-agent:
Disallow: /
例8 禁止搜索引擎抓取网站上所有
User-agent:
Disallow: /jpg$
Disallow: /jpeg$
Disallow: /gif$
Disallow: /png$
Disallow: /bmp$
其他很多情况呢,需要具体情况具体分析。只要你了解了这些语法规则以及通配符的使用,相信很多情况是可以解决的。
meta robots标签
meta是网页html文件的head标签里面的标签内容。它规定了此html文件对与搜索引擎的抓取规则。与robottxt 不同,它只针对写在此html的文件。
写法:
<meta name="robots" content="…" />。
…里面的内容列出如下
noindex - 阻止页面被列入索引。
nofollow - 阻止对于页面中任何超级链接进行索引。
noarchive - 不保存该页面的网页快照。
nosnippet - 不在搜索结果中显示该页面的摘要信息,同时不保存该页面的网页快照。
noodp - 在搜索结果中不使用Open Directory Project中的描述信息作为其摘要信息。
robotstxt是搜索引擎中访问网站的时候要查看的第一个文件。Robotstxt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。
当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robotstxt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
robotstxt必须放置在一个站点的根目录下,而且文件名必须全部小写。
语法:最简单的 robotstxt 文件使用两条规则:
• User-Agent: 适用下列规则的漫游器
• Disallow: 要拦截的网页
www5ztaocom欢迎您
0条评论