网页打不开,由于该网站的robotstxt文件存在限制指令,系统无法提供该页面的内容描述

网页打不开,由于该网站的robotstxt文件存在限制指令,系统无法提供该页面的内容描述,第1张

一、先来普及下robotstxt的概念:

  robotstxt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不能被搜索引擎的漫游器获取的,哪些是可以被(漫游器)获取的。这个文件用于指定spider在您网站上的抓取范围,一定程度上保护站点的安全和隐私。同时也是网站优化利器,例如屏蔽捉取站点的重复内容页面。

  robotstxt目前并不是一种标准,只是一种协议!所以现在很多搜索引擎对robotstxt里的指令参数都有不同的看待。

  二、使用robotstxt需要注意的几点地方:

  1、指令区分大小写,忽略未知指令,下图是本博客的robotstxt文件在Google管理员工具里的测试结果;

  2、每一行代表一个指令,空白和隔行会被忽略;

  3、“#”号后的字符参数会被忽略;

  4、有独立User-agent的规则,会排除在通配“”User agent的规则之外;

  5、可以写入sitemap文件的链接,方便搜索引擎蜘蛛爬行整站内容。

  6、尽量少用Allow指令,因为不同的搜索引擎对不同位置的Allow指令会有不同看待。

  三、Wordpress的robotstxt优化设置

  1、User-agent:

  一般博客的robotstxt指令设置都是面对所有spider程序,用通配符“”即可。如果有独立User-agent的指令规则,尽量放在通配“”User agent规则的上方。

  2、Disallow: /wp-admin/

  Disallow: /wp-content/

  Disallow: /wp-includes/

  屏蔽spider捉取程序文件,同时也节约了搜索引擎蜘蛛资源。

  3、Disallow: //trackback

  每个默认的文章页面代码里,都有一段trackback的链接,如果不屏蔽让蜘蛛去捉取,网站会出现重复页面内容问题。

  4、Disallow: /feed

  Disallow: //feed

  Disallow: /comments/feed

  头部代码里的feed链接主要是提示浏览器用户可以订阅本站,而一般的站点都有RSS输出和网站地图,故屏蔽搜索引擎捉取这些链接,节约蜘蛛资源。

  5、Disallow: /s=

  Disallow: //s=

  这个就不用解释了,屏蔽捉取站内搜索结果。站内没出现这些链接不代表站外没有,如果收录了会造成和TAG等页面的内容相近。

  6、Disallow: /r=

  屏蔽留言链接插件留下的变形留言链接。(没安装相关插件当然不用这条指令)

  7、Disallow: /jpg$

  Disallow: /jpeg$

  Disallow: /gif$

  Disallow: /png$

  Disallow: /bmp$

  屏蔽捉取任何文件,在这里主要是想节约点宽带,不同的网站管理员可以按照喜好和需要设置这几条指令。

  8、Disallow: /p=

  屏蔽捉取短链接。默认头部里的短链接,百度等搜索引擎蜘蛛会试图捉取,虽然最终短链接会301重定向到固定链接,但这样依然造成蜘蛛资源的浪费。

  9、Disallow: //comment-page-

  Disallow: /replytocom

  屏蔽捉取留言信息链接。一般不会收录到这样的链接,但为了节约蜘蛛资源,也屏蔽之。

  10、Disallow: /a/date/

  Disallow: /a/author/

  Disallow: /a/category/

  Disallow: /p=&preview=true

  Disallow: /page_id=&preview=true

  Disallow: /wp-loginphp

  屏蔽其他的一些形形色色的链接,避免造成重复内容和隐私问题。

  10、Sitemap:http://com/sitemaptxt

  网站地图地址指令,主流是txt和xml格式。告诉搜索引擎网站地图地址,方便搜索引擎捉取全站内容,当然你可以设置多个地图地址。要注意的就是Sitemap的S要用大写,地图地址也要用绝对地址。

  上面的这些Disallow指令都不是强制要求的,可以按需写入。也建议站点开通谷歌管理员工具,检查站点的robotstxt是否规范。

如何写robotstxt文件才能集中网站权重?

一:什么是robots协议robots协议(也称为爬虫协议、爬虫规则、机器人协议等)也就是robotstxt,网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不希望被抓取。• Robots协议是网站国际互联网界通行的道德规范,其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。• 因其不是命令,是一种单方面协议,故需要搜索引擎自觉遵守。

淘宝利用robots屏蔽了百度蜘蛛的抓取

淘宝的robots协议

二:robotstxt放置位置robotstxt文件应该放置在网站根目录下。例如,当spider访问一个网站(比如 http://wwwtaobaocom)时,首先会检查该网站中是否存在http://wwwtaobaocom/robotstxt这个文件,如果 Spider找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。

三:robotstxt文件的写法

操作步骤:

1新建一个文本文档,命名为robotstxt

2开始写robots

User-agent: (针对所有搜索引擎)

Disallow: / (禁止爬取所有页面,/代表目录)

Disallow: /admin/ (禁止抓取admin目录)

Disallow: /admin (禁止抓取包含admin的路径)

Allow: /admin/s3html (允许抓取admin目录下s3html文件)

一个“/”表示路径,两个“/”表示文件夹

Allow: /admin/php/ (允许抓取admin下面的php文件的所有内容)

Disallow: /css$ (禁止抓取所有带css的文件)

sitemap:

注意:

• 冒号后面有空格,空格后面都有/(都要以/开头),开头第一个字母大写• 因为搜索引擎蜘蛛来抓取网站的时候最先看的就robots文件,我们把网站地图的地址放到robots协议中有利于搜索引擎蜘蛛的抓取,从而提高网站的收录。

一、网络设置的问题 这种原因比较多出现在需要手动指定IP、网关、DNS服务器联网方式下,及使用代理服务器上网的。仔细检查计算机的网络设置。 二、DNS服务器的问题 当IE无法浏览网页时,可先尝试用IP地址来访问,如果可以访问,那么应该是DNS的问题,造成DNS的问题可能是连网时获取DNS出错或DNS服务器本身问题,这时你可以手动指定DNS服务(地址可以是你当地ISP提供的DNS服务器地址,也可以用其它地方可正常使用DNS服务器地址。)在网络的属性里进行,(控制面板—网络和拔号连接—本地连接—右键属性—TCP/IP协议—属性—使用下面的DNS服务器地址)。不同的ISP有不同的DNS地址。有时候则是路由器或网卡的问题,无法与ISP的DNS服务连接,这种情况的话,可把路由器关一会再开,或者重新设置路由器。 还有一种可能,是本地DNS缓存出现了问题。为了提高网站访问速度,系统会自动将已经访问过并获取IP地址的网站存入本地的DNS缓存里,一旦再对这个网站进行访问,则不再通过DNS服务器而直接从本地DNS缓存取出该网站的IP地址进行访问。所以,如果本地DNS缓存出现了问题,会导致网站无法访问。可以在“运行”中执行ipconfig /flushdns来重建本地DNS缓存。 三、IE浏览器本身的问题 当IE浏览器本身出现故障时,自然会影响到浏览了;或者IE被恶意修改破坏也会导致无法浏览网页。这时可以尝试用“黄山IE修复专家”来修复(建议到安全模式下修复),或者重新IE(如重装IE遇到无法重新的问题,可参考:附一解决无法重装IE) 四、网络防火墙的问题 如果网络防火墙设置不当,如安全等级过高、不小心把IE放进了阻止访问列表、错误的防火墙策略等,可尝试检查策略、降低防火墙安全等级或直接关掉试试是否恢复正常。 五、网络协议和网卡驱动的问题 IE无法浏览,有可能是网络协议(特别是TCP/IP协议)或网卡驱动损坏导致,可尝试重新网卡驱动和网络协议。 六、HOSTS文件的问题 HOSTS文件被修改,也会导致浏览的不正常,解决方法当然是清空HOSTS文件里的内容。 七、系统文件的问题 当与IE有关的系统文件被更换或损坏时,会影响到IE正常的使用,这时可使用SFC命令修复一下,WIN98系统可在“运行”中执行SFC,然后执行扫描;WIN2000/XP/2003则在“运行”中执行sfc /scannow尝试修复。 其中当只有IE无法浏览网页,而可以上时,则往往由于winsockdll、wsock32dll或wsockvxd(VXD只在WIN9X系统下存在)等文件损坏或丢失造成,Winsock是构成TCP/IP协议的重要组成部分,一般要重装TCP/IP协议。但xp开始集成TCP/IP协议,所以不能像98那样简单卸载后重装,可以使用 netsh 命令重置 TCP/IP协议,使其恢复到初次安装操作系统时的状态。具体操作如下: 点击“开始 运行”,在运行对话框中输入“CMD”命令,弹出命令提示符窗口,接着输入“netsh int ip reset c:\resetlogtxt”命令后会回车即可,其中“resetlogtxt”文件是用来记录命令执行结果的日志文件,该参数选项必须指定,这里指定的日志文件的完整路径是“c:\resetlogtxt”。执行此命令后的结果与删除并重新安装 TCP/IP 协议的效果相同。 小提示:netsh命令是一个基于命令行的脚本编写工具,你可以使用此命令配置和监视Windows 系统,此外它还提供了交互式网络外壳程序接口,netsh命令的使用格式请参看帮助文件(在令提示符窗口中输入“netsh/”即可)。 第二个解决方法是修复以上文件,WIN9X使用SFC重新提取以上文件,WIN2000/XP/2003使用sfc /scannow命令修复文件,当用sfc /scannow无法修复时,可试试网上发布的专门针对这个问题的修复工具WinSockFix,可以在网上搜索下载。 八、杀毒软件的实时监控问题 这倒不是经常见,但有时的确跟实时监控有关,因为现在杀毒软件的实时监控都添加了对网页内容的监控。举一个实例:KV2005就会在个别的机子上会导致IE无法浏览网页(不少朋友遇到过),其具体表现是只要打开网页监控,一开机上网大约20来分钟后,IE就会无法浏览网页了,这时如果把KV2005的网页监控关掉,就一切恢复正常;经过彻底地重装KV2005也无法解决。虽然并不是安装KV2005的每台机子都会出现这种问题,毕竟每台机子的系统有差异,安装的程序也不一样。但如果出现IE无法浏览网页时,也要注意检查一下杀毒软件。 九、感染了病毒所致 这种情况往往表现在打开IE时,在IE界面的左下框里提示:正在打开网页,但老半天没响应。在任务管理器里查看进程,(进入方法,把鼠标放在任务栏上,按右键—任务管理器—进程)看看CPU的占用率如何,如果是100%,可以肯定,是感染了病毒,这时你想运行其他程序简直就是受罪。这就要查查是哪个进程贪婪地占用了CPU资源.找到后,最好把名称记录下来,然后点击结束,如果不能结束,则要启动到安全模式下把该东东删除,还要进入注册表里,(方法:开始—运行,输入regedit)在注册表对话框里,点编辑—查找,输入那个程序名,找到后,点鼠标右键删除,然后再进行几次的搜索,往往能彻底删除干净。 有很多的病毒,杀毒软件无能为力时,唯一的方法就是手动删除。 十一、无法打开二级链接 还有一种现象也需特别留意:就是能打开网站的首页,但不能打开二级链接,如果是这样,处理的方法是重新注册如下的DLL文件: 在开始—运行里输入: regsvr32 Shdocvwdll regsvr32 Shell32dll(注意这个命令,先不用输) regsvr32 Oleaut32dll regsvr32 Actxprxydll regsvr32 Mshtmldll regsvr32 Urlmondll regsvr32 Msjavadll regsvr32 Browseuidll 注意:每输入一条,按回车。第二个命令可以先不用输,输完这些命令后重新启动windows,如果发现无效,再重新输入一遍,这次输入第二个命令。

robotstxt撰写方法:

(1),允许所有的搜索引擎访问网站的所有部分或者建立一个空白的文本文档,命名为robotstxt。

User-agent:Disallow:或者User-agent:Allow:/

(2),禁止所有搜索引擎访问网站的所有部分。

User-agent:Disallow:/

(3),禁止百度索引你的网站。

User-agent:BaiduspiderDisallow:/

(4),禁止Google索引你的网站。

User-agent:GooglebotDisallow:/

(5),禁止除百度以外的一切搜索引擎索引你的网站。

User-agent:BaiduspiderDisallow:User-agent:Disallow:/

(6),禁止除Google以外的一切搜索引擎索引你的网站。

User-agent:GooglebotDisallow:User-agent:Disallow:/

(7),禁止和允许搜索引擎访问某个目录,如:禁止访问admin目录;允许访问images目录。

User-agent:Disallow:/admin/Allow:/images/

(8),禁止和允许搜索引擎访问某个后缀,如:禁止访问admin目录下所有php文件;允许访问asp文件。

User-agent:Disallow:/admin/php$Allow:/admin/asp$

(9),禁止索引网站中所有的动态页面(这里限制的是有“?”的域名,如:indexphpid=8)。

User-agent:Disallow:/

什么是robotstxt?

  搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做robotstxt的纯文本文件。您可以在您的网站中创建一个纯文本文件robotstxt,在文件中声明该网站中不想被robot访问的部分或者指定搜索引擎只收录特定的部分。

 

  请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robotstxt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robotstxt文件或者创建一个内容为空的robotstxt文件。

 

  robotstxt 放置位置

  robotstxt文件应该放置在网站根目录下。举例来说,当spider访问一个网站(比如http://www180186com)时,首先会检查该网站中是否存在http://www180186com/robotstxt这个文件,如果 Spider找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。

 

  robotstxt 格式

  文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:”:”。在该文件中可以使用#进行注解。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow和Allow行,详细情况如下。

 

  User-agent:

  该项的值用于描述搜索引擎robot的名字。在”robotstxt”文件中,如果有多条User-agent记录说明有多个robot会受到”robotstxt”的限制,对该文件来说,至少要有一条User-agent记录。 如果该项的值设为,则对任何robot均有效,在”robotstxt”文件中,”User-agent:”这样的记录只能有一条。如果在”robotstxt”文件中,加入”User- agent:SomeBot”和若干Disallow、Allow行,那么名为”SomeBot”只受到”User-agent:SomeBot”后面的 Disallow和Allow行的限制。 Disallow: 该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被robot访问。例 如”Disallow: /help”禁止robot访问/helphtml、/help/indexhtml, 而”Disallow: /help/”则允许robot访问/helphtml,不能访问/help/indexhtml。

  "Disallow:"说明允许robot访问该网站的所有url,在”/robotstxt”文件中,至少要有一条Disallow记录。如果”/robotstxt”不存在或者为空文件,则对于所有的搜索引擎robot,该网站都是开放的。

  Allow:

  该项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL是允许robot访问的。例如”Allow:/hibaidu”允许robot访问/hibaiduhtm、/hibaiducomhtml、 /hibaidu/comhtml。一个网站的所有URL默认是Allow的,所以Allow通常与Disallow搭配使用,实现允许访问一部分网页同时禁止访问其它所有URL的功能。

  需要特别注意的是Disallow与Allow行的顺序是有意义的,robot会根据第一个匹配成功的 Allow或Disallow行确定是否访问某个URL。

  使用””和”$”: Baiduspider 支持使用通配符””和”$”来模糊匹配url。 “$” 匹配行结束符。 “” 匹配0或多个任意字符。

  robotstxt文件用法举例:

  1 允许所有的robot访问

  User-agent: Allow: / 或者 User-agent: Disallow:

  2 禁止所有搜索引擎访问网站的任何部分

  User-agent:

  Disallow: /

  3 仅禁止Baiduspider访问您的网站

  User-agent: Baiduspider

  Disallow: /

  4 仅允许Baiduspider访问您的网站

  User-agent: Baiduspider

  Disallow:

  5 禁止spider访问特定目录

  User-agent:

  Disallow: /cgi-bin/

  Disallow: /tmp/

  Disallow: /~joe/

  6 允许访问特定目录中的部分url

  User-agent:

  Allow: /cgi-bin/see

  Allow: /tmp/hi

  Allow: /~joe/look

  Disallow: /cgi-bin/

  Disallow: /tmp/

  Disallow: /~joe/

  7 使用””限制访问url

  禁止访问/cgi-bin/目录下的所有以”htm”为后缀的URL(包含子目录)。

  User-agent:

  Disallow: /cgi-bin/htm

  8 使用”$”限制访问url

  仅允许访问以”htm”为后缀的URL。

  User-agent:

  Allow: htm$

  Disallow: /

  例9 禁止访问网站中所有的动态页面

  User-agent:

  Disallow: /

  10 禁止Baiduspider抓取网站上所有

  仅允许抓取网页,禁止抓取任何。

  User-agent: Baiduspider

  Disallow: jpg$

  Disallow: jpeg$

  Disallow: gif$

  Disallow: png$

  Disallow: bmp$

  11 仅允许Baiduspider抓取网页和gif格式

  允许抓取网页和gif格式,不允许抓取其他格式

  User-agent: Baiduspider

  Allow: gif$

  Disallow: jpg$

  Disallow: jpeg$

  Disallow: png$

  Disallow: bmp$

  12 仅禁止Baiduspider抓取jpg格式

  User-agent: Baiduspider

  Disallow: jpg$

还有其他不懂,可以看看我写的方案,应该对你有启发

方法/步骤

1、网站标题seo优化技巧:

列表页标题优化技巧:把列表文件中的<title></title>改为栏目名称-seo标题-网站名称即<title>{dede:fieldtitle/}-{dede:fieldseotitle

/}-{dede:globalcfg_webname/}</title>

2、内容页标题优化技巧:把内容页文件中的<title></title>改为文章标题-网站名称<title>{dede:fieldtitle/}-{dede:globalcfg_webname/}</title>

3、网站url路径的优化技巧:dede默认的路径名称是栏目的拼音,然而栏目下的文章内容的默认url路径是栏目路径/年/月日/文章id的形式,文章的路径默认就增加了(年/月日/)2层目录,不利于搜索引擎的抓取,应该让网址规范化改为栏目路径/文章idhtml。

具体操作方法如下:在栏目修改哪里的高级选项里有个文章命名规则:默认是这样的{typedir}/{Y}/{M}{D}/{aid}html,把它改成{typedir}/{aid}html或者你把内容都放在一个文件夹里

a/{aid}html这样的话路径就比较规范化了,有利于搜索引擎的抓取。

4、做一个404页面:在主机控制面板开启404功能,然后做一个404文件并上传404htm页面并放入到根目录下

5、做好robots文件并上传网站根目录,文件内容:模板里的,css等不需要蜘蛛爬行,upload里的附件不需要蜘蛛爬行,具体格式:

6、js广告的优化:网站通用的js可以保存到一个文件比如把常用的函数保存到commonjs里,尽量不用dede默认的广告插件,我发现那个广告插件不如直接自己写js速度快。另外如果网站头部有js广告的话,打开的时候可能影响速度,解决方法:可以用一个层,把js放到底部,然后用css绝对定位到头部你需要的位置这样就不影响速度了。另外给大家提醒下,广告文件名和文件目录最好别用ad

ads

guanggao之类的名称,因为如果用这类名称会导致遨游浏览器屏蔽你的广告,虽说遨游用户不多,但是细节问题也要注意啊。

7、织梦dedecms网站seo优化技巧一般就这几项,做好这些会提高网站的收录量,优化知识到此结束,希望可以帮助大家。

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

文件写法

User-agent: 这里的代表的所有的搜索引擎种类,是一个通配符

Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录

Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录

Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录

Disallow: /cgi-bin/htm 禁止访问/cgi-bin/目录下的所有以"htm"为后缀的URL(包含子目录)。

Disallow: / 禁止访问网站中所有包含问号 () 的网址

Disallow: /jpg$ 禁止抓取网页所有的jpg格式的

Disallow:/ab/adchtml 禁止爬取ab文件夹下面的adchtml文件。

Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录

Allow: /tmp 这里定义是允许爬寻tmp的整个目录

Allow: htm$ 仅允许访问以"htm"为后缀的URL。

Allow: gif$ 允许抓取网页和gif格式

Sitemap: 网站地图 告诉爬虫这个页面是网站地图

文件用法

例1 禁止所有搜索引擎访问网站的任何部分

User-agent:

Disallow: /

实例分析:淘宝网的 Robotstxt文件

User-agent: Baiduspider

Disallow: /

User-agent: baiduspider

Disallow: /

很显然淘宝不允许百度的机器人访问其网站下其所有的目录。

例2 允许所有的robot访问 (或者也可以建一个空文件 “/robotstxt” file)

User-agent:

Allow: /

例3 禁止某个搜索引擎的访问

User-agent: BadBot

Disallow: /

例4 允许某个搜索引擎的访问

User-agent: Baiduspider

allow:/

例5一个简单例子

在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即搜索引擎不会访问这三个目录。

需要注意的是对每一个目录必须分开声明,而不要写成 “Disallow: /cgi-bin/ /tmp/”。

User-agent:后的具有特殊的含义,代表“any robot”,所以在该文件中不能有“Disallow: /tmp/” or “Disallow:gif”这样的记录出现。

User-agent:

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /~joe/

Robot特殊参数:

允许 Googlebot:

如果您要拦截除Googlebot以外的所有漫游器不能访问您的网页,可以使用下列语法:

User-agent:

Disallow: /

User-agent: Googlebot

Disallow:

Googlebot 跟随指向它自己的行,而不是指向所有漫游器的行。

“Allow”扩展名:

Googlebot 可识别称为“Allow”的 robotstxt 标准扩展名。其他搜索引擎的漫游器可能无法识别此扩展名,因此请使用您感兴趣的其他搜索引擎进行查找。“Allow”行的作用原理完全与“Disallow”行一样。只需列出您要允许的目录或页面即可。

您也可以同时使用“Disallow”和“Allow”。例如,要拦截子目录中某个页面之外的其他所有页面,可以使用下列条目:

User-agent: Googlebot

Allow: /folder1/myfilehtml

Disallow: /folder1/

这些条目将拦截 folder1 目录内除 myfilehtml 之外的所有页面。

如果您要拦截 Googlebot 并允许 Google 的另一个漫游器(如 Googlebot-Mobile),可使用”Allow”规则允许该漫游器的访问。例如:

User-agent: Googlebot

Disallow: /

User-agent: Googlebot-Mobile

Allow:

使用 号匹配字符序列:

您可使用星号 () 来匹配字符序列。例如,要拦截对所有以 private 开头的子目录的访问,可使用下列条目: User-Agent: Googlebot

Disallow: /private/

要拦截对所有包含问号 () 的网址的访问,可使用下列条目:

User-agent:

Disallow: /

使用 $ 匹配网址的结束字符

您可使用 $字符指定与网址的结束字符进行匹配。例如,要拦截以 asp 结尾的网址,可使用下列条目: User-agent: Googlebot

Disallow: /asp$

您可将此模式匹配与 Allow 指令配合使用。例如,如果 表示一个会话 ID,您可排除所有包含该 ID 的网址,确保 Googlebot 不会抓取重复的网页。但是,以 结尾的网址可能是您要包含的网页版本。在此情况下,可对 robotstxt 文件进行如下设置:

User-agent:

Allow: /$

Disallow: /

Disallow: /

一行将拦截包含 的网址(具体而言,它将拦截所有以您的域名开头、后接任意字符串,然后是问号 (),而后又是任意字符串的网址)。

Allow: /$ 一行将允许包含任何以 结尾的网址(具体而言,它将允许包含所有以您的域名开头、后接任意字符串,然后是问号 (),问号之后没有任何字符的网址)。

尽管robotstxt已经存在很多年了,但是各大搜索引擎对它的解读都有细微差别。Google与百度都分别在自己的站长工具中提供了robots工具。如果您编写了robotstxt文件,建议您在这两个工具中都进行测试,因为这两者的解析实现确实有细微差别。

DABAN RP主题是一个优秀的主题,极致后台体验,无插件,集成会员系统
网站模板库 » 网页打不开,由于该网站的robotstxt文件存在限制指令,系统无法提供该页面的内容描述

0条评论

发表评论

提供最优质的资源集合

立即查看 了解详情