如何看百度蜘蛛是否有来过
那么我们如何判断百度蜘蛛来过呢?答案是要根据网站log日志,如果百度蜘蛛来过那么网站log日志中会有相关记录。一个是百度蜘蛛名字 Baiduspider,一个是百度蜘蛛ip,这两点要综合考虑才能正确分析,下面我们说说具体如何操作。
1、先确认log日志对客户端访问机器名以及访问ip进行了记录。
如果没有记录这两项就没有Baiduspider字样显示,也没有百度蜘蛛IP记录。可以问下你虚拟主机的空间商,如何设置日志记录蜘蛛踪迹,如何下载下来日志,客服会详细告诉你。
2、下载网站log日志,可记事本打开文件,用查找 找 Baidu,字样并记录,各条数据IP。
因为有些站是仿百度蜘蛛来访问你的网站,他们名字也起的是Baiduspider,所以,为了避免被迷惑,我们还要根据IP进行反查,来确定这些IP对应的服务器名。下面是一些log日志中含Baiduspider的记录:
1231257126 - - [14/Feb/2014:01:03:29 +0800] "GET / HTTP/11" 200 10599 "-" "Mozilla/50 (compatible; Baiduspider/20; +http://wwwbaiducom/search/spiderhtml)"
1231257141 - - [14/Feb/2014:07:04:36 +0800] "GET / HTTP/11" 200 10599 "-" "Mozilla/50 (compatible; Baiduspider/20; +http://wwwbaiducom/search/spiderhtml)"
220181108117 - - [14/Feb/2014:01:03:49 +0800] "GET / HTTP/11" 200 10599 "-" "Mozilla/50 (compatible; Baiduspider/20; +http://wwwbaiducom/search/spiderhtml)"
220181108100 - - [14/Feb/2014:07:05:14 +0800] "GET / HTTP/11" 200 10599 "-" "Mozilla/50 (compatible; Baiduspider/20; +http://wwwbaiducom/search/spiderhtml)"
1172825553 - - [14/Feb/2014:08:30:11 +0800] "GET / HTTP/11" 200 4111 "-" "Mozilla/50 (compatible; Baiduspider/20; +http://wwwbaiducom/search/spiderhtml)"
6017222961 - - [14/Feb/2014:09:37:56 +0800] "GET / HTTP/11" 200 4123 "-" "Mozilla/50 (compatible; Baiduspider/20; +http://wwwbaiducom/search/spiderhtml)"
3、点“开始” “运行” 》 输入cmd 点“确认” 进入命令行模式,在命令行模式 输入 nslookup 回车 进入反查操作。输入你记录的百度蜘蛛ip 回车 看是否返回百度蜘蛛相关信息。如果返回就证明是百度蜘蛛;如果没有,证明是其他站仿的百度蜘蛛。
清除蜘蛛纸牌历史数据的步骤如下:
1 点击电脑桌面左下角圆形的“开始”按钮,打开“控制面板”。
2 选择“程序和功能”,打开“卸载或更改程序”。
3 在“卸载或更改程序”页面的左边菜单中选择“打开或关闭windows功能”。
4 找到并取消勾选“游戏”文件夹,然后点击“确定”按钮即可。
5 重新启动电脑后,再次查看“程序和功能”,确保所有与游戏相关的程序都被卸载。
以上就是清除蜘蛛纸牌历史数据的步骤。
判断蜘蛛有没有来过自己的网站可以查看IIS日志代码。
或者联系空间商开通了蜘蛛访问记录也可以。如果你的空间商给你的空间支持查询蜘蛛访问记录的话。可以在ftp找到WebLog的文件夹,具体步骤如下:
1打开FTP登陆软件(这里以FlashFxp为例),登陆你的空间FTP。登陆进FTP后,你会发现在根目录下有一个WebLog的文件夹
(注:不同的IDC空间生成的日志文件目录名称不一样,仅供参考一般文件夹中包含Log字符的都是日志文件夹)
2打开WebLog目录后,里面有一些以日期格式特征为文件名的gz后缀结尾的文件这些就是我们需要下载到本地的日志文件
3打开压缩文件,发现里面只有一个以log结尾的日志文件,我们需要的就是这个文件了
4解压后,打开日志文件Ctrl+F查找baiducom/search
特征字符(这里以百度蜘蛛为例)
通过分析蜘蛛来访纪录,可以了解本站的大体情况,而不用再为百度不放出内页或者不收录的问题而苦恼了
蜘蛛来访正常,可以确切的说,搜索引擎对你的站很友好的,坚持更新自己的网站,会有不错的收录的注:有些共享IP空间可能不支持日志功能对于独立ip虚拟主机则提供每天的日志下载而实在没有可以日志功能的空间可以参考使用
蜘蛛爬行插件
的一些方法进行分析希望看在我说了这么多的份上,给个采纳!!谢谢
什么是spider?(引擎蜘蛛)
spider是搜索引擎的一个自动程序。它的作用是访问互联网上的html网页,建立索引数据库,使用户能在搜索引擎中搜索到您网站的网页。
spider对一个网站服务器造成的访问压力如何?
spider会自动根据服务器的负载能力调节访问密度。在连续访问一段时间后,spider会暂停一会,以防止增大服务器的访问压力。所以在一般情况下,spider对您网站的服务器不会造成过大压力。
为什么spider不停的抓取我的网站?
对于您网站上新产生的或者持续更新的页面,spider会持续抓取。此外,您也可以检查网站访问日志中spider的访问是否正常,以防止有人恶意冒充spider来频繁抓取您的网站。 如果您发现spider非正常抓取您的网站,请发送反馈邮件到该搜索引擎,并请尽量给出spider对贵站的访问日志,以便于我们跟踪处理。
我不想我的网站被spider访问,我该怎么做?
spider遵守互联网robots协议。您可以利用robotstxt文件完全禁止spider访问您的网站,或者禁止spider访问您网站上的部分文件。 注意:禁止spider访问您的网站,将使您的网站上的网页,在搜索引擎以及所有提供搜索引擎服务的搜索引擎中无法被搜索到。
关于robotstxt的写作方法,请参看我们的介绍:robotstxt写作方法
为什么我的网站已经加了robotstxt,还能在搜索出来?
因为搜索引擎索引数据库的更新需要时间。虽然spider已经停止访问您网站上的网页,但搜索引擎数据库中已经建立的网页索引信息,可能需要二至四周才会清除。 另外也请检查您的robots配置是否正确。
蜘蛛在robotstxt中的名字是什么?
“spider”全部为小写字母。
spider多长时间之后会重新抓取我的网页?
搜索引擎每周更新,网页视重要性有不同的更新率,频率在几天至一月之间,spider会重新访问和更新一个网页。
知道了什么是SPIDER蜘蛛,那么怎么才能知道蜘蛛是否来过你的站?这个可以从你服务器或者虚拟主机的日志中看出来,比如我用的站的www2iqqcom的完整使用日志中有这样的记录:
22018138198 - - [11/Nov/2007:04:28:29 +0800] "GET / HTTP/11" 200 61083 "-" "Baiduspider+(+http://wwwbaiducom/search/spiderhtm)"这就说明蜘蛛来过我的站了,如果你还想知道有没有其它搜索引擎的蜘蛛来过你的站,你可以在日志文件中搜索“spider”这个词,或者搜索蜘蛛的IP,我的就查到sogou也来过我的站,IIS日志与Apache的日志是一样的,都可以查到。
下面是整理出来的一些搜索蜘蛛的地址
1 202106186 163蜘蛛
2 20210836 163蜘蛛
3 20210844 163蜘蛛
4 20210845 163蜘蛛
5 2021085 163蜘蛛
6 2021089 163蜘蛛
7 22018112 163蜘蛛
8 22018113 163蜘蛛
9 22018114 163蜘蛛
10 22018115 163蜘蛛
11 22018128 163蜘蛛
12 22018131 163蜘蛛
13 222185245 163蜘蛛
14 202165100 3721蜘蛛
22018138177 百度蜘蛛
15 22018119 百度蜘蛛
16 15922650 百度蜘蛛
17 20210811 百度蜘蛛
18 20210822 百度蜘蛛
19 20210823 百度蜘蛛
20 202108249 百度蜘蛛
21 202108250 百度蜘蛛
22 61135145 百度蜘蛛
23 61135146 百度蜘蛛
24 6412485 becomecom
25 61151243 china蜘蛛
26 20216596 gaiscsccuedutw
27 21623933 google蜘蛛
28 21623935 google蜘蛛
29 21623937 google蜘蛛
30 21623939 google蜘蛛
31 21623951 google蜘蛛
32 21623953 google蜘蛛
33 21623955 google蜘蛛
34 21623957 google蜘蛛
35 21623959 google蜘蛛
36 64233161 google蜘蛛
37 64233189 google蜘蛛
38 6610211 google蜘蛛
39 661027 google蜘蛛
40 661029 google蜘蛛
41 6624964 google蜘蛛
42 6624965 google蜘蛛
43 6624966 google蜘蛛
44 6624971 google蜘蛛
45 6624972 google蜘蛛
46 7214207 google蜘蛛
47 61135152 iask蜘蛛
48 6554188 msn蜘蛛
49 6554225 msn蜘蛛
50 6554226 msn蜘蛛
51 6554228 msn蜘蛛
52 6554229 msn蜘蛛
53 2074698 msn蜘蛛
54 20768157 msn蜘蛛
55 194224199 noxtrumbot
56 2201818 Outfox
57 221239209 Outfox
58 217212224 psbot
59 21913340 QQ蜘蛛
60 20296170 QQ蜘蛛
61 202104129 QQ蜘蛛
62 61135157 QQ蜘蛛
63 219142118 sina蜘蛛
64 21914278 sina蜘蛛
65 61135132 sohu蜘蛛
66 22018126 sohu蜘蛛
22018119
67 61135158 tom蜘蛛
68 6619690 yahoo蜘蛛
69 6619691 yahoo蜘蛛
70 68142249 yahoo蜘蛛
71 68142250 yahoo蜘蛛
72 68142251 yahoo蜘蛛
73 202165102 yahoo中国蜘蛛
74 202160178 yahoo中国蜘蛛
75 202160179 yahoo中国蜘蛛
76 202160180 yahoo中国蜘蛛
77 202160181 yahoo中国蜘蛛
78 202160183 yahoo中国蜘蛛
79 7230101 yahoo蜘蛛
80 7230102 yahoo蜘蛛
81 7230103 yahoo蜘蛛
82 7230104 yahoo蜘蛛
83 7230107 yahoo蜘蛛
84 7230110 yahoo蜘蛛
85 7230111 yahoo蜘蛛
86 7230128 yahoo蜘蛛
87 7230129 yahoo蜘蛛
88 7230131 yahoo蜘蛛
89 7230133 yahoo蜘蛛
90 7230134 yahoo蜘蛛
91 7230135 yahoo蜘蛛
92 7230216 yahoo蜘蛛
93 7230226 yahoo蜘蛛
94 7230252 yahoo蜘蛛
95 723097 yahoo蜘蛛
96 723098 yahoo蜘蛛
97 723099 yahoo蜘蛛
98 74674 yahoo蜘蛛
99 2021084 中搜蜘蛛
100 2021084 中搜蜘蛛
101 20210833 中搜蜘蛛
102 2029651 中搜蜘蛛
103 21914253 中搜蜘蛛
平时我们经常说的多的就是通过分析百度相关域和收录、yahoo反向链接以及PR等等来分析我们网站的权重和网站的好坏。如果是我们的网站出了什么问题,我们做站长的最关心的也就是我们的网站的收录、相关域以及反向链接的变化,在这里我要和大家分享的是IIS日志的分析,下面简单的由我来分析下。
IIs(internet information services)日志是我们每个网站都具有的功能,只是我们大部分的站长都不怎么去关心它,还有部分站长用的空间或许没有IIs日志功能,这就需要你去找你的服务器提供商来帮你开通IIS日志功能,只有我们的空间有了这样一个功能后,蜘蛛来到我们的网站了与服务器的对话才会被记录到IIs日志里面,我们通过分析IIS日志就可以知道蜘蛛来我们网站做了什么,爬取和收录了我们的哪些页面,包括蜘蛛来我们网站的爬取次数和地址,哪些是蜘蛛喜欢爬取的,哪些是蜘蛛不喜欢的或者说是无法爬取到的页面,知道这些了我们就能针对蜘蛛爬取的动向来更好的分析和优化我们的网站页面,更清楚我们网站在搜索引擎的动态,那么我们怎么去分析IIS日志
第二,查看蜘蛛的IP地址,这个没多大用处,我们知道就行,IP地址就像平时我们用手机给你的朋友打电话的时候一样,你给你的朋友打电话的同时,你朋友的手机上就会显示你的手机号码是同一个道理,蜘蛛也是一样,它来到了你的网站就会用一个IP来显示它的“手机号码”。
200:页面访问成功但不一定会收录下载
301:资源永久重定向
302:资源临时重定向
304:页面未更新,蜘蛛来到了我们的这个页面后发现这个页面我以前来过,这次再来的时候发现这人页面里面的内容完全是和第一次来的时候一样的,IIS日志里面就会返回大量的304。
404:访问的这个链接是错误链接。这个错误链接,一方面来自原本存在后来删除了网页,另一方面可能来自本来就不存在,但其他人外链了这么个死链接。
0条评论