如何进行网站日志分析
1网站日志是记录web服务器接收处理请求以及运行时错误等各种原始信息的以·log结尾的文件。
2通过网站日志可以清楚的得知用户在什么IP、什么时间、用什么操作系统、什么浏览器、什么分辨率设备下访问了网站的哪个页面,是否访问成功。
3搜索引擎也属于网站中的一类用户,我们今天的分享课,主要是针对搜索引擎这种用户在服务器留下的记录展开分析。
为了方便读懂搜索引擎日志,我们需要了解不同搜索引擎蜘蛛的标识,以下为4种搜索引擎的标识——百度蜘蛛:Baiduspider搜狗:Sogou News Spider360:360Spider谷歌:Googlebot
二、如何看懂网站日志
(以下为一段日志记录)wwwcafehomecom
58180251134 - - [25/Mar/2015:13:24:33 +0800] "GET /m53256html
HTTP/11" 200 12264 "http://wwwcafehomecom/index-1s2i2p2" "Mozilla/50
(Windows NT 61) AppleWebKit/53736 (KHTML, like Gecko)
Chrome/3501916153 Safari/53736 SE 2X MetaSr 10" "-" "-" "-"
以下为字段解读:
通常日志文件较大的情况下,需要借助shell与python结合起来,做数据提取与分析。所以读懂网站日志中的字段就有利于日常的分析。这个在此不赘述,有兴趣的童鞋 可以继续深入了解。
大型网站通常可以用以上的方法来进行做日志分析。
普通的个人站点,或者企业网站,则可以通过 光年日志分析工具结合百度站长平台一起使用。
三、为什么要做网站日志分析
先来了解SEO流量的获取流程:抓取-->索引--->排名--->点击--->流量
因此,要获得SEO流量的前提务必是,有价值的页面被搜索引擎抓取到。
所以,对于SEO运营而言,分析搜索引擎网站日志就显得非常有必要:分析抓取有无:解决一定的索引问题。发现异常:及时规避。如存在大量异常页面,404等抓取调控:让更多优质的内容被抓取,过滤无效抓取。
网站分析的最终目标:让更多有价值的页面被抓取,将有机会获得索引,从而有机会获得SEO流量。
四、怎么做网站日志分析
定期监控搜索引擎抓取量变化,历史数据的横向纵向对比才能发现异常情况。借助第三方站长平台,如百度站长平台,了解搜索引擎抓取频次变化。借助光年日志分析工具,定期做数据记录,了解重要栏目、重要页面的抓取量变化。
举个栗子:
老站点(建站1年且有人维护的网站):Seo流量出现异常波动。
分2种情况:
了解外界:了解外界的前提在于平时你得有一定的人脉基础,如果没有也没关系。泡2个地方——去搜索引擎站长平台或者加入搜索引擎站长群。比如,像百度搜索引擎,它拥有站长平台,也会相应建立站长QQ群。有人脉基础上,可以直接了解外界的情况——是否也出现类似幅度的波动?这个的前提要结合你短期做过的SEO操作一并考虑,避免误判。无人脉的情况,泡群、泡站长平台。通常如果是搜索引擎算法升级,会在群里或者站长平台有相关的小道信息出现。如果是搜索引擎自身算法升级导致的流量波动,那么就得根据新算法做相应的站内优化。比如,百度冰桶30版本提出:将严厉打击在百度移动搜索中,打断用户完整搜索路径的调起行为。如果站点有存在以上的情况就需要针对性的做优化:无论是通过对接的APPLINK调起,还是网页自主调起的应用,以及普通的网页,都应是可返回,可关闭的。用户校验搜索结果的准确性,不需要额外下载APP或者权限。
分析内在:
在分析内在之前,再次抛出这个公式:Seo流量=抓取量收录率(准确来说应该是索引率)首页率点击率
。当抓取频次出现异常必然引起抓取量的减少。因此,排除了外界的因素,就需要对网站的日志进行分析。如果你的站点是中文站点,且是百度站长平台的VIP用户。那么,你就可以先借助第三方站长平台的“抓取频次”工具(如,百度),先了解搜索引擎近期的抓取频次、抓取时间、异常页面。通常借助这个工具,我们可以对搜索引擎近期抓取情况有初步了解,并且可以借助这个工具,相应的找到一些解决办法。
在此先解释这个概念,方便理解:
1抓取频次:抓取频次是搜索引擎在单位时间内(天级)对网站服务器抓取的总次数,如果搜索引擎对站点的抓取频次过高,很有可能造成服务器不稳定,蜘蛛会根据网站内容更新频率和服务器压力等因素自动调整抓取频次。
2抓取时间:指的是搜索引擎每次抓取耗时。而影响抓取频次的可能原因有:
(1)抓取频次上限误调,调低了,则会直接影响到抓取量减少,抓取量减少则索引量少,流量相应减少。
(2)运营层面:存在大量重复页面(情况一:自身网站存在大量重复的内容。情况二:自身网站内容采集了大量互联网已存在的内容)。从搜索引擎的目标出发——搜索引擎希望抓取到更多更好的页面,而你的网站产出的却是网上泛滥的内容,何必浪费资源在你的网站上?另外,网站内容太久不更新。建议,通过有规律定期产出优质内容来解决此问题。抓取时间变长,也会导致网站抓取量减少。通常存在的可能情况是,服务器速度变慢导致抓取时间变长。还有一种可能是与网站自身结构有关系。层级太深导致。
小结一下:
老站如何做网站日志分析(针对中文站点):外界排除:
了解搜索引擎最新算法是否发生变动、同行是否也有类似变化。
内在分析:
(1)使用工具:百度站长平台(非VIP账户看后文介绍)
(2)分析方法:主要使用抓取频次分析工具进行分析,网站抓取频次、抓取时间、异常页面情况等数据变化。并与相关部门进行对接解决。
五、用光年日志分析工具
非百度VIP:
步骤:
1下载网站日志(如果是企业站点,可以直接让运维部门的童鞋帮忙下载,如果是个人站长,直接在你所购买的虚拟主机后台进行下载,文件以log为结尾的便是)
2打开光年日志分析工具,上传网站日志。
3查看分析结果。主要维度有这几个:
(1)概况分析:各种爬虫的总抓取量、总停留时间、总访问次数。
(2)目录分析:各种爬虫抓取各目录的情况分析。通过这个可以了解到搜索引擎对一些重要栏目的抓取情况,又抓取了哪些无效的页面。
(3)页面分析:通过页面分析可以了解到经常被重复抓取的页面有哪些,可以相应的做优化调整。比如,像网站的一些注册页面及登录页面,经常会发现多次被抓取,发现这种情况,我们通常会将登录/注册页面进行屏蔽处理。
(4)状态码分析主要分为2种,爬虫状态码以及用户状态码。主要反应用户/爬虫访问页面时的页面状态。通过页面状态码,我们可以了解到页面状态,做相应调整,如,当网站存在大量404页面。那就需要进一步排查,比如,有些团购页面,团购过期后,页面就直接变成404了,但并未向百度站长平台提交死链清单,则容易造成无效抓取。
查看一个网站的网络日志:
IIS(Internet Information Server,互联网信息服务)是一种Web(网页)服务组件,其中包括Web服务器、FTP服务器、NNTP服务器和SMTP服务器,分别用于网页浏览、文件传输、新闻服务和邮件发送等方面,它使得在网络(包括互联网和局域网)上发布信息成了一件很容易的事。
作为SEOer、网站管理员,查看网站日志是非常重要的,也是必须的。SEOer通过查看网站日志可以知道搜索机器人的来访情况。网站管理员查看日志可以知道整个网站的运营情况。
IIS日志,扩展名为log,用记事本就能打开。
IIS日志文件的位置
默认状态下,IIS 把它的日志文件放在 %WINDIR\System32\Logfiles 文件夹中。每个万维网 (WWW) 站点和 FTP 站点在该目录下都有一个单独的目录。在默认状态下,每天都会在这些目录下创建日志文件,并用日期给日志文件命名(例如,exYYMMDDlog)。如:ex100326log
下面我们从一段日志来分析:
#Software: Microsoft Internet Information Services 60
#Version: 10
#Date: 2010-03-26 01:14:22
#Fields: time cs-method cs-uri-stem c-ip sc-status sc-bytes cs-bytes
01:14:21 GET /show2asp 20320860210 200 15046 287
作为新手,看见这个肯定会一头雾水,别急,下面我给大家一一道来
1、#Software: Microsoft Internet Information Services 60
说明这个日志是由IIS这个工具生成的。
2、#Version: 10
版本号:10
3、#Date: 2010-03-26 01:14:22
生成时间:2009-03-26 01:14:22
4、time: 访问时间"01:14:21"。
5、cs-method: 访问方法。常见的有两种:GET与POST。GET通俗点讲就相当于在IE地址栏敲下地址所产生的访问,POST是一种表单提交,比如数据较大,涉及到隐私都都需要用POST,但不一定,表单提交也可以是GET方式。
6、cs-uri-stem: 指的是访问哪个地址,如:/show2asp。
7、c-ip:客户端ip"20320860210"。
8、sc-status:访问状态:200表示成功,404表示找不到页面。
9、sc-bytes:服务器发送的字节数"15046"。
10、cs-bytes:服务器接受的字节数"287"。
附:IIS日志中记录的字段及详细说明
date:发出请求时候的日期。
time:发出请求时候的时间。注意:默认情况下这个时间是格林威治时间,比我们的北京时间晚8个小时,下面有说明。
c-ip:客户端IP地址。
cs-username:用户名,访问服务器的已经过验证用户的名称,匿名用户用连接符-表示。
s-sitename:服务名,记录当记录事件运行于客户端上的Internet服务的名称和实例的编号。
s-computername:服务器的名称。
s-ip:服务器的IP地址。
s-port:为服务配置的服务器端口号。
cs-method:请求中使用的HTTP方法,GET/POST。
cs-uri-stem:URI资源,记录做为操作目标的统一资源标识符(URI),即访问的页面文件。
cs-uri-query:URI查询,记录客户尝试执行的查询,只有动态页面需要URI查询,如果有则记录,没有则以连接符-表示。即访问网址的附带参数。
sc-status:协议状态,记录HTTP状态代码,200表示成功,403表示没有权限,404表示找不到该页面,sc-status 304 \\协议状态(200是正常的 404 是找不到文件,304未改变。具体说明在下面。
sc-substatus:协议子状态,记录HTTP子状态代码。
sc-win32-status:Win32状态,记录Windows状态代码。
sc-bytes:服务器发送的字节数。
cs-bytes:服务器接受的字节数。
time-taken:记录操作所花费的时间,单位是毫秒。
cs-version:记录客户端使用的协议版本,HTTP或者FTP。
cs-host:记录主机头名称,没有的话以连接符-表示。注意:为网站配置的主机名可能会以不同的方式出现在日志文件中,原因是HTTPsys使用Punycode编码格式来记录主机名。
cs(User-Agent):用户代理,客户端浏览器、操作系统等情况。
cs(Cookie):记录发送或者接受的Cookies内容,没有的话则以连接符-表示。
cs(Referer):引用站点,即访问来源。
在做网站日志分析之前,得先弄明白:
1什么是网站日志?
2在什么情况下需要做网站日志分析?
什么是网站日志?
网站日志,准确来说是服务器日志。通过服务器日志,我们可以了解到用户在什么IP、在什么分辨率的设备、什么时间、什么地区访问了我们的网站,以及当时访问的页面是否正常。
对于我们网站而言,搜索引擎也是网站用户之一。本文提到的网站日志分析,更多是在分析搜索引擎这种用户。
在什么情况下需要做网站日志分析?
1、老站点(建站1年且正常运营的网站):Seo流量出现异常波动。
2、刚建立不久的站点(建站6个月以下的网站):定期分析。
了解以上两种情况后,我们如何进行网站日志分析?
针对老站点网站日志分析
作为一个Seoer是需要定期做数据分析。了解网站Seo流量的波动情况。当网站Seo流量波动在10%及以上就需要进一步深入分析。
分2种情况:
了解外界:了解外界的前提在于平时你得有一定的人脉基础,如果没有也没关系。泡2个地方——去搜索引擎站长平台或者加入搜索引擎站长群。比如,像百度搜索引擎,它拥有站长平台,也会相应建立站长QQ群。
有人脉基础上,可以直接了解外界的情况——是否也出现类似幅度的波动?这个的前提要结合你短期做过的SEO操作一并考虑,避免误判。
无人脉的情况,泡群、泡站长平台。通常如果是搜索引擎算法升级,会在群里或者站长平台有相关的小道信息出现。
如果是搜索引擎自身算法升级导致的流量波动,那么就得根据新算法做相应的站内优化。
比如,百度冰桶30版本提出:将严厉打击在百度移动搜索中,打断用户完整搜索路径的调起行为。
如果站点有存在以上的情况就需要针对性的做优化:无论是通过对接的APPLINK调起,还是网页自主调起的应用,以及普通的网页,都应是可返回,可关闭的。用户校验搜索结果的准确性,不需要额外下载APP或者权限。
分析内在:在分析内在之前,再次抛出这个公式:
Seo流量=抓取量收录率(准确来说应该是索引率)首页率点击率 。当抓取频次、抓取时间出现异常必然引起抓取量的减少。
因此,排除了外界的因素,就需要对网站的日志进行分析。如果你的站点是中文站点,且是百度站长平台的VIP用户。那么,你就可以先借助百度站长平台的“抓取频次”工具,先了解搜索引擎近期的抓取频次、抓取时间、异常页面。通常借助这个工具,我们可以对搜索引擎近期抓取情况有初步了解,并且可以借助这个工具,相应的找到一些解决办法。
在此先解释2个概念,方便理解:
1抓取频次:抓取频次是搜索引擎在单位时间内(天级)对网站服务器抓取的总次数,如果搜索引擎对站点的抓取频次过高,很有可能造成服务器不稳定,Baiduspider会根据网站内容更新频率和服务器压力等因素自动调整抓取频次。
2抓取时间:指的是搜索引擎每次抓取耗时。
影响抓取频次的可能原因
1抓取频次上限误调,调低了,则会直接影响到抓取量减少,抓取量减少则索引量少,流量相应减少。
2运营层面:存在大量重复页面(情况一:自身网站存在大量重复的内容。情况二:自身网站内容采集了大量互联网已存在的内容)。从搜索引擎的目标出发——搜索引擎希望抓取到更多更好的页面,而你的网站产出的却是网上泛滥的内容,何必浪费资源在你的网站上?另外,网站内容太久不更新。建议,通过有规律定期产出优质内容来解决此问题。
抓取时间变长,也会导致网站抓取量减少。通常存在的可能情况是,服务器速度变慢导致抓取时间变长。还有一种可能是与网站自身结构有关系。层级太深导致
小结一下老站如何做网站日志分析(针对中文站点):
外界排除:了解搜索引擎最新算法是否发生变动、同行是否也有类似变化。
内在分析:1使用工具:百度站长平台。(非VIP账户看后文介绍)
2分析方法:主要使用抓取频次分析工具进行分析,网站抓取频次、抓取时间、异常页面情况等数据变化。并与相关部门进行对接解决。
针对新站点如何做网站日志分析
对新站点做网站日志分析,主要目的在于如何促进新站点被索引并获得一定的排名。通常新站建立之初都会进入沙盒期(沙盒是指一个新站建立后搜索引擎会对其进行一个类似资格评价的阶段,我们将这个阶段称为沙盒,在沙盒里面的这段时间,我们将其称为沙盒期,沙盒期一般都是2-6个月。)进入沙盒期并不意味着站点不会被抓取,由于新站点建立之初,权重较低,内容量较少,因此抓取量等相应的也不会太多。
前期,我们分析新站点网站日志,主要是分析站点是否有被爬虫抓取过?如果没有的情况下,一来是要让站点持续更新优质的内容,二来,在站点建设较为完善的情况下,需要主动向搜索引擎提交链接,让爬虫发现你的站点。除此之外,还可以通过正确渠道交换一些优质的友情链接,吸引爬虫来抓取。
通常新站点建立之初较难获得百度站长平台VIP账号,那么分析网站日志,我们可以通过下载光年日志分析工具进行分析。
步骤
1、下载网站日志(如果是企业站点,可以直接让运维部门的童鞋帮忙下载,如果是个人站长,直接在你所购买的虚拟主机后台进行下载,文件以log为结尾的便是)
2、打开光年日志分析工具,上传网站日志。
3、查看分析结果。主要维度有这几个:
(1)概况分析:各种爬虫的总抓取量、总停留时间、总访问次数。
你好,查看服务器日志以Linux举例的话可通过以下方式查看:
1进入日志文件所在的文件目录,比如:cd /opt/tomcat7/logs
2通过命令打开日志,分析需求场景打开需要的日志。比如:tail -f catalinaout
3常用命令一:tail比如:tail -f testlog (循环查看文件内容)
4按照行号查询:cat(过滤出关键字附近的日志)cat -n testlog |grep "订单号" 然后使用 head -n 20 查看查询结果里的向前20条记录。
5按照时间日期查询,(查询出一段时间内的记录)sed -n '/2014-12-17 16:17:20/,/2014-12-17 16:17:36/p' testlog
6个月。
网站应当记录并留存网络日志信息,并保存不少于6个月。在6个月之内可以选择登录自己账号来产看自己的网站操作日志,6个月之后就会被完全覆盖,再也找不到自己的操作日志。
网络日志可称为博客。用户可以以网络日志的形式简易迅速便捷地发布自己的心得。是一种表达个人思想、网络链接、内容,按照时间顺序排列,并且不断更新的出版方式。
如何查看自己的服务器的日记
自己有服务器的先打开“Internet 信息服务”,选择你的网站属性,下面有“启用日志记录”,一般有三个选项:W3C扩展日志文件格式、Microsoft IIS 日志文件格式、NCSA公用日志文件格式,默认是:W3C扩展日志文件格式,选择右边的属性,下面有日志文件名:(例 如:W3SCC1\ncyymmddlog),日志存放目录一般是:C:\WINDOWS\system32\LogFiles,如果你要打开日志文件 夹,那地址就是C:\WINDOWS\system32\LogFiles\W3SCC1。 如果用虚拟主机的可以到服务器商的后台选择日志保存后用 FTP去下载,一般都放在log文件夹内。
里面的代码怎么看
好多朋友下了日记后打开一看,吓一跳,里面写的乱七八糟,一个都看不懂。别急,其实他是有顺序的,他是以时间为单位的。一行就是一个记录。下面举例:
2009-10-11 09:36:32 GET /showasp - 22018112570 HTTP/11 Sogou+web+spider/40(+http://wwwsogoucom/docs/help/webmastershtm#07) - 200 0 36228
这是我网站日记里的一行代码, 2009-10-11 09:36:32 这是时间,就是什么时候来的。get 那是动作,一般有GET和HEAD两种 ,这两个的区别,懂编程的朋友都知道的,这里不说。/showasp 是文件地址,就是你被访问的文件的地址。 22018112570 是IP地址,我这里是Google来的,HTTP/11 Sogou+web+spider/40(+http://wwwsogoucom/docs/help/webmastershtm#07)这 里一看就知道了。200 0 36228这里代表未收录。这里的标识有很多的。我也不是很懂。
0条评论