如何进行网站日志分析
一、什么是网站日志
1网站日志是记录web服务器接收处理请求以及运行时错误等各种原始信息的以·log结尾的文件。
2通过网站日志可以清楚的得知用户在什么IP、什么时间、用什么操作系统、什么浏览器、什么分辨率设备下访问了网站的哪个页面,是否访问成功。
3搜索引擎也属于网站中的一类用户,我们今天的分享课,主要是针对搜索引擎这种用户在服务器留下的记录展开分析。
为了方便读懂搜索引擎日志,我们需要了解不同搜索引擎蜘蛛的标识,以下为4种搜索引擎的标识——百度蜘蛛:Baiduspider搜狗:Sogou News Spider360:360Spider谷歌:Googlebot
二、如何看懂网站日志
(以下为一段日志记录)wwwcafehomecom
58180251134 - - [25/Mar/2015:13:24:33 +0800] "GET /m53256html
HTTP/11" 200 12264 "http://wwwcafehomecom/index-1s2i2p2" "Mozilla/50
(Windows NT 61) AppleWebKit/53736 (KHTML, like Gecko)
Chrome/3501916153 Safari/53736 SE 2X MetaSr 10" "-" "-" "-"
以下为字段解读:
通常日志文件较大的情况下,需要借助shell与python结合起来,做数据提取与分析。所以读懂网站日志中的字段就有利于日常的分析。这个在此不赘述,有兴趣的童鞋 可以继续深入了解。
大型网站通常可以用以上的方法来进行做日志分析。
普通的个人站点,或者企业网站,则可以通过 光年日志分析工具结合百度站长平台一起使用。
三、为什么要做网站日志分析
先来了解SEO流量的获取流程:抓取-->索引--->排名--->点击--->流量
因此,要获得SEO流量的前提务必是,有价值的页面被搜索引擎抓取到。
所以,对于SEO运营而言,分析搜索引擎网站日志就显得非常有必要:分析抓取有无:解决一定的索引问题。发现异常:及时规避。如存在大量异常页面,404等抓取调控:让更多优质的内容被抓取,过滤无效抓取。
网站分析的最终目标:让更多有价值的页面被抓取,将有机会获得索引,从而有机会获得SEO流量。
四、怎么做网站日志分析
定期监控搜索引擎抓取量变化,历史数据的横向纵向对比才能发现异常情况。借助第三方站长平台,如百度站长平台,了解搜索引擎抓取频次变化。借助光年日志分析工具,定期做数据记录,了解重要栏目、重要页面的抓取量变化。
举个栗子:
老站点(建站1年且有人维护的网站):Seo流量出现异常波动。
分2种情况:
了解外界:了解外界的前提在于平时你得有一定的人脉基础,如果没有也没关系。泡2个地方——去搜索引擎站长平台或者加入搜索引擎站长群。比如,像百度搜索引擎,它拥有站长平台,也会相应建立站长QQ群。有人脉基础上,可以直接了解外界的情况——是否也出现类似幅度的波动?这个的前提要结合你短期做过的SEO操作一并考虑,避免误判。无人脉的情况,泡群、泡站长平台。通常如果是搜索引擎算法升级,会在群里或者站长平台有相关的小道信息出现。如果是搜索引擎自身算法升级导致的流量波动,那么就得根据新算法做相应的站内优化。比如,百度冰桶30版本提出:将严厉打击在百度移动搜索中,打断用户完整搜索路径的调起行为。如果站点有存在以上的情况就需要针对性的做优化:无论是通过对接的APPLINK调起,还是网页自主调起的应用,以及普通的网页,都应是可返回,可关闭的。用户校验搜索结果的准确性,不需要额外下载APP或者权限。
分析内在:
在分析内在之前,再次抛出这个公式:Seo流量=抓取量收录率(准确来说应该是索引率)首页率点击率
。当抓取频次出现异常必然引起抓取量的减少。因此,排除了外界的因素,就需要对网站的日志进行分析。如果你的站点是中文站点,且是百度站长平台的VIP用户。那么,你就可以先借助第三方站长平台的“抓取频次”工具(如,百度),先了解搜索引擎近期的抓取频次、抓取时间、异常页面。通常借助这个工具,我们可以对搜索引擎近期抓取情况有初步了解,并且可以借助这个工具,相应的找到一些解决办法。
在此先解释这个概念,方便理解:
1抓取频次:抓取频次是搜索引擎在单位时间内(天级)对网站服务器抓取的总次数,如果搜索引擎对站点的抓取频次过高,很有可能造成服务器不稳定,蜘蛛会根据网站内容更新频率和服务器压力等因素自动调整抓取频次。
2抓取时间:指的是搜索引擎每次抓取耗时。而影响抓取频次的可能原因有:
(1)抓取频次上限误调,调低了,则会直接影响到抓取量减少,抓取量减少则索引量少,流量相应减少。
(2)运营层面:存在大量重复页面(情况一:自身网站存在大量重复的内容。情况二:自身网站内容采集了大量互联网已存在的内容)。从搜索引擎的目标出发——搜索引擎希望抓取到更多更好的页面,而你的网站产出的却是网上泛滥的内容,何必浪费资源在你的网站上?另外,网站内容太久不更新。建议,通过有规律定期产出优质内容来解决此问题。抓取时间变长,也会导致网站抓取量减少。通常存在的可能情况是,服务器速度变慢导致抓取时间变长。还有一种可能是与网站自身结构有关系。层级太深导致。
小结一下:
老站如何做网站日志分析(针对中文站点):外界排除:
了解搜索引擎最新算法是否发生变动、同行是否也有类似变化。
内在分析:
(1)使用工具:百度站长平台(非VIP账户看后文介绍)
(2)分析方法:主要使用抓取频次分析工具进行分析,网站抓取频次、抓取时间、异常页面情况等数据变化。并与相关部门进行对接解决。
五、用光年日志分析工具
非百度VIP:
步骤:
1下载网站日志(如果是企业站点,可以直接让运维部门的童鞋帮忙下载,如果是个人站长,直接在你所购买的虚拟主机后台进行下载,文件以log为结尾的便是)
2打开光年日志分析工具,上传网站日志。
3查看分析结果。主要维度有这几个:
(1)概况分析:各种爬虫的总抓取量、总停留时间、总访问次数。
(2)目录分析:各种爬虫抓取各目录的情况分析。通过这个可以了解到搜索引擎对一些重要栏目的抓取情况,又抓取了哪些无效的页面。
(3)页面分析:通过页面分析可以了解到经常被重复抓取的页面有哪些,可以相应的做优化调整。比如,像网站的一些注册页面及登录页面,经常会发现多次被抓取,发现这种情况,我们通常会将登录/注册页面进行屏蔽处理。
(4)状态码分析主要分为2种,爬虫状态码以及用户状态码。主要反应用户/爬虫访问页面时的页面状态。通过页面状态码,我们可以了解到页面状态,做相应调整,如,当网站存在大量404页面。那就需要进一步排查,比如,有些团购页面,团购过期后,页面就直接变成404了,但并未向百度站长平台提交死链清单,则容易造成无效抓取。
入侵的话不可能卡着点儿来啊。
把系统上跑的各种程序自己的log调出来看,有木有1点半干了啥的记录。
把ips、ids、各种审计设备、路由器、网关、代理服务器等等的你能找到的记录都拿来看看,有木有1点半的记录。
直接把那几条登录日志的原文在百度里搜,看看别人有没有遇到。
最关键的一点——你说的“以下”在哪啊?
最后,听说随便从网上找一段内容,只要按照非常整齐的格式贴进来,就会被百度机器人自动选为最佳答案。
但是我是很烦复制粘贴大神的,所以我把自己编的内容也按1、2、3的列表排列。
look!下边已经出现来刷分的贴了。
-----------------------------
虽然楼主已经补充了日志内容,但是看到百度大神————经的表现,我立刻委了。讲真我觉得百度人工智能将是国家民族的灾难,大家自求多福。
日志代码贯穿整套系统之中,需要统一的,完整的设计,才能起到合适的作用。现在网络上很多系统都是用PHP做成的,这些系统的主要用户,从我接触到的情况来看,都是小规模初创者,或者传统行业向互联网的衍生。没有足够的资金或者不想一次性支付太多的费用。最终大都因为价格的问题,PHP项目成了首选。PHP项目,从CMS到电商,微商系统,都有个看似很厉害,实际上很糟糕的架构设计。那就是插件系统。从用户的角度来说,插件是一种增值服务。买一套系统,自带N个带有特效的插件,一个字“值”。
日志服务器是专门供一些服务器,设备在运行过程中产生的使用记录及硬件状态的一个集中反应的数据存储的地方就是日志服务器,用户可以根据需要做数据的查询统计等工作,及时了解各部分设备的运行状态。可以是通用的,也可以是专用的。
通过对日志进行统计、分析、综合,就能有效地掌握服务器的运行状况,发现和排除错误、了解客户访问分布等,方便管理员更好地加强服务器的维护和管理。另外,Web日志也是判断服务器安全的一个重要依据,通过其可以分析判断服务器是否被入侵,并通过其可以对攻击者进行反向跟踪等。因此,对于Web日志攻击者往往以除之而后快。 一、攻击者清除日志的常用伎俩 1、Web服务器系统中的日志 以Windows Server 2003平台的Web服务器为例,其日志包括:安全日志、系统日志、应用程序日志、WWW日志、FTP日志等。对于前面的三类日志可以通过“开始→运行”输入eventvwrmsc打开事件查看器进行查看,WWW日志和FTP日志以log文件的形式存放在硬盘中。具体来说这些日志对应的目录和文件为: (1)安全日志文件:C:\WINDOWS\system32\config\SecEventEvt (2)系统日志文件:C:\WINDOWS\system32\config\SysEventEvt (3)应用程序日志文件:C:\WINDOWS\system32\config\AppEventEvt (4)FTP日志默认位置:C:\WINDOWS\system32\Logfiles\MSFTPSVC1 (5)WWW日志默认位置:C:\WINDOWS\system32\Logfiles\W3SVC12、非法清除日志 上述这些日志在服务器正常运行的时候是不能被删除的,FTP和WWW日志的删除可以先把这2个服务停止掉,然后再删除日志文件,攻击者一般不会这么做的。系统和应用程序的日志是由守护服务Event Log支持的,而它是没有办法停止的,因而是不能直接删除日志文件的。攻击者在拿下Web服务器后,一般会采用工具进行日志的清除,其使用的工具主要是CL和CleanIISLog。 (1)利用CL彻底清除日志 这个工具可以彻底清除IIS日志、FTP日志、计划任务日志、系统日志、安全日志等,使用的操作非常简单。 在命令下输入“cl -logfiles 127001”就可以清除Web服务器与Web和FTP和计划任务相关的日志。(图2)
具体配置步骤:
1开启系统日志服务器功能
点开路由器的系统状态→系统日志,启用“系统日志服务器”,并启用“日志服务器”,输入对应日志服务器的IP地址,具体界面如下图:
2启用上图中的系统日志服务,便可在路由器的系统状态》系统日志中查看路由器的常见系统更改,具体可查考如下界面:
如图中,以内网19216813的计算机作为日志服务器,则需要在这台计算机上安装我们的VE日志分析软件,之后便可在此PC机上看见内网用户所浏览网址。
3安装数据库
下载MYSQL数据库,官方下载地址:http://wwwmysqlcom/downloads/
安装数据库,设置密码、端口号。
4运行“飞鱼星日志系统(VLS)”
“飞鱼星日志系统(VLS)”及具体使用方法请到http://wwwadslrcom/down/文件下载中心,找到设备对应型号进行下载,下载后解压运行Volanslogsystemexe,如图,输入数据库的密码、端口号(服务器IP、用户名不用修改),即可运行,并自动连接获取日志。
查看IBM服务器事件日志,在不重启服务器不影响运行的前提下,提供以下三种方法:
1、服务器未挂起且已连接到网络(使用操作系统控制的网络端口)
· 运行 DSA Portable 以查看诊断事件日志(需要 IPMI 驱动程序),或创建可发送给 IBM 服务和支持人员的输出文件(使用 ftp 或本地副本)。
· 使用 IPMItool 查看系统事件日志(需要 IPMI 驱动程序)。
使用 IMM 的 Web 浏览器界面在本地查看系统
2、服务器未挂起且未连接到网络(使用操作系统控制的网络端口)
· 运行 Portable DSA 以查看诊断事件日志(需要 IPMI 驱动程序),或创建可发送给 IBM 服务和支持人员的输出文件(使用本地副本)。
· 使用 IPMItool 查看系统事件日志(需要 IPMI 驱动程序)。
使用 IMM 的 Web 浏览器界面在本地查看系统事件日志(需要 RNDIS USB LAN 驱动程序)。
3、集成管理模块 (IMM) 已连接到网络并且已应用交流电源 - 服务器状态可能为挂起、未挂起或关闭
· 使用 IPMItool 在网络上通过 IMM 外部 IP 地址来查看系统事件日志。
· 使用 IMM 的 Web 浏览器界面查看系统事件日志。在 Web 浏览器中,输入 IMM 的 IP 地址,转至 Event Log 页面。
PS重启服务器查看事件日志的方法
重新启动服务器并按 F2 以启动 DSA Preboot,查看诊断事件日志(请参阅运行 DSA Preboot 诊断程序,以获取更多信息)。
此外,还可以重新启动服务器并按 F1 键来启动 Setup Utility,以查看 POST 事件日志或系统事件日志。
参考资料:http://wwwcdchengguancom/showphpid=911(查看IBM服务器事件日志的方法)
0条评论