网站日志是什么?如何分析网站日志
网站日志是记录web服务器接收处理请求以及运行时错误等各种原始信息的以·log结尾的文件,确切的讲,应该是服务器日志。网站日志最大的意义是记录网站运营中比如空间的运营情况,被访问请求的记录。
怎么分析网站日志?
登录“FTP”账号,链接到网站数据,找到网站日志文件夹。(注意:一般情况下,网站日志所在文件夹都是与网站文件同级文件夹,且带有log字样。只有少数情况下,网站日志文件夹在网站根目录下。)
打开文件夹,下载日志压缩文件!(下载方法很简单,只要选中文件直接拖到电脑桌面,然后左下方的本地浏览下载目录的文件上“右键—传输队列”即可!)
解压下载的日志文件,而后将解压后文件的后缀改为“txt”
新建一个excel表格,并打开!找到顶端工具栏的“数据”工具
点击“导入数据”,默认“直接打开数据文件”,再选择“选择数据源”。
选中解压后的txt文档,并打开!
默认“其他编码”
选择“分隔符号”,并“下一步”;
勾选所有选项,然后“下一步”;
默认“常规”,并“完成”;
如图,网站日志哥数据项之间全部分隔开来;
接下来只要保留自己需要的数据项即可。删除不需要的数据项!(如图,仅保留了数据分析需要的访客ip、访问文件、访问状态码以及访客名称四项数据。)
选中访客名称一整列,然后点击“开始”栏目的“筛选”工具
点击访客名称一列上方的三角下拉按钮;
取消“全选”,找到百度蜘蛛的访客名称,选中并“确定”;
我们就可以得到日志当天百度蜘蛛访问网站的所有数据。
最后,该数据保存到网站每日分析日志中。(注意:每日更新原创内容的网站一般在分析日志的时候还需要保留时间数据。)
Milogs工作日志管理服务器又叫做 Milogs网络版,
软件主要功能特点:
1、日程安排的管理
按日、周、月显示;您可以查询某段时间内联系过的(或者是要联系的)人员、客户、项目、任务,编辑过的文档等。
2、客户单位、联系人的管理
增加、删除,包括编辑和这些客户、联系人相关的项目、跟进记录、文档内容等。
3、项目、任务的管理
项目任务的进展阶段统计查询、区域、行业等分类统计查询,成功概率统计查询;查询和指定项目相关的跟进记录、客户单位、联系人、文档等。
4、文档的管理
能让您把某个文档和您指定的联系人、客户单位、项目、任务、日程安排关联起来。
管理人员使用特点:
1、日志、周报、月报查询
下属每个员工每天、每周、每月执行(或完成)的工作、项目、任务,跟进的客户、联系人情况,每个项目、任务、客户、联系人的详细联系跟进记录等等。
2、客户单位、联系人的汇总统计管理
可以针对团队全部成员或者其中某一个人进行客户单位、联系人的汇总管理
3、项目、任务的汇总统计管理
可以针对团队全部成员或者其中某一个人进行项目、任务的汇总管理
4、工作审批
可以对下属工作进行审批
日志是用来记录信息的,比如服务器的日志主要是用来记录一些访问信息,以便出现状况时,可以根据日志来判断原因。 对于普通用户来说,日志没有多大意义。
一、什么是网站日志
1网站日志是记录web服务器接收处理请求以及运行时错误等各种原始信息的以·log结尾的文件。
2通过网站日志可以清楚的得知用户在什么IP、什么时间、用什么操作系统、什么浏览器、什么分辨率设备下访问了网站的哪个页面,是否访问成功。
3搜索引擎也属于网站中的一类用户,我们今天的分享课,主要是针对搜索引擎这种用户在服务器留下的记录展开分析。
为了方便读懂搜索引擎日志,我们需要了解不同搜索引擎蜘蛛的标识,以下为4种搜索引擎的标识——百度蜘蛛:Baiduspider搜狗:Sogou News Spider360:360Spider谷歌:Googlebot
二、如何看懂网站日志
(以下为一段日志记录)wwwcafehomecom
58180251134 - - [25/Mar/2015:13:24:33 +0800] "GET /m53256html
HTTP/11" 200 12264 "http://wwwcafehomecom/index-1s2i2p2" "Mozilla/50
(Windows NT 61) AppleWebKit/53736 (KHTML, like Gecko)
Chrome/3501916153 Safari/53736 SE 2X MetaSr 10" "-" "-" "-"
以下为字段解读:
通常日志文件较大的情况下,需要借助shell与python结合起来,做数据提取与分析。所以读懂网站日志中的字段就有利于日常的分析。这个在此不赘述,有兴趣的童鞋 可以继续深入了解。
大型网站通常可以用以上的方法来进行做日志分析。
普通的个人站点,或者企业网站,则可以通过 光年日志分析工具结合百度站长平台一起使用。
三、为什么要做网站日志分析
先来了解SEO流量的获取流程:抓取-->索引--->排名--->点击--->流量
因此,要获得SEO流量的前提务必是,有价值的页面被搜索引擎抓取到。
所以,对于SEO运营而言,分析搜索引擎网站日志就显得非常有必要:分析抓取有无:解决一定的索引问题。发现异常:及时规避。如存在大量异常页面,404等抓取调控:让更多优质的内容被抓取,过滤无效抓取。
网站分析的最终目标:让更多有价值的页面被抓取,将有机会获得索引,从而有机会获得SEO流量。
四、怎么做网站日志分析
定期监控搜索引擎抓取量变化,历史数据的横向纵向对比才能发现异常情况。借助第三方站长平台,如百度站长平台,了解搜索引擎抓取频次变化。借助光年日志分析工具,定期做数据记录,了解重要栏目、重要页面的抓取量变化。
举个栗子:
老站点(建站1年且有人维护的网站):Seo流量出现异常波动。
分2种情况:
了解外界:了解外界的前提在于平时你得有一定的人脉基础,如果没有也没关系。泡2个地方——去搜索引擎站长平台或者加入搜索引擎站长群。比如,像百度搜索引擎,它拥有站长平台,也会相应建立站长QQ群。有人脉基础上,可以直接了解外界的情况——是否也出现类似幅度的波动?这个的前提要结合你短期做过的SEO操作一并考虑,避免误判。无人脉的情况,泡群、泡站长平台。通常如果是搜索引擎算法升级,会在群里或者站长平台有相关的小道信息出现。如果是搜索引擎自身算法升级导致的流量波动,那么就得根据新算法做相应的站内优化。比如,百度冰桶30版本提出:将严厉打击在百度移动搜索中,打断用户完整搜索路径的调起行为。如果站点有存在以上的情况就需要针对性的做优化:无论是通过对接的APPLINK调起,还是网页自主调起的应用,以及普通的网页,都应是可返回,可关闭的。用户校验搜索结果的准确性,不需要额外下载APP或者权限。
分析内在:
在分析内在之前,再次抛出这个公式:Seo流量=抓取量收录率(准确来说应该是索引率)首页率点击率
。当抓取频次出现异常必然引起抓取量的减少。因此,排除了外界的因素,就需要对网站的日志进行分析。如果你的站点是中文站点,且是百度站长平台的VIP用户。那么,你就可以先借助第三方站长平台的“抓取频次”工具(如,百度),先了解搜索引擎近期的抓取频次、抓取时间、异常页面。通常借助这个工具,我们可以对搜索引擎近期抓取情况有初步了解,并且可以借助这个工具,相应的找到一些解决办法。
在此先解释这个概念,方便理解:
1抓取频次:抓取频次是搜索引擎在单位时间内(天级)对网站服务器抓取的总次数,如果搜索引擎对站点的抓取频次过高,很有可能造成服务器不稳定,蜘蛛会根据网站内容更新频率和服务器压力等因素自动调整抓取频次。
2抓取时间:指的是搜索引擎每次抓取耗时。而影响抓取频次的可能原因有:
(1)抓取频次上限误调,调低了,则会直接影响到抓取量减少,抓取量减少则索引量少,流量相应减少。
(2)运营层面:存在大量重复页面(情况一:自身网站存在大量重复的内容。情况二:自身网站内容采集了大量互联网已存在的内容)。从搜索引擎的目标出发——搜索引擎希望抓取到更多更好的页面,而你的网站产出的却是网上泛滥的内容,何必浪费资源在你的网站上?另外,网站内容太久不更新。建议,通过有规律定期产出优质内容来解决此问题。抓取时间变长,也会导致网站抓取量减少。通常存在的可能情况是,服务器速度变慢导致抓取时间变长。还有一种可能是与网站自身结构有关系。层级太深导致。
小结一下:
老站如何做网站日志分析(针对中文站点):外界排除:
了解搜索引擎最新算法是否发生变动、同行是否也有类似变化。
内在分析:
(1)使用工具:百度站长平台(非VIP账户看后文介绍)
(2)分析方法:主要使用抓取频次分析工具进行分析,网站抓取频次、抓取时间、异常页面情况等数据变化。并与相关部门进行对接解决。
五、用光年日志分析工具
非百度VIP:
步骤:
1下载网站日志(如果是企业站点,可以直接让运维部门的童鞋帮忙下载,如果是个人站长,直接在你所购买的虚拟主机后台进行下载,文件以log为结尾的便是)
2打开光年日志分析工具,上传网站日志。
3查看分析结果。主要维度有这几个:
(1)概况分析:各种爬虫的总抓取量、总停留时间、总访问次数。
(2)目录分析:各种爬虫抓取各目录的情况分析。通过这个可以了解到搜索引擎对一些重要栏目的抓取情况,又抓取了哪些无效的页面。
(3)页面分析:通过页面分析可以了解到经常被重复抓取的页面有哪些,可以相应的做优化调整。比如,像网站的一些注册页面及登录页面,经常会发现多次被抓取,发现这种情况,我们通常会将登录/注册页面进行屏蔽处理。
(4)状态码分析主要分为2种,爬虫状态码以及用户状态码。主要反应用户/爬虫访问页面时的页面状态。通过页面状态码,我们可以了解到页面状态,做相应调整,如,当网站存在大量404页面。那就需要进一步排查,比如,有些团购页面,团购过期后,页面就直接变成404了,但并未向百度站长平台提交死链清单,则容易造成无效抓取。
last
-a 把从何处登入系统的主机名称或ip地址,显示在最后一行。
-d 指定记录文件。指定记录文件。将IP地址转换成主机名称。
-f <记录文件>指定记录文件。
-n <显示列数>或-<显示列数>设置列出名单的显示列数。
-R 不显示登入系统的主机名称或IP地址。
-x 显示系统关机,重新开机,以及执行等级的改变等信息
以下看所有的重启、关机记录
last | grep rebootlast | grep shutdown
history
列出所有的历史记录:
[zzs@Linux] # history
只列出最近10条记录:
[zzs@linux] # history 10 (注,history和10中间有空格)
使用命令记录号码执行命令,执行历史清单中的第99条命令
[zzs@linux] #!99 (!和99中间没有空格)
重复执行上一个命令
[zzs@linux] #!!
执行最后一次以rpm开头的命令(! 代表的是字符串,这个String可以随便输,Shell会从最后一条历史命令向前搜索,最先匹配的一条命令将会得到执行。)
[zzs@linux] #!rpm
逐屏列出所有的历史记录:
[zzs@linux]# history | more
立即清空history当前所有历史命令的记录
[zzs@linux] #history -c
cat, tail 和 watch
系统所有的日志都在 /var/log 下面自己看(具体用途可以自己查,附录列出一些常用的日志)
cat /var/log/syslog 等
cat /var/log/log
tail -f
如果日志在更新,如何实时查看 tail -f /var/log/messages
还可以使用 watch -d -n 1 cat /var/log/messages
-d表示高亮不同的地方,-n表示多少秒刷新一次。
该指令,不会直接返回命令行,而是实时打印日志文件中新增加的内容,
这一特性,对于查看日志是非常有效的。如果想终止输出,按 Ctrl+C 即可。
除此之外还有more,less,dmesg|more,这里就不作一一列举了,因为命令太多了,关键看个人喜好和业务需求个人常用的就是以上那些《Linux就该这么学》一起学习linux
linux日志文件说明
/var/log/message 系统启动后的信息和错误日志,是Red Hat Linux中最常用的日志之一
/var/log/secure 与安全相关的日志信息
/var/log/maillog 与邮件相关的日志信息
/var/log/cron 与定时任务相关的日志信息
/var/log/spooler 与UUCP和news设备相关的日志信息
/var/log/bootlog 守护进程启动和停止相关的日志消息
/var/log/wtmp 该日志文件永久记录每个用户登录、注销及系统的启动、停机的事件
0条评论