web日志挖掘所用的web服务器日志文件都是如何获得的? 用没有公用的数据集?谢谢!!!
有,http://wwwsogoucom/labs/dl/qhtml
http://blogcsdnnet/discxuwei/article/details/5769480
一般通过WEB日志,系统日志,或是软件的日志,都能知道。
这些日志主要还要看你使用了哪些软件,使用不同的软件,日志不一样,比如win系统里的 事件查看器里的安全,就是记录如些用户登陆了你的系统,然后登陆情况。再比如IIS的日志里显示出错的日志,一般入侵的时候他不知道你的电脑信息,可能尝试登陆或猜解你的信息,有的故意让系统出错,出错回返回大量有用的信息给我们,所以一般出错的日志都是比较重要的。
--天下数据--
如何查看自己的服务器的日记
自己有服务器的先打开“Internet 信息服务”,选择你的网站属性,下面有“启用日志记录”,一般有三个选项:W3C扩展日志文件格式、Microsoft IIS 日志文件格式、NCSA公用日志文件格式,默认是:W3C扩展日志文件格式,选择右边的属性,下面有日志文件名:(例 如:W3SCC1\ncyymmddlog),日志存放目录一般是:C:\WINDOWS\system32\LogFiles,如果你要打开日志文件 夹,那地址就是C:\WINDOWS\system32\LogFiles\W3SCC1。 如果用虚拟主机的可以到服务器商的后台选择日志保存后用 FTP去下载,一般都放在log文件夹内。
里面的代码怎么看
好多朋友下了日记后打开一看,吓一跳,里面写的乱七八糟,一个都看不懂。别急,其实他是有顺序的,他是以时间为单位的。一行就是一个记录。下面举例:
2009-10-11 09:36:32 GET /showasp - 22018112570 HTTP/11 Sogou+web+spider/40(+http://wwwsogoucom/docs/help/webmastershtm#07) - 200 0 36228
这是我网站日记里的一行代码, 2009-10-11 09:36:32 这是时间,就是什么时候来的。get 那是动作,一般有GET和HEAD两种 ,这两个的区别,懂编程的朋友都知道的,这里不说。/showasp 是文件地址,就是你被访问的文件的地址。 22018112570 是IP地址,我这里是Google来的,HTTP/11 Sogou+web+spider/40(+http://wwwsogoucom/docs/help/webmastershtm#07)这 里一看就知道了。200 0 36228这里代表未收录。这里的标识有很多的。我也不是很懂。
0条评论