详解网站WEB日志格式

详解网站WEB日志格式WEB日志是网站的WEB服务处理程序,根据一定的规范生成的ASCII文本。它主要记录了网站访问记录数据内容,是网站分析和网站数据仓库的数据基础来源,而网站分析和数据分析也将对SEO产生一定的影响,所以了解WEB日志的格式和组成将有利于我们更好地进行网站数据的收集、处理和分析,从而更好的进行网站优化。一、WEB日志格式分类目前常见的WEB日志格式主要由两类,一类是Apache的NCSA日志格

大家好,又见面了,我是你们的朋友全栈君。WEB日志是网站的WEB服务处理程序,根据一定的规范生成的ASCII文本。它主要记录了网站访问记录数据内容,是网站分析和网站数据仓库的数据基础来源,而网站分析和数据分析也将对SEO产生一定的影响,所以了解WEB日志的格式和组成将有利于我们更好地进行网站数据的收集、处理和分析,从而更好的进行网站优化。


一、WEB日志格式分类


目前常见的WEB日志格式主要由两类,一类是Apache的NCSA日志格式,另一类是IIS的W3C日志格式。NCSA格式又分为NCSA普通日志格式(CLF)和NCSA扩展日志格式(ECLF)两类,目前最常用的是NCSA扩展日志格式(ECLF)及基于自定义类型的Apache日志格式;而W3C扩展日志格式(ExLF)具备了更为丰富的输出信息,主要是微软IIS(Internet Information Services)中应用。


二、NCSA扩展WEB日志格式(ECLF)


下面是一个最常见的基于NCSA扩展WEB日志格式(ECLF)的Apache日志样例:


218.161.64.101 – – [22/Aug/2011:09:51:46 +0800] “GET /reference-and-source/weblog-format/ HTTP/1.1″ 202 6326 ”http :/ /www .google.cn/search?q=friend” “Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)”


这个日志可以解读为:来自”
http://www.google.cn/search?q=friend
“的访客,使用IE6.0浏览器,应用HTTP/1.1协议,在22/Aug/2011:09:51:46,访问(GET)了218.161.64.101主机的 /reference-and-source/weblog-format/,访问成功,得到6326字节数据。


可以看到这个日志主要由以下几个部分组成:


访问主机(remotehost):显示主机的IP地址或者已解析的域名。


标识符(Ident):由identd或直接由浏览器返回浏览者的EMAIL或其他唯一标示,因为涉及用户邮箱等隐私信息,目前几乎所有的浏览器就取消了这项功能。


授权用户(authuser):用于记录浏览者进行身份验证时提供的名字,如果需要身份验证或者访问密码保护的信息则这项不为空,但目前大多数网站的日志这项也都是为空的。


日期时间(date):一般的格式形如[22/Feb/2010:09:51:46 +0800],即[日期/月份/年份:小时:分钟:秒钟 时区],占用的的字符位数也基本固定。


请求(request):即在网站上通过何种方式获取了哪些信息,也是日志中较为重要的一项,主要包括三种请求类型(METHOD),主要包括GET/POST/HEAD这三种。


请求资源(RESOURCE):显示的是相应资源的URL,可以是某个网页的地址,也可以是网页上调用的图片、动画、CSS等资源;


协议版本号(PROTOCOL):显示协议及版本信息,通常是HTTP/1.1或HTTP/1.0。


状态码(status):用于表示服务器的响应状态,通常1xx的状态码表示继续消息;2xx表示请求成功;3xx表示请求的重定向;4xx表示客户端错误;5xx表示服务器错误。


传输字节数(bytes):即该次请求中一共传输的字节数。


来源页面(referrer):用于表示浏览者在访问该页面之前所浏览的页面,只有从上一页面链接过来的请求才会有该项输出,如果是新开的页面则该项为空。上例中来源页面是google,即用户从google搜索的结果中点击进入。


用户代理(agent):用于显示用户的详细信息,包括IP、OS、Bowser等。


三、W3C扩展WEB日志


下面是一段常见的IIS生产的W3C扩展WEB日志


2011-09-01 16:02:22 GET /Enterprise/detail.asp 70.25.29.53 http:/ /www .example.com/searchout.asp 202 17735 369 4656


这个日志可以解读为:IP是70.25.29.53,来自”
http://www.example.com/searchout.asp
“的访客,在2011-09-01 16:02:22,访问(GET)了主机的/Enterprise/detail.asp,访问成功,得到17735字节数据。


日期:date 动作发生时的日期。


时间:time 动作发生时的时间(默认为UTC标准)。


客户端IP地址:c-ip 访问服务器的客户端IP地址。


用户名:cs-username 通过身份验证的访问服务器的用户名。不包括匿名用户(用‘-’表示)。


服务名:s-sitename 客户所访问的Internet服务名以及实例号。


服务器名:s-computername 产生日志条目的服务器的名字。


服务器IP 地址:s-ip 产生日志条目的服务器的IP地址。


服务器端口:s-port 服务端提供服务的传输层端口。


方法:cs-method 客户端执行的行为(主要是GET与POST行为)。


URI Stem:cs-uri-stem 被访问的资源,如Default.asp等。


URI Query:cs-uri-query 客户端提交的参数(包括GET与POST行为)。


协议状态:sc-status 用HTTP或者FTP术语所描述的、行为执行后的返回状态。


Win32状态:sc-win32-status 用Microsoft Windows的术语所描述的动作状态。


发送字节数:sc-bytes 服务端发送给客户端的字节数。


接受字节数:cs-bytes 服务端从客户端接收到的字节数。


花费时间:time-taken 执行此次行为所消耗的时间,以毫秒为单位。


协议版本:cs-version 客户端所用的协议(HTTP、FTP)版本。对HTTP协议来说是HTTP 1.0或者HTTP 1.1。


主机:cs-host 客户端的HTTP报头(host header)信息。


用户代理:cs(User-Agent) 客户端所用的浏览器版本信息。


Cookie:cs(Cookie) 发送或者接受到的cookie内容。


Referrer:cs(Referer) 用户浏览的前一个网址,当前网址是从该网址链接过来的。


协议底层状态:sc-substatus 协议底层状态的一些错误信息。

WEB日志记录了网站访客的详细情况,我们可以通过日志分析工具来分析网民对网站的浏览情况,但在实际应用中,我们更多的是采用一些第三方的网站统计工具来监控访客对网站的访问情况。对于WEB日志,我们需要重点关注的是各大搜索引擎蜘蛛对网站的抓取情况,这才是对我们SEO工作最直接的影响因素。


http://www.xymyeah.com/1302.html


版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/144824.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • 什么是授权码,它又是如何设置?

    什么是授权码,它又是如何设置?

  • 中文参数乱码问题——js字符串编码

    中文参数乱码问题——js字符串编码jquery.get中文参数问题——js符串编码摘要:使用jquery.get进行ajax请求获取数据是很常见的操作,一般请求参数都为字母,今天发现在参数中使用中文会出现浏览器兼容性问题,现在记录如下。基本使用语法:$(selector).get(url,data,success(response,status,xhr),dataType)参数 描述url 必需。规定将请求

  • ODT珂朵莉树「建议收藏」

    ODT珂朵莉树「建议收藏」珂朵莉树の由来珂朵莉树(或称ODT(OldDriverTree老司机树))这毒瘤算法由CodeForces-896CWillem,ChthollyandSeniorious的正解衍化而来由于其骗分暴力的非正统算法思想虽然很多时候在随机数据下跑时不错但切记这只是骗分暴力,时间复杂度上并不正确什么时候用珂朵莉树珂朵莉树一般用来解决本来应当由线段树解决的区间类问题而使…

  • 虚拟现实技术成功应用案例分析_虚拟现实技术的案例

    虚拟现实技术成功应用案例分析_虚拟现实技术的案例心理治疗方面,VR技术以治疗恐怖症、PTSD等闻名于世,近年来不断拓广应用领域。英国伦敦大学学院(UCL)、西班牙巴塞罗那大学和英国德比大学的心理学家和计算机科学家们发表了一项研究,提出一种可以提升自我同情的心理治疗新方法——利用虚拟现实技术。具体的案例被称为“化身实验”,在试验的过程中,被试者会化身为安抚者、被安抚者、第三人视角进行试验,研究结果显示,以从虚拟儿童的角度回溯安抚过程的女性,会…

  • 蓝牙音频编码方式_aac蓝牙编码

    蓝牙音频编码方式_aac蓝牙编码https://zhuanlan.zhihu.com/p/265597723早在2000年,蓝牙耳机就已经出现,但由于技术限制,只能用于通话。2008年,随着蓝牙A2DP(AdvancedAudioDistributionProfile)开始普及,立体声蓝牙耳机日渐流行。发展到现在,手机的耳机插口几近取消,双无线(TWS,TrueWirelessStereo)耳机正处于爆发期…本文从蓝牙音频传输原理讲起,从旧到新介绍五种蓝牙音频编码,最后落脚实地,介绍如何选择和配置耳机/手机的蓝牙

  • RPC接口mock测试

    RPC接口mock测试1        简介Dubbo目前的应用已经越来越广泛、或者基于Dubbo二次开发的也越来越多,使用到Dubbo的系统基本也是采用微服务架构设计的系统,多个系统、多个应用之间的接口是有依赖关系的,所以就会出现需要MOCK的应用场景。当我们发布了两个应用A和B,应用A引用应用B发布的接口,那么我们的应用场景是MOCK应用B(接口提供方)。通常的MOCK方式是,测试人员自己发布一个一样的接口

    2022年10月13日

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号