Web日志是网站的Web服务处理程序,根据一定的规范生成的ASCII文本。它主要记录了网站访问记录数据内容,是网站分析和网站数据仓库的数据基础来源,而网站分析和数据分析也将对SEO产生一定的影响,所以了解Web日志的格式和组成将有利于我们更好地进行网站数据的收集、处理和分析,从而更好的进行网站优化。 一、Web日志格式分类 目前常见的Web日志格式主要有两类: 1、Apache的NCSA日志格式 NCSA格式又分为NCSA普通日志格式(CLF)和NCSA扩展日志格式(ECLF)两类,目前最常用的是NCSA扩展日志格式(ECLF)及基于自定义类型的Apache日志格式; 2、IIS的W3C日志格式。 W3C扩展日志格式(ExLF)具备了更为丰富的输出信息,主要是微软IIS(Internet Information Services)中应用。
二、NCSA扩展Web日志格式(ECLF) 下面是一个最常见的基于NCSA扩展Web日志格式(ECLF)的Apache日志样例:
下面是一段常见的IIS生产的W3C扩展Web日志 2021-11-22 13:11:38 GET /Enterprise/detail.asp 70.25.29.53 https:///pricing 202 17735 369 4656 这个日志可以解读为:IP是70.25.29.53,来自" https:///pricing "的访客,在2021-11-22 13:11:38,访问(GET)了/config/getuser?index=0,访问成功,得到17735字节数据。 日期:date 动作发生时的日期。 时间:time 动作发生时的时间(默认为UTC标准)。 客户端IP地址:c-ip 访问服务器的客户端IP地址。 用户名:cs-username 通过身份验证的访问服务器的用户名。不包括匿名用户(用'-’表示)。 服务名:s-sitename 客户所访问的Internet服务名以及实例号。 服务器名:s-computername 产生日志条目的服务器的名字。 服务器IP 地址:s-ip 产生日志条目的服务器的IP地址。 服务器端口:s-port 服务端提供服务的传输层端口。 方法:cs-method 客户端执行的行为(主要是GET与POST行为)。 URI Stem:cs-uri-stem 被访问的资源,如Default.asp等。 URI Query:cs-uri-query 客户端提交的参数(包括GET与POST行为)。 协议状态:sc-status 用HTTP或者FTP术语所描述的、行为执行后的返回状态。 Win32状态:sc-win32-status 用Microsoft Windows的术语所描述的动作状态。 发送字节数:sc-bytes 服务端发送给客户端的字节数。 接受字节数:cs-bytes 服务端从客户端接收到的字节数。 花费时间:time-taken 执行此次行为所消耗的时间,以毫秒为单位。 协议版本:cs-version 客户端所用的协议(HTTP、FTP)版本。对HTTP协议来说是HTTP 1.0或者HTTP 1.1。 主机:cs-host 客户端的HTTP报头(host header)信息。 用户代理:cs(User-Agent) 客户端所用的浏览器版本信息。 Cookie:cs(Cookie) 发送或者接受到的cookie内容。 Referrer:cs(Referer) 用户浏览的前一个网址,当前网址是从该网址链接过来的。 Web日志记录了网站访客的详细情况,我们可以通过日志分析工具来分析网民对网站的浏览情况,但在实际应用中,我们更多的是采用一些第三方的网站统计工具来监控访客对网站的访问情况。对于Web日志,我们需要重点关注的是各大搜索引擎蜘蛛对网站的抓取情况,这才是对我们SEO工作最直接的影响因素! |
|