分享

数字图书馆用户信息获取行为研究

 qywal 2015-05-31



  随着数字图书馆的发展,用户对文献资源的利用方式逐渐转向在线形式。据教育部图工委统计,国内高校2012年馆均电子文献采购经费180万元,是2007年的2.2倍。在电子文献资源的使用大幅增加的情况下,如何获取数字图书馆用户信息行为的相关信息,以便为数字图书馆信息平台建设、电子资源配置提供依据,成为值得研究的问题。


  对网络用户信息行为的定量研究方法有日志数据挖掘、系统软件计数及网络数据采集等途径。这些方法在改善现有评估手段的同时,也不同程度的存在一定局限性,主要有以下几点:


  1.数据获取对业务环境的依赖性强。日志挖掘方法中,用户端和服务器端缓存(Cache)、代理(Proxy)及防火墙地址转换(NAT)等技术都会影响对数据的获取和处理,从而削弱挖掘效果。获取系统软件计数数据时一般依赖电子资源数据库厂商提供,实时性较差且有时难以获得完整数据。


  2.行为信息提取内容较少。基于服务端系统软件计数或日志挖掘的方法很难收集到用户端个体信息,现行的基于网络层统计的方法又侧重于用户行为模式的判断,忽略行为内容的分析。如基于snort的过量下载检测方法,其处理的数据层次局限于网络层,没有对应用层数据作进一步处理,基于DPI的pdf文件下载检测方法仅对特定类型进行捕获,同样也没有针对应用层信息进行分析和处理。




  针对上述局限性,本文利用应用层特征分析技术对数字图书馆用户信息获取报文进行分解处理,讨论了相应处理过程并用算法予以实现,最终设计了系统原型并进行了开发与测试。


用户信息获取行为报文的应用层特征分析与检测


  报文的特征分析


  针对文献获取行为,利用Fiddler软件,我们进行了报文截取和分析。一个典型的下载请求如图1所示。


  在该请求报文的首部字段中,即可获取提供下载报文的主机域名或IP地址,如:Host:libvip.cumt.edu.cn


  对起始行中的Get请求进行分析,其中包含如下信息:


  1.该下载请求的文件存放路径:file=\R13\88765X\007\002\45759469.pdf


  2.下载文件名:



  由此可见,对于特定电子资源站点的下载请求,可通过对相应报文的分析获取有意义的信息。文献获取报文具有如下特征:


  1.HTTP首部字段中描述了目的主机信息,如域名、IP地址等;


  2.在GET请求中,通过“参数名=值”的形式存放了与下载有关的信息,如文件名、存放路径、文件类型等;


  3.在URL中,中文被重新编码,以%作为编码的转义标志。


  ……未完,更多点击原文查看





    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多