分享

Chrome历史记录分析

 shuaixinerwei 2012-11-21

Chrome历史记录分析

五月 18th, 2012

我上网首选的浏览器是Chrome,它凭借着整洁的界面,迅速的响应以及强大的同步和历史记录功能经常博得我的欢心。详实的上网记录捕捉了我的每一分钟和每一串脚印,可以说是我的半个生活史(本人宅居,死宅,玩命的宅),今天我打算透过这干巴巴的数据来窥视我长时间以来生活方式的秘密。下面先介绍如何导出历史记录中的数据,再对数据进行分析。

1,导出数据

1.1,首先要找到历史记录存放的位置,在win7下是:C:\Documents and Settings\Administrator\AppData\Local\Google\Chrome\User Data\Default,如果找不到此文件夹,先取消文件隐藏的选项,然后一步一步的进,如果哪一步打不开并显示没有权限,可选中此文件夹右键选择管理员取得所有权,掌握这两点便所向披靡了。进入最后一个文件夹后便可看到许多文件,其中有一个便是大名鼎鼎的History,它就是我们所需要的,如何将其打开呢?

1.2,History文件找到了,先拷贝一份出来,下面就可以对备份动手术了。如果你知道Sqlite,便一定听说过Sqlite是轻量级的数据库,全部代码多少多少万行,接着是Android支持它,iPhone支持它,Chrome支持它等等。据此可以大胆的猜测这个History是一个sqlite数据库,事实上它就是的。先下载一个非常小的查看软件Sqlite Database Browser,然后直接将History拖到这个软件里,效果如下:

提示:如果打开之后什么也看不到,可以用前面说的方法对History文件提升管理员权限,然后再次打开。

1.3,如果打开成功,单击Browse Data,选择表urls,便会看到所有的历史记录,里面有网址,浏览的时间,浏览的次数等等。打开的效果如下:

1.4,现在需要将数据导出来,按下面的步骤执行可导出CSV格式的文件。File->Export->Table as CSV file,选择表urls,按照提示便可导出CSV文件。如果需要其他格式的数据,可以用NotePad或者Excel将其打开,然后再进行转换。

2,分析数据

2.1,在所有数据中最重要的便是时间,因此得弄清楚里面时间到底代表何年何月,这里我借助了Wolfram Alpha来辅助分析。首先在数据库中找到最后一条记录的时间(最好是当天),在last_visit_time字段下,我的是12981655707785010。这么长的一串字肯定是微秒级的,得先找到起始值(例如Unix下是1970年1月1日0时0分0秒),首先除以10^6将其单位变为秒,即12981655708秒,再将其化为天,则是150251天。在Wolfram Alpha中询问一下:

现在很清楚了,起始值是1601年1月1日0时0分0秒,虽然不知道为什么要这样。然后按第一条和最后一条的时间差逆向算出第一条记录的时间,我这里算出的是2012年2月18日。下面我又用Alpha算出2012年2月18日0时0分0秒的绝对时间(相对于起始时间),接下来便可以对数据进行任意操作了。

2.2,下面我用Mathematica来分析数据

首先统计每天打开网页的次数,然后画出走势图:

由于这学期我新装了次系统,导致大批量的数据丢失,因此这里只记录了从18/02/2012到17/20120517/1012这些天的数据。图上绿色的点点代表星期六和星期天,从图上可以看出我的上网量还是很客观的,上个星期六竟高达700次,那是因为我在赶任务。基本上周末那两天占据了大部分的拐点,有时上网量惊人,有时又落入低谷,这个也很正常,一般来说星期六没事可以放心大胆的玩,但到了星期天就要开始考虑作业等问题,上网量自然降下来了。总体来说,规律性不是很强,因为我本人上网就没什么固定的习惯。

统计一天内各段时间的平均上网量:

这个图形可以很好的反应我的作息习惯,今年我绝少熬夜,因此1AM到6AM上网量基本上为0,后面画的散点图表现的很明显。从6AM到11AM接近于线性增长,这个现象可用我起床不定时来解释,越晚我就越有可能起来,因此上网的概率也会更大。到了12PM时有一个突变,此时放学,你懂得。今年我们的课下午一般只有一节课,4点钟时就又放学了,所以2PM到3PM处于一个低谷,4PM时又有一个突变。后面的上网量开始稳定,稳定在一个较高的水平,10PM后开始下降,因为停电,断网。接下来用散点图来表示各个时段所有的上网情况,其中粉红色的带状物表示我起床的大致范围:

刚画出这个图时我自己也感到难以相信,只要我睁开眼,竟然时时刻刻都在上网。我很喜欢上网吗?这个问题很值得我去思考。对于这个图我认为还有一点需要提一下,那就是自四月份以来,6PM~9PM之间出现不少时间空白,我不上网能干吗?我可以很高调的说去自习了,谁以后要是质疑我天天不学习,我便拿此图反驳。

说到上网,就得知道自己上的是什么网,这个很大程度上可以决定我的品位。因此我做了一个简单统计,列出前20个我最常访问的网页,统计如下:

我最常用的网站竟然是百度,而浏览器默认的网页是谷歌啊!不管怎样,从表中可以直观的看出我一直处于搜索状态,因为搜索引擎的存在我思考的越来越少。其次最经常访问的是stackexchange的两个子站,这个不难理解,它太火爆了,我已经彻底被它征服了,估计以后依然会投入更多的时间来浏览。其他的也没必要一一探讨,因为它们反应的就是我的真实生活,谁会无缘无故的对自己的生活指手画脚?这就是我的真实品味。

为了能够直观的进行比较,我又画出了前20个的柱状图和前10个的饼状图。

从图中还是可以得出一些关于我的结论,我喜欢搜索,喜欢提问,喜欢盗版,喜欢无所不知,喜欢动态新闻,喜欢看别人装文艺,喜欢。。。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多