Nginx 日志收集以及分析(HADOOP版) 场景: 某互联网公司,现有50台WEB服务器,采用LNMP + LVS +KEEPALIVED集群对外提供服务,日均PV 在 xx 左右,每小时需要对上小时产生的数据进行分析,每小时产生的日志大概有1-2亿条左右,原有是通过把日志放在一起,然后每小时通过PYTHON对脚本预处理成文本格式,然后导入到MYSQL中进行分析,随着访问量提高,日志也越来越多,运营对数据要求越来越及时,现有的日志分析系统已经越来越不能满足需求: 我的解决方案: 1. 日志收集采用facebook 的scribe,对nginx 日志进行实时收集,收集的日志统一发送到scribe的中心服务器,由scribe中心服务器把日志写入到HDFS中。 2. 通过HIVE对写入到HDFS中的日志进行分析处理,然后把处理的结果通过sqoop写入到MYSQL中,通过WEB来进行展示 |
|