你真的会打 Log 吗？

airen89 2020-05-28

展开全文

作者：祝欣鸿，任职Java工程师，负责新达达账户系统的研发工作，对工程规范、代码质量有深入理解。

工程师在日常开发工作中，更多的编码都是基于现有系统来进行版本迭代。在软件生命周期中，工程维护的比重也往往过半。当我们维护的系统出现问题时，第一时间想到的是查看日志来判断问题原因，这时候日志记录如果没有提供有效的信息，我们能做的只有深度 Code Review，耗时不说且效率低下。

日志

日志记录的好坏直接关系到系统出现问题时定位原因的速度。不少工程中都记录了挺多日志，但在实际问题排查中起到的作用却不大，开发人员还是需要打开 IDE 通过读代码来定位原因。那到底怎样的日志记录更合适呢？我们可以先思考一下这几个问题：

记录日志的目的？
什么是有效的日志？
记录日志的原则?

首先，日志需要用来记录用户操作、系统运行状态等信息，是一个系统的重要组成部分。然而由于日志并非系统核心功能，通常情况下并得不到开发人员的重视。在出现问题需要通过日志来定位时，才暴露中现有日志记录的很多不足。

其次，通过对日志的观察和分析，提前发现系统的潜在风险，避免线上事故的发生。

最终目标：线上系统出现问题时，通过日志就可以快速定位原因。

日志级别

在 slf4j 官网上可以看到官方对日志级别定义有8种之多：

这里介绍常用日志级别的同时顺带介绍一下不常见的日志级别 FATAL 和 TRACE。

FATAL - 表示需要立即被处理的系统级错误。当该错误发生时，服务已经出现了某种程度的不可用，系统管理员需要立刻处理。这是最严重的日志级别，因此该日志级别要慎用，如果这种级别的日志经常出现，那这日志也失去了意义。通常情况下，一个进程的生命周期中应该只记录一次FATAL级别的日志，即该进程遇到无法恢复的错误而退出时。

TRACE - 这个级别日志在开源框架中还挺常见，和DEBUG级别很像，主要作用是对系统每一步的运行状态进行精确的记录。通过它，可以查看某一个操作每一步的执行过程，精确定位是什么操作，有什么参数，执行顺序是怎样，最终导致了什么错误的发生。同时可以保证在不重现错误的情况下，通过分析 TRACE 级别的日志即可完成对问题的诊断。TRACE 和 DEBUG 用法相似，具体规范应该由团队自己定义，应该保证日志内容除了开发人员以外，运维、测试人员也可以通过 TRACE（或 DEBUG）日志来定位问题。

ERROR - 该级别的错误也需要马上被处理，但是紧急程度要低于FATAL。当ERROR错误发生时，已经影响了正常的业务功能。从这个意义上来说，实际上ERROR错误和FATAL错误对用户的影响是相当的。FATAL相当于整个服务已经挂了，而ERROR表示系统出现错误，但还能提供服务，只能不断地打印ERROR日志。特别需要注意的是，ERROR应当属于服务自己的异常，是需要马上得到人工介入并处理的，如果出现了ERROR日志业务上又不需要处理的就不应该记为ERROR级别，这一点是区别于INFO的明显标识。例如由于用户自己操作不当，传入非法请求参数时，是绝对不应该记为ERROR级别；还有业务处理结果为失败的情况，比如扣款操作遇到用户余额不足，也不能记为ERROR。

INFO - 该种日志记录系统处理业务的概要信息，例如一个业务请求的入参和执行结果以及耗时等等。通过查看INFO级别的日志，可以很快地对系统中业务情况有个基本了解，有哪些业务处理成功哪些又失败了。INFO日志不宜过多，太多的话造成信息干扰不利于查问题；

WARN - 该日志表示系统可能出现问题，也可能没有，标识的是系统潜在问题，例如网络抖动造成的rpc调用时长超过阈值。对于那些目前还不是错误，然而不及时处理也会变为错误的情况，也可以记为WARN日志，例如一个存储系统的磁盘使用量超过阀值，或者系统中某个用户的存储配额快用完等等。对于WARN级别的日志，虽然不需要系统管理员马上处理，也是需要即使查看并处理的。因此此种级别的日志也不应太多，能不打WARN级别的日志，就尽量不要打；

Rule 1: 整个团队（包括运维）对日志级别有明确规范。

Rule 2: 绝不打印没有用的日志，防止无用日志淹没重要信息。

日志维护

通过系统出现的问题来优化日志，是一项长期的实践，不断地从日志发现系统的问题，不断地从系统错误发现日志的问题。