看日志,是研发的日常工作,相信你已经从各种报错日志中查出许多BUG,但也被冗长、复杂的日志困扰过无数次。
在日常工作中,我也经常痛苦于看日志,一般是这些日志长得面目狰狞:
- 日志文件太大,打开都很困难
- 日志文件里的信息错综复杂,各个模块的时序纠缠不清
- 日志搜集引擎导出的文件被切割成多个文件,很难联系上下文来看
不仅日志看的不顺眼,看日志的工具也不蹭手:
- 搜索完关键词,上下跳几次,就忘记要干什么了(我是谁,我在哪,我在干嘛?)
- 想按某个关键字过滤日志,有的工具还不支持
- 刚刚自己分析得头头是道,一叫人过来就忘记从哪看起了
其实,这些问题,我们可以分为两类来看待。一类是工具问题,也就是工具的功能还不够完善;一类是方法问题,也就是缺少系统的方法来从日志中排查问题。
对于前者,我们需要的是专业的日志查看工具,而不是使用编辑器;对于后者,我有总结了一些方法论,倒是可以分享分享。
思路可视化
回顾看,排查日志一般步骤是:了解问题 => 定位出错位置 => 查看上下文 => 推测出错原因
而在这个过程中,如果我们把日志看做一维的线条,那么看日志就是在线条里,前前后后的跳转,搜集信息,然后总结得出结论。
而上面提到的一些问题,比如看日志忘记看到哪里了,讲解不知从而谈起等等,其实是没有把日志浏览的足迹、搜集的信息、总结的疑点、结论记录下来。
要把这些信息记录并可视化,你认为最合适的方式是什么呢?
我的方式是“时间线”。
像整理历史事件,分析历史事件一样,我们看到日志中有价值的地方,就做一个标记,把它放入时间线里。
起初,时间线只是一个书签栏,帮我们记录位置信息。比如出错位置在哪里,xx时间xxx在干嘛,xx在xx之前/之后等等
接着,我们开始结合日志+时间线,找到一些疑点。这个地方可疑,加个备注;这个地方的时序貌似不对,标个黄色;这个事件似乎没啥意义,先删了
上面的可疑点的梳理,基本围绕着“时间线条”这个工具在走,但,其实本质上是对你自己思路的检视,也就是,这个时候的“时间线”已经在扮演思路可视化的过程了。
最后,我们对可疑点进一步升华,发现了这份日志对应问题的根本原因。
这时候,时间线(思路的可视化),还能给你带来另一个价值——我们可以把这一份整理后的时间线发给相关人员,陈述你对日志的分析过程,是不是比直接文字表述更直观了?
主体+辅助
上面提到的“时间线”,其核心是保持思路一直延续,不被工具操作,或是其他信息干扰、打断。
思路在线,是排查日志最关键的一点。时间线是从时间维度来帮助我们做到思路在线,而“过滤窗”则可以帮助我们在“信息维度”保持思路在线。
日志排查的过程中,经常要用到的功能是:过滤含某个关键字的日志。但是仅仅过滤就行了吗?
如果只是过滤的话,会导致信息丢失。我们其实需要了解的是在整个日志范畴,这个过滤规则下的行为发生了什么,分布在哪些位置,上下文(其他模块)在干嘛,与我刚刚记录到时间线里的信息前后关系是怎样的……
也就是说,按关键字过滤出的信息除本身的信息价值外,还需要对照主体日志来提取更多信息。换言之,既是平行的,又是交错的。
那么,怎样才能合理的解决这个矛盾呢?
我把关键字过滤出的信息定义为辅助信息,放在过滤小窗,主体窗口显示完整日志,实现平行查看;同时,以“时间”为“纽带”连接“主体窗口”、“过滤小窗”、“时间线”,无论双击哪一个窗口中的事件,其他两个窗口都会立即定位到对应位置,这就实现了信息交织。
且看下图:
图中3大区域,左上是主体窗口,左下是过滤小窗,右边是时间线。
TAG
仍然围绕“思路在线”,时间(思路)和信息维度,我们都解决了,还有什么困扰呢?
辅助工具!
看日志可不是一两个关键词搜索就能搞定的(能搜索一两个关键词搞定的,那只能叫做瞄一眼),而是很多。那么,最好能把搜索过的关键词记录下来,最好还能用不同的颜色标记出来。
所以,我还设计了一个TAG栏,记录当前高亮的关键词;然后在搜索栏里,加入了历史功能,可以自动补全之前输入过的单词。
其他
为了让天下没有难看的日志,定位到xx行、前进/后退、反向搜索、字体设置……等等,这些功能也不能少
既然把日志分析这件事已经摸索出了一定的经验和方法,而现有工具又没有特别蹭手的,当然是要自己写一个了!
来看看我写的loginsight吧:
loginsightgithub.com