java10个基础错误
97%的记录错误是由10个唯一错误引起的
在2016年,一件事在30年内没有改变。 开发和运营团队仍依靠日志文件对应用程序问题进行故障排除。 由于某些未知原因,我们隐式信任日志文件,因为我们认为事实隐藏在其中。 如果您足够努力地进行grep编写或编写完美的regex查询,答案将神奇地呈现在您面前。
是的,诸如Splunk,ELK和Sumologic之类的工具已使搜索日志变得更快,但所有这些工具都受一件事-操作噪音的困扰。 运营噪音是当今IT和您的业务的无声杀手。 这就是为什么无法发现应用程序问题并需要花费数天才能解决的原因。
新帖:我们处理了10亿个Java记录的错误-这是导致97%的错误的原因https://t.co/fFht52vkp1 pic.twitter.com/ddHdrTRCjA
— Takipi(@takipid) 2016年5月24日
日志现实
这是现实,您只会记录您认为会破坏应用程序的内容,并且会受到记录的数量的限制,而不会在应用程序上产生不必要的开销。 这就是为什么通过日志记录进行调试在生产环境中不起作用以及为什么大多数应用程序问题都未被发现的原因。
假设您确实设法找到了所有相关的日志事件,但这还不是故事的结尾。 您通常不需要的数据就不在其中,并且您还可以添加其他日志记录语句,创建新的构建,测试,部署并希望错误再次发生。 哎哟。
分析时间
在Takipi,我们捕获并分析Java应用程序在生产中引发的每个错误或异常。 通过分析Takipi监视的1000多个应用程序,我发现了这些内容。
高层次的总体发现:
- 平均 Java应用程序每月将引发920万个错误
- 平均 Java应用程序每月产生大约2.7TB的存储
- 平均 Java应用程序每月包含53个唯一错误
- 按频率列出的十大Java错误分别是
- 空指针异常
因此,有了它,讨厌的NullPointerException就应该归咎于日志文件中所有损坏的内容。 具有讽刺意味的是,检查null是2004年我是Java开发人员时在第一次代码审查中获得的第一个反馈。
正确,以下是过去30天中随机选择的企业生产应用程序中的一些数据:
- 25个JVM
- 29,965,285个错误
- 约8.7TB的存储空间
- 353个唯一错误
- Java发生频率最高的错误是:
- NumberFormatException
故障排除时间(射击)
因此,您从事开发或运营工作,并且被要求对上述每天产生一百万个错误的应用程序进行故障排除,该怎么办? 好吧,让我们放大一下应用程序出现问题的时间了吗?
让我们选择一个15分钟的时间段。 但是,在那15分钟内,您仍然会看到10,416个错误。 您现在看到了称为操作噪音的问题吗? 这就是为什么人类今天要努力检测应用程序并进行故障排除……并且不会变得更加简单。
如果我们只修复了10个错误怎么办?
现在,假设我们在上述应用程序中修复了10个错误。 您认为这10个错误对本应用程序每月产生的错误计数,存储和操作噪声有何减少?
1%,5%,10%,25%,50%?
大约97.3% 。 是的,你读过。 在此应用程序中仅修复10个错误将减少97.3%的错误计数,存储和操作噪声。
在过去30天内抛出的总29,965,285个错误中,该应用程序中按频率排列的前10个错误负责29,170,210个错误。
废话少说
绝大多数应用程序日志文件包含重复的废话,您需要支付这些废话来管理IT环境中的每一天。
您支付:
- 磁盘存储以托管服务器上的日志文件
- 日志管理软件许可证可通过网络解析,传输,索引和存储此数据
- 运行您的日志管理软件的服务器
- 人类来分析和管理这种运行噪音
解决操作噪音的最简单方法是修复应用程序错误而不是忽略它们。 这不仅可以极大地改善团队的运营洞察力,还可以帮助他们发现更多问题并更快地进行故障排除,因为他们实际上会看到损害您的应用程序和业务的事物。
解决方案
如果要确定并修复应用程序中的前10个错误,请免费下载Takipi ,将其粘贴在一些生产JVM上,等待几个小时,按频率对捕获的错误进行排序,然后单击一下Takipi将向您显示准确的引起它们的源代码,对象和变量值。 您的开发人员将在几个小时内就能进行所需的修复,而Bob将成为您的叔叔 。
下次在生产环境中进行代码部署时,Takipi将立即通知您所引入的新错误,您可以重复此过程。 我们通过两种方式在Takipi使用Takipi来检测SaaS平台中的新错误:
Slack实时通知 ,可在发生错误时立即通知我们的团队生产中出现的每一个新错误,并提供一键式链接以准确地找出根本原因(导致错误的源代码,对象和变量值)。
电子邮件部署摘要报告显示了前5大新错误,并直接链接到确切的根本原因。
最后的想法
我们一次又一次地看到生产中记录在前的错误中的大部分时间都在浪费时间并在记录资源。 这些最严重的事件造成的损害(每次发生数百万次)与解决这些问题所花费的时间和精力不成比例。
本周晚些时候,我们将发布导致这些错误的十大异常类型。 敬请关注。
翻译自: https://www.javacodegeeks.com/2016/05/crunched-1-billion-java-logged-errors-heres-causes-97.html
java10个基础错误