我们处理了10亿个Java记录的错误-这是导致97%的错误的原因

97%的记录错误是由10个唯一错误引起的

在2016年,一件事已经30年没有改变了。 开发和运营团队仍依靠日志文件对应用程序问题进行故障排除。 由于某些未知原因,我们隐式地信任日志文件,因为我们认为事实隐藏在其中。 如果您足够努力地进行grep编写或编写完美的regex查询,答案将神奇地呈现在您面前。

是的,诸如Splunk,ELK和Sumologic之类的工具已使搜索日志变得更快,但所有这些工具都受一件事–操作噪音的困扰。 运营噪音是当今IT和您的企业的无声杀手。 这就是为什么无法发现应用程序问题并需要花费数天才能解决的原因。

日志现实

这是现实,您只会记录认为会破坏应用程序的内容,并且会受到记录的数量的限制,而不会在应用程序上产生不必要的开销。 这就是为什么通过日志记录进行调试在生产环境中不起作用以及为什么大多数应用程序问题都未被发现的原因。

假设您确实设法找到了所有相关的日志事件,但这还不是故事的结尾。 通常,所需的数据通常不在其中,并且您还可以添加其他日志记录语句,创建新的构建,测试,部署并希望错误再次发生。 哎哟。

分析时间

在Takipi,我们捕获并分析生产中Java应用程序抛出的每个错误或异常。 通过分析Takipi监视的1,000多个应用程序,我发现了这些实用信息。

高层次的总体发现:

  • 平均 Java应用程序每月将引发920万个错误
  • 平均 Java应用程序每月产生大约2.7TB的存储
  • 平均 Java应用程序每月包含53个唯一错误
  • 按频率列出的前10个Java错误分别是
    • 空指针异常

因此,有了它,讨厌的NullPointerException就应该归咎于日志文件中所有损坏的内容。 具有讽刺意味的是,检查null是2004年我是一名Java开发人员时在我的第一次代码审查中获得的第一个反馈。

是的,以下是过去30天中随机选择的企业生产应用程序中的一些数据:

  • 25个JVM
  • 29,965,285个错误
  • 约8.7TB的存储空间
  • 353个唯一错误
  • Java发生频率最高的错误是:
    • NumberFormatException

故障排除时间(射击)

因此,您从事开发或运营工作,并且被要求对上述每天产生一百万个错误的应用程序进行故障排除,该怎么办? 好吧,让我们放大应用程序出现问题的时间吗?

让我们选择一个15分钟的时间段。 但是,在那15分钟内,您仍然会看到10,416个错误。 您现在看到了称为操作噪音的问题吗? 这就是为什么人类今天要努力检测应用程序并对其进行故障排除……并且不会变得更加简单。

如果我们只修复了10个错误该怎么办?

现在,假设我们在上述应用程序中修复了10个错误。 您认为这10个错误对应用程序每月产生的错误计数,存储和操作噪声有何减少?

1%,5%,10%,25%,50%?

大约97.3% 。 是的,你读过。 在此应用程序中仅修复10个错误将减少97.3%的错误计数,存储和操作噪声。

在过去30天内抛出的总29,965,285个错误中,该应用程序中按频率排列的前10个错误负责29,170,210个错误。

废话少说

绝大多数应用程序日志文件包含重复的废话,您需要支付这些废话来管理IT环境中的每一天。

您支付:

  • 磁盘存储以托管服务器上的日志文件
  • 日志管理软件许可证可通过网络解析,传输,索引和存储此数据
  • 运行您的日志管理软件的服务器
  • 人类来分析和管理这种运行噪音

解决操作噪声的最简单方法是修复应用程序错误而不是忽略它们。 这不仅可以极大地改善团队的运营洞察力,还可以帮助他们发现更多问题并更快地进行故障排除,因为他们实际上会看到损害您的应用程序和业务的事物。

解决方案

如果要确定并修复应用程序中的前10个错误,请免费下载Takipi ,将其粘贴在几个生产JVM上,等待几个小时,按频率对捕获的错误进行排序,然后单击一下Takipi将向您显示确切的错误。引起它们的源代码,对象和变量值。 您的开发人员将在几个小时内就能进行所需的修复,而Bob将成为您的叔叔 。

下次在生产环境中进行代码部署时,Takipi将立即通知您所引入的新错误,您可以重复此过程。 我们通过两种方式在Takipi使用Takipi来检测SaaS平台中的新错误:

Slack实时通知 ,可在发生错误时立即通知我们的团队生产中出现的每一个新错误,并提供一键式链接以准确地找出根本原因(导致错误的源代码,对象和变量值)。

松弛

电子邮件部署摘要报告显示了前5大新错误,并直接链接到确切的根本原因。

tkp摘要

最后的想法

我们一次又一次地看到,生产中最重要的几个记录错误正在浪费大部分时间并记录了资源。 这些最严重的事件造成的损害(每次发生数百万次)与解决这些问题所花费的时间和精力不成比例。

本周晚些时候,我们将发布导致这些错误的十大异常类型。 敬请关注。

翻译自: https://www.javacodegeeks.com/2016/05/crunched-1-billion-java-logged-errors-heres-causes-97.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/353105.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

洛谷 P1939 【模板】矩阵加速(数列)

题目描述 a[1]a[2]a[3]1 a[x]a[x-3]a[x-1] (x>3) 求a数列的第n项对1000000007(10^97)取余的值。 输入输出格式 输入格式: 第一行一个整数T,表示询问个数。 以下T行,每行一个正整数n。 输出格式: 每行输出…

Java中Map的使用

Map以按键/数值对的形式存储数据,和数组非常相似,在数组中存在的索引,它们本身也是对象。 Map的接口 Map---实现Map Map.Entry--Map的内部类,描述Map中的按键/数值…

java获取10位随机数_Java基础:JAVA中BitSet使用详解

适用场景:整数,无重复;Bitset 基础Bitset,也就是位图,由于可以用非常紧凑的格式来表示给定范围的连续数据而经常出现在各种算法设计中。上面的图来自c库中bitset的一张图。基本原理是,用1位来表示一个数据是…

使用shiro框架,注销问题的解决

在使用shiro框架的时候,有时候会因为登录问题找不到注销的controller。所以会报404的错误,下面是解决办法: 1.首先写一个类SystemLogoutFilter继承LogoutFilter类,具体代码如下,注意要贴Service标签: impor…

介绍“又一个” Cloud Foundry Gradle插件

在与两个同事(感谢Mark Alston , Dave Malone !)一起使用自动Jenkins管道部署Cloud Foundry应用程序的过程中,我决定尝试编写Gradle插件来执行一些通常需要完成的任务使用命令行Cloud Foundry Client完成 。 介绍带有…

卓金武——从数学建模到MATLAB

卓金武——从数学建模到MATLAB 2013-9-4 09:48| 发布者: ilovematlab| 查看: 9647| 评论: 40 摘要: 人物简介——卓金武(Steven),MathWorks公司中国区应用工程师。在科学计算、定量优化、数学建模和数据挖掘领域拥有8年经验。曾3次获全国大学…

[Java开发]打印当前路径到控制台

开发时候,遇到了系统找不到配置文件的情况,定位到文件路径的问题之后,选择将当前路径打印到控制台。 File directory new File("");//设定为当前文件夹 try{ System.out.println(directory.getCanonicalPath());//获取标准的路径 …

latex中report目录_LaTeX目录格式控制

章节结构控制章节层次一个文档的最高层章节可以是part,也可以没有part直接是chapter/section。除了part以外,只有在上一层章节存在时,才可以使用下一层章节。章节层次示意图如下,方框代表文档类型,圆圈代表章节层次。对…

诸葛亮给子书

夫君子之行,静以修身,俭以养德;非澹泊无以明志,非宁静无以致远。   夫学须静也,才须学也;非学无以广才,非志无以成学。   怠慢则不能励精,险躁则不能冶性。   年与时驰&…

conda 安装mysql_centos7安装mysql

一、安装YUM Repo1、由于CentOS 的yum源中没有mysql,需要到mysql的官网下载yum repo配置文件。官方网址:https://dev.mysql.com/downloads/repo/yum/下载命令:wget https://dev.mysql.com/get/mysql57-community-release-el7-9.noarch.rpm2、…

智能批处理

我们都有多少次听说“分批处理”会增加延迟? 作为对低延迟系统充满热情的人,这让我感到惊讶。 以我的经验,正确完成批处理不仅可以提高吞吐量,还可以减少平均延迟并保持一致。 那么,批处理如何神奇地减少延迟呢&#x…

cogs 76. [NOIP2007] 统计数字

【问题描述】 某次科研调查时得到了n个自然数,每个数均不超过1500000000(1.5*10^9)。已知不相同的数不超过10000个,现在需要统计这些自然数各自出现的次数,并按照自然数从小到大的顺序输出统计结果。 【输入格式】 输入文件pcount.in包…

javaweb之Filter详解

一、概念:Filter也称之为过滤器,它是Servlet技术中比较激动人心的技术,WEB开发人员通过Filter技术,对web服务器管理的所有web资源:例如Jsp, Servlet, 静态图片文件或静态 html 文件等进行拦截,从而实现一些…

pause容器作用_Kubernetes学习之pause容器

根据代码看到,pause容器运行着一个非常简单的进程,它不执行任何功能,一启动就永远把自己阻塞住了,它的作用就是扮演PID1的角色,并在子进程称为"孤儿进程"的时候,通过调用wait()收割这个子进程,这样就不用担心我们的Pod的PID namespace里会堆满僵尸进程了,这也是为什么…

Spring Integration –轮询文件的创建和修改

1引言 文件支持是Spring Integration与外部系统通信的另一个端点。 在这种情况下,它提供了几个组件来读取,写入和转换文件。 在这篇文章中,我们将编写一个监视目录的应用程序,以便读取其中的所有文件。 具体而言,它执行…

为什么需要消息队列MQ

主要原因:是在高并发情况下,由于来不及同步处理,请求往往会发生堵塞,比如诸多的insert、update之类的请求同时到达mysql,直接导致无数的行锁表锁,甚至最后请求会堆积很多,从而触发大量的too man…

数据库连接池的使用

关于数据库连接池的使用,首先我们要明白我们为什么要用它,对应普通的数据库连接操作,通常会涉及到以下一些操作是比较耗时的: 网络通讯,涉及到网络延时及协议通讯身份验证,涉及安全性检查连接合法性检查&a…

mysql基础知识整理_MYSQL基础知识整理

目录1、客户端命令2、服务器端命令3、常用数据类型3.1、数值型3.2、字符型3.3、日期时间型3.4、布尔型4、mysql的执行方式5、用户管理1、客户端命令客户端命令不需要以分号结尾 ,如果想获取客户端命令的帮助信息则:mysql> helpmysql常用客户端命令如下…

python 学习DAY11

动态传参 形参* # 聚合所有位置参数的实参 实参* #打散一个位置参数成多个 形参** #聚合所有关键词参数 实参** #打散实参的关键词参数 命名空间 第一种 内置名称空间 第二种 全局名称空间 第三中 局部名臣空间 作用域 全局作用域(是内置的,全局也可以调用) 局部作用域(局部可调…

【网络技术设备安全】BGP 基础与概述-2-中转 AS 中的 IBGP 路由传递

0x01 中转 AS 中的 IBGP 路由传递 参考该图: 上图,我们模拟一个 1.0 的路由通过 AS 65101 来传递 1:通过图可知,A 与 B 之间的 Peer 为 EBGP,B 与 E 之间为 Peer IBGP,E 与 F 之间为 Peer EBGP 邻接 2&a…