SQL老司机,居然是这样智能挖掘异常日志

摘要: 提取异常日志是个大难题 面对海量的日志(TB乃至PB级别),如何从日志中挖掘出异常信息对于大部分的开发者而言是一个大难题。例如,判断机器的延时是否正常,部分request是否正常。通常,我们对于异常的数据,要及时的报警,以尽快的处理。

提取异常日志是个大难题

面对海量的日志(TB乃至PB级别),如何从日志中挖掘出异常信息对于大部分的开发者而言是一个大难题。例如,判断机器的延时是否正常,部分request是否正常。通常,我们对于异常的数据,要及时的报警,以尽快的处理。

通常我们是怎么搞得呢? 在以前,依赖于开发者的经验,来根据某些特定的特征,判断是否达到了阈值,例如根据延时是否达到了某个特定的值,或者http 响应码5xx的比例达到了某个阈值。这个阈值,依赖于资深的开发者的丰富的经验。

AI dev/ops

AI算法的迅猛发展,给异常日志挖掘提供了新的方向。大名鼎鼎的AI领域专家吴恩达(Andrew NG),在他所教授的Machine Learning课程中提供了一种Abnormal Detection算法。算法通过训练数据集,获得一个正态分布。然后检测目标数据是否落在了正态分布的边缘位置,如果落在了边缘位置,则认为是一个异常数据。

算法步骤:

  1. 确定要训练的feature,可以是单个指标,比如latency,也可以是复合指标,例如CPU/NetFlow
  2. 在训练数据集上,求得均值μ和方差σ^2
  3. 对新数据求方程P(x)=  

接下来,我们介绍如何在SQL中使用该算法来检测异常。

日志服务提供的异常检测算法

以延时为例,我们来看哪些延时是异常的。 延时的分布一般是这样的:

不满足正太的需求,要把上述图形转化成正太分布,对latency 求对数:log(latency)


  • 值μ和方差σ^2:
* | select numeric_histogram(10,latency), stddev_pop(ln(latency)) as stddev,var_pop(ln(latency)) as variance ,avg(ln(latency)) as avg_ln, avg(latency) as avglatency


stddev即标准差
variance即方差
avg_ln即ln(latency)的均值
avglatency即latency的均值

  • 提取异常数据
| select latency  where  pow(e(), - pow((ln(latency) - 8.223) ,2)/2/0.3975) /sqrt(2*pi()) / 0.53  < 0.01 order by latency desc 

把方差标准差和均值带入公式,使用where筛选出来小于0.01的结果,即异常值。可以看到,获得的结果,明显大于军latency的均值。


原文链接

干货好文,请关注扫描以下二维码:



本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/522003.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

华为杯数学建模优秀论文_【优秀论文】2019数维杯国际大学生数学建模竞赛B题优秀论文...

推荐入群2020数维杯国际赛参赛群132020数维杯国际大学生数学建模竞赛于2020年11月26日08:00(周四)—11月30日08:00(周一)进行&#xff0c;报名正在火热进行中&#xff0c;扫码了解详情或可直接报名&#xff01;扫码了解详情或可直接报名赛题B回顾2019数维杯国际赛赛题B回顾点击…

Lucene解析 - 基本概念

摘要&#xff1a; 前言 Apache Lucene是一个开源的高性能、可扩展的信息检索引擎&#xff0c;提供了强大的数据检索能力。Lucene已经发展了很多年&#xff0c;其功能越来越强大&#xff0c;架构也越来越精细。它目前不仅仅能支持全文索引&#xff0c;也能够提供多种其他类型的索…

FileZilla 下载安装使用

我电脑是win10 64位的&#xff0c;不知软件为何这样命名&#xff0c;已经用了2年多了。 FileZilla 版本&#xff1a;3.27.1下载链接 http://gainetsoftwares.kuaiyunds.com/gainetsoftwares/FileZilla3d0899f3-d291-4714-bd45-027ffaa49962.zip 1、 双击FileZilla_3.27.1_win3…

Vicor再携创新产品“登陆”ODCC大会,有详情!

戳蓝字“CSDN云计算”关注我们哦&#xff01;目前&#xff0c;越来越多的应用系统对电源系统的功率密度及转换效率提出了更高要求&#xff0c;在电源系统设计中不仅功率密度是众多要素之一&#xff0c;其他例如电源系统架构、多种开关拓扑、电源模块和基于分立器件设计的封装技…

Lucene 查询原理

摘要&#xff1a; # 前言 Lucene 是一个基于 Java 的全文信息检索工具包&#xff0c;目前主流的搜索系统Elasticsearch和solr都是基于lucene的索引和搜索能力进行。想要理解搜索系统的实现原理&#xff0c;就需要深入lucene这一层&#xff0c;看看lucene是如何存储需要检索的数…

mac解压rar命令_苹果mac电脑上很好用的免费压缩软件?ezip压缩软件分享

在开始之前&#xff0c;先问问用苹果电脑的大家一个问题&#xff0c;有没有遇到过这种情况呢&#xff1f;就是好不容易在网上找到了需要的素材&#xff0c;然后下载回来后发现&#xff0c;想解压却解压不了。因为mac系统自带的压缩工具是不支持rar格式的&#xff0c;而在网上很…

如何从机器学习数据中获取更多收益

摘要&#xff1a; 本文讲解一些关于机器学习数据集的小技巧&#xff0c;分享个人经验&#xff0c;可供读者参考。对于深度学习而言&#xff0c;合适的数据集以及合适的模型结构显得至关重要。选择错误的数据集或者错误的模型结构可能导致得到一个性能不佳的网络模型&#xff0c…

CSDN×易观算法大赛火热进行中~

伴随着5G、物联网与大数据形成的后互联网格局的逐步形成&#xff0c;日益多样化的用户触点、庞杂的行为数据和沉重的业务体量也给我们的数据资产管理带来了不容忽视的挑战。为了建立更加精准的数据挖掘形式和更加智能的机器学习算法&#xff0c;对不断生成的用户行为事件和各类…

该放弃正在堕落的“RNN和LSTM”了

摘要&#xff1a; 随着技术的发展&#xff0c;作者觉得是时候放弃LSTM和RNN了&#xff01;到底为什么呢&#xff1f;来看看吧&#xff5e;递归神经网络&#xff08;RNN&#xff09;&#xff0c;长期短期记忆&#xff08;LSTM&#xff09;及其所有变体&#xff1a;现在是放弃它们…

textarea支持a标签_微慕小程序开源版A标签优化说明

微慕WordPress小程序所有版本里&#xff0c;对于文章详情里文字内容的解析&#xff0c;都是通过开源组件&#xff1a;wxParse&#xff1b;不过这个组件已经停止维护&#xff0c;微慕小程序在这个组件上做了一些优化&#xff0c;让文章里文字在小程序显示更加完美。但&#xff0…

七本书籍带你打下机器学习和数据科学的数学基础

摘要&#xff1a; 本文主要介绍七本关于机器学习和数据科学数学基础的经典教材&#xff0c;是一份不可多得的书单整理。大多数人学习数据科学的重心放在编程上面&#xff0c;然而&#xff0c;要真正精通数据科学的话是不能够忽视数据科学背后的数据基础。本篇文章&#xff0c;将…

奇葩面试官让我回去等通知!看我怎么虐他!

戳蓝字“CSDN云计算”关注我们哦&#xff01;作者 | 农翻身刘鑫来源 | 码农翻身后记&#xff1a;已经发了两篇漫画了&#xff0c;一个是《我才是世界上最好的语言》&#xff0c;还有一个是《HTTP之大明邮差》&#xff0c;前两篇主要讲技术&#xff0c;这一篇是娱乐性质&#xf…

阿里:千亿交易背后的0故障发布

摘要&#xff1a; 阿里巴巴千亿交易背后&#xff0c;如何尽量避免发布故障&#xff1f;在面对实际运维过程中遇到的问题该如何解决&#xff1f;近日&#xff0c;在刚刚结束的 GOPS深圳站大会上&#xff0c;阿里巴巴运维技术专家少荃&#xff0c;给我们带来了解决方案和思路。前…

华为麒麟990芯片发布;谷歌宣布开源创新隐私保护技术;阿里20亿美元全资收购网易考拉;中国联通将设立100亿5G创新基金……...

关注并标星星CSDN云计算极客头条&#xff1a;速递、最新、绝对有料。这里有企业新动、这里有业界要闻&#xff0c;打起十二分精神&#xff0c;紧跟fashion你可以的&#xff01;每周三次&#xff0c;打卡即read更快、更全了解泛云圈精彩newsgo go go 东风新款电动车菱智M5 EV上市…

C++继承和组合——带你读懂接口和mixin,实现多功能自由组合

摘要&#xff1a; 本文详细介绍了C继承的三种方式和相关重要概念&#xff0c;整理了众多继承与组合中的注意问题。在C继承存在不安全的默认实现&#xff0c;非虚函数的覆盖&#xff0c;多重继承的函数名冲突、菱形继承等众多问题下&#xff0c;如何实现多个功能的自由组合&…

如何在阿里云•对象存储OSS托管用户域名的https证书

摘要&#xff1a; OSS服务支持将用户域名绑定到OSS域名&#xff0c;并为此用户域名提供HTTPS证书托管服务。以满足用户使用自己的域名也能支持HTTPS安全加密的访问方式传输数据。面向人群您已经拥有了自己的域名。您已将或准备将自己的域名绑定到OSS域名上&#xff0c;并且使用…

win10系统VMware Workstation与Device/Credential Guard不兼容怎么办

解决方法&#xff1a; 打开本电脑-》管理-》服务和应用程序-》服务下找到如下图的HV 主机服务&#xff0c;双击选择禁用。 或者 转到“ 控制面板” >“ 卸载程序” >“ 打开或关闭Windows功能”以关闭Hyper-V。 步骤二&#xff1a;通过命令关闭Hyper-V&#xff08;控制…

数据大爆炸边缘期 让存储告别旧时代

戳蓝字“CSDN云计算”关注我们哦&#xff01;好莱坞一部高智商大数据电影《永无止境》&#xff0c;讲述一位落魄的作家库珀&#xff0c;服用了一种可以迅速提升智力的神奇蓝色药物。他将这种高智商用于炒股&#xff0c;能在短时间掌握无数公司资料和背景&#xff0c;也就是将世…

AliOS Things图形界面开发指南

简介物联网设备开发过程中&#xff0c;嵌入式GUI&#xff08;用户图形界面&#xff09;的开发是一个重要的组成部分。许多智能设备如智能家电、智能手表、智能仪表上都会涉及到GUI开发。AliOS Things集成开源图形库littlevGL&#xff0c;可以在linux上进行图形界面开发。开发完…

微服务的好处与弊端_《微服务架构设计模式》-学习总结07

本篇主要总结第七章&#xff1a;在微服务架构中实现查询在微服务架构中查询数据的挑战何时以及如何使用API组合模式实现查询 何时以及如何使用CQRS模式实现查询 微服务架构中&#xff0c;查询通常需要检索分散在多个服务所拥有的数据库中的数据&#xff0c;跨服务数据查询的两种…