Azure Data Explorer(Kusto)学习笔记

Azure Data Explorer 指南

Azure在2018年推出了Data Explorer产品,提供实时海量流数据的分析服务(非流计算),面向应用、网站、移动端等设备。

用户可以查询,并交互式地对结果进行分析,以达到提升产品、增强用户体验、监控设备、用户增长等目的。其中提供一些机器学习函数,能够进行异常、模式识别、并且发现数据中的趋势。

该服务面向秒-分钟级拿到结果的场景,类OLAP,对TP场景不敏感。

产品起源

Azure Data Explorer(ADE)内部代号叫Kusto,在Kusto之前,Azure对监控和分析场景散落在各产品中,例如:Log Analytics、Application Insight,Azure Monitor,Time Series Insight,这些产品在用不同的技术架构来解决不同数据源等问题,例如:

  • 通过PerfCounter和Event通过流数据进行聚合告警

  • 利用通用计数器写入时序数据库,配置实时Dashboard

  • 把应用数据写到数仓做深入分析

 

ADE的目标是对上层预定义计算、后计算做一层抽象:将原始数据进行通用存储,保留一段时间(例如几个月),对这些多样化数据进行快速的多维分析。

ADE在微软的内部代号为Kusto,由以色列研发团队提供。Azure Log Analytics开始选型是Elastic Search,每年付1M$用来获得支持,但效果不好,因此在2015年时对日志、Metric场景使用Kusto来提供,包括之前在cosmosDB中的分析工作。

Azure Data Explorer(Kusto)学习笔记

截止 September 2018 的数据:

  • hundreds of teams within Microsoft

  • 41 Azure regions as 2800 Engine+DM cluster pairs

  • about 23000 VMs.

  • overall data size stored in Kusto and available for query is 210 petabytes

  • 6 petabytes ingested daily.

  • around 10 billion queries per month.

可以推测平均存储时间为:210 (PB) / 6 (PB) = 35 天

产品定义

面向数据类型是Immutable Data,特点是AppendOnly,并且大部分都是Semi-Structure Data,例如User Click Log,Access Log等。Big Data理论中90%都是这类数据,这也是Big Data理论数字化并洞察物理时间的基础。

从Facebook等数据来看,2017年时每天用户产生的视频(UGC)大约在10PB,但用户点击产生的日志量已经远远超过10PB这量,对视频网站而言,内容数据增量少于点击日志的增量已成为通用的规律。

Azure Data Explorer(Kusto)学习笔记

Azure在宣传时这样定义自己的产品:

Azure Data Explorer(Kusto)学习笔记

fast, fully managed data analytics service for real-time analysis on large volumes of data streaming from applications, websites, IoT devices, and more.

产品主要解决三类问题:

  • Customer Query (Advance Hunting)

  • Interactive UI (前者封装)

  • Background Automation(定时任务)

也有一些解释基于几个交互式产品来解释:底层是实时OLAP,上层是Jupiter(交互式) + Kibana(可视化)

Azure Data Explorer(Kusto)学习笔记

从产品定位角度考虑,ADE处于中间层次(利用人的交互式分析能力进行发掘与探索):

  • integrates with other major services to provide an end-to-end solution

  • pivotal role in the data warehousing flow by executing the EXPLORE step of the flow on terabytes of diverse raw data

Azure Data Explorer(Kusto)学习笔记

除此之外ADE(Kusto)是

  • azure application insight, log analytics 基础

  • 为Azure Monitor, Azure Time Series Insights, and Windows Defender Advanced Threat Protection提供数据服务

  • 提供REST API, MS-TDS, and Azure Resource Manager service endpoints and several client libraries

数据模型与API

ADE以实例方式给用户付费,用户购买一组实例后可以创建:

  • Database

  • Table:存储实例,包含Schema(表结构和字段类型),Mapping(如何从CSV、Avro等格式映射)

  • Functions:自定义函数,利用scalar语言可以定义自定义方法,方便后期处理

Azure Data Explorer(Kusto)学习笔记

整个API只有一组接口,通过类KQL方法来管理控制流与数据流,控制流以”.”作为开头,例如 “.create table”。数据分析语言除了KQL外还支持SQL:

  • TSQL: https://docs.microsoft.com/en-us/azure/kusto/api/tds/t-sql

  • KQL: https://docs.microsoft.com/en-us/azure/kusto/query/index

以下是一些案例:

创建:
.create table MyLogs ( Level:string, Timestamp:datetime, UserId:string, TraceId:string, Message:string, ProcessId:int32 ) 
​
创建或追加:
.create-merge tables MyLogs (Level:string, Timestamp:datetime, UserId:string, TraceId:string, Message:string, ProcessId:int32), MyUsers (UserId:string, Name:string)
​
.alter column ['Table'].['ColumnX'] type=string
更改列行为后,之前数据会变成Null,建议把数据筛选出来写入新的Table
​
映射关系:
.create table MyTable ingestion csv mapping "Mapping1" '[{ "Name" : "rownumber", "DataType":"int", "Ordinal" : 0},{ "Name" : "rowguid", "DataType":"string", "Ordinal" : 1 }]’ 
.create table MyTable ingestion json mapping "Mapping1" '[{ "column" : "rownumber", "datatype" : "int", "path" : "$.rownumber"},{ "column" : "rowguid", "path" : "$.rowguid" }]'
​
.ingest into table T ('adl://contoso.azuredatalakestore.net/Path/To/File/file1.ext;impersonate') with (format='csv’)
.set RecentErrors <| LogsTable | where Level == "Error" and Timestamp > now() - time(1h)
.ingest inline into table Purchases <| Shoes,1000 Wide Shoes,50 "Coats, black",20 "Coats with ""quotes""",5
.export async compressed to csv ( h@"https://storage1.blob.core.windows.net/containerName;secretKey", h@"https://storage1.blob.core.windows.net/containerName2;secretKey" ) with ( sizeLimit=100000, namePrefix=export, includeHeaders=all, encoding =UTF8NoBOM ) 
<| myLogs | where id == "moshe" | limit 10000
.export async to sql MySqlTable 
h@"Server=tcp:myserver.database.windows.net,1433;Database=MyDatabase;Authentication=Active Directory Integrated;Connection Timeout=30;" 
<| print Id="d3b68d12-cbd3-428b-807f-2c740f561989", Name="YSO4", DateOfBirth=datetime(2017-10-15)
.set table Employees policy ingestiontime true
​
Employees | where cursor_after('')
​
Employees | where cursor_after('636040929866477946') // -> 636040929866477950
Employees | where cursor_after('636040929866477950') // -> 636040929866479999
Employees | where cursor_after('636040929866479999') // -> 636040939866479000
Tagging(用来管理Extent)
​
.ingest ... with @'{"tags":"[\"drop-by:2016-02-17\"]"}' .drop extents <| .show table MyTable extents w

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/438841.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python将一列数据转换成向量_python读取csv和txt数据转换成向量的实例

最近写程序需要从文件中读取数据&#xff0c;并把读取的数据转换成向量。查阅资料之后找到了读取csv文件和txt文件两种方式&#xff0c;下面结合自己的实验过程&#xff0c;做简要记录&#xff0c;供大家参考&#xff1a;1、读取csv文件的数据import csvfiltpath "data_t…

Iaas,Paas,Saas三者的区别联系是什么?

本词条由“科普中国”科学百科词条编写与应用工作项目 审核 。 多租户技术&#xff08;英语&#xff1a;multi-tenancy technology&#xff09;或称多重租赁技术&#xff0c;是一种软件架构技术&#xff0c;它是在探讨与实现如何于多用户的环境下共用相同的系统或程序组件&…

.NET开源的背后:是无奈,还是顺应潮流?

摘要&#xff1a;微软.NET的开源&#xff0c;让许多开发人员欣喜若狂&#xff0c;同时也有许多人好奇其背后的故事&#xff0c;过去视开源为癌症的微软为什么会突然有这一举措&#xff0c;是出于无奈&#xff0c;还是顺应潮流&#xff0c;而这其中的种种或许可以用文中的六个观…

r.java没有生成_R.java文件没有生成

01R.java是ADT工具产生的新创建Android工程R.java文件并没有产生&#xff0c;必须先运行Bulid或RUN(运行)程序&#xff0c;才会产生。02 R.java文件丢失&#xff0c;必要急&#xff0c;修复很简单方法&#xff1a;右击你的工程(项目)——>Android Tools——>Fix P…

什么是ASP.NET Boilerplate Project(ABP)框架

使用.NET技术进行开发已经多年&#xff0c;偶尔一次网络上搜索.NET开发框架&#xff0c;看到了ABP这个框架&#xff0c;引起了我极大的兴趣&#xff0c;于是决定对该框架进行深入学习和研究&#xff0c;并将过程全部记录如下&#xff0c;对自己也是一次学习和总结&#xff0c;同…

使用ABP打造SAAS系统(2)——前端框架选择

一、流行框架比较 作者用过的前端框架不少&#xff0c;曾经还在一个项目中同时使用两套框架控件&#xff08;年少无知、效率特慢&#xff09;&#xff0c;所以可供选择的前端框架有不少&#xff1a; easyui&#xff1a; 优点&#xff1a;非常成熟的框架&#xff0c;基于iframe…

java中针对数字怎么判断_java如何对输入的数字进行判断

java如何对输入的数字进行判断发布时间&#xff1a;2020-06-19 13:19:58来源&#xff1a;亿速云阅读&#xff1a;99作者&#xff1a;鸽子java的Scanner类提供了nextInt、nexFloat、nextDouble等方法&#xff0c;可以像类似C语言的scanf那样读取指定类型的数字。首先定义一个Sca…

java tostring 库_java重寫toString()方法

toString()方法是Object類的方法&#xff0c;調用toString()會返回對象的描述信息。1)為什么重寫toString()方法呢&#xff1f;如果不重寫&#xff0c;直接調用Object類的toString()方法&#xff0c;打印的是該對象的內存地址(類名哈希碼值)。如下代碼所示&#xff1a;classPer…

java 一元线性回归_一元线性回归的java实现

我们有两组数据&#xff0c;比如连续5年的pv与uv。我们想预测一下&#xff0c;uv达到500k那么pv会是多少。当然更有意思可能是&#xff0c;如果销售额是500w的话&#xff0c;pv会是多少。机器学习里的一元线性回归方法是比较简单的方法,就是我们猜是满足ywxb的。那么&#xff0…

java大神请出来_求java大神,请分析以下代码,写出执行结果,并解释每行结果输出的原因。...

求java大神&#xff0c;请分析以下代码&#xff0c;写出执行结果&#xff0c;并解释每行结果输出的原因。classPlate{publicPlate(){System.out.println("inPlateconstructor");}}classDinnerPlateextendsPlate{publi...求java大神&#xff0c;请分析以下代码&#x…

【转】ELK是什么能做什么怎么做

作者&#xff1a;蛙课网 链接&#xff1a;https://www.zhihu.com/question/338932215/answer/777380560 来源&#xff1a;知乎 著作权归作者所有。商业转载请联系作者获得授权&#xff0c;非商业转载请注明出处。 为什么用到ELK&#xff1a; 一般我们需要进行日志分析场景&…

java中的并发类_java中并发常用工具类

前言:在你无聊的时候,想想比你优秀还努力的人,也许就不觉的无聊了今天下午没事干把买的java并发编程艺术这本书拿出来看了看,看了下也记不住,还是好记性不如烂笔头,今天讲四个并发中可能会用到的工具类,分别是&#xff1a;CountDownLatchCyclicBarrierSemaphoreExchangerCountD…

github迁移到gitee相关问题

为什么要从github迁移到gitee&#xff08;国内github版&#xff09;&#xff1f; 1. github对于国人来讲&#xff0c;速度较慢。例如&#xff1a; 浏览个技术文档点击个链接半天跳不过去pull、push、clone个代码太慢个人版&#xff08;免费版&#xff09;没有私人仓库&#xf…

java s1=abc s2=abc s1==s2_经典问题:String s1 = abc 与 String s2 = new String(abc)的区别...

这是以前刚学Java那会经常被问到的问题&#xff0c;并且也会经常出现在面试中。这个问题不仅仅只局限于Java&#xff0c;可以适用于其他大部分语言&#xff0c;正好最近有个小朋友在学编程&#xff0c;特此整理一下。String s1 "abc" ;String s2 new String("…

NAS、CIFS、NFS之间的关系

经常会听到或看到有人将NAS和CIFS/NFS相提并论&#xff0c;其实是对存储的理解有误。 NAS&#xff0c;网络附加存储&#xff0c;中心词“存储”&#xff0c;是的&#xff0c;它是一个存储设备。比如我装个openfiler或freenas系统&#xff0c;再加几块硬盘&#xff0c;对外提供…

线程池简单实现java_简单实现java线程池

package com.ty.thread;importjava.util.HashSet;importjava.util.Set;importjava.util.concurrent.BlockingQueue;importjava.util.concurrent.LinkedBlockingQueue;/***authorTaoyong* date 2018年5月17日* 天下没有难敲的代码&#xff01;*/public classThreadPoolExecutor …

【转】abp vNext微服务框架分析

abp vNext新框架的热度一直都很高&#xff0c;于是最近上手将vNext的微服务Demo做了一番研究。我的体验是&#xff0c;vNext的微服务架构确实比较成熟&#xff0c;但是十分难以上手&#xff0c;对于没有微服务开发经验的.net人员来说几乎是看不懂的&#xff0c;所以研究一番后再…

java线程的创建与执行_Java多线程的创建和运行

1.多线程的好处多线程是一个很有用的东西&#xff0c;它使的系统可以同时运行多个任务&#xff0c;提高程序的执行效率。大家平时可能没有注意到&#xff0c;其实我们电脑能同时执行多个程序的基本原理就是多线程。每一个程序都是一个进程&#xff0c;而线程则是进程下独立的执…

SQL SERVER data tier application 的作用及如何使用SSDT进行SQL数据库的自动化部署到生产环境和版本控制

这个是管理员用来发布数据库所有的脚本用的&#xff0c;自SQL2008以后&#xff0c;微软开始将数据库的开发整合到VS2010上&#xff0c;用户可以将数据所有的相关对象打包成一个DAC包&#xff0c;让管理通过extract data-tier application发布到服务器上。就好像你把代码变成dll…