clickhouse-neighbor 坑爹的排序

        对于排序规则明显的数据集,使用neighbor来做分析,是一个非常强大的函数,能完成很多复杂的计算,例如高速公路分析车辆流量。

        高速公路截面流量一般是通过路面上的门架采集设备采集通行卡的信息和识别牌照组成,在路面行驶的车辆,受天气、车辆密集度、电子卡片、采集设备等因素影响,也不能100%准确采集到通行数据,如果仅仅以单一采集点来分析流量,准确度必然打折扣。不过,任何方法都不能说完全准确分析出数据,肯定存在一定误差的。

        以上就是应用场景说明。把采集从点改为线,相对来说,就准确很多,还能过滤掉重复的数据,思路就是以采集点为中心,向前后各取2-3个采集点的数据,形成“线”数据,并对采集点进行编号,从进入到驶出,编号为1、2、3、4、5、6、7,要分析的点是4号点,这个点的设置,需要人工配置好,或者做成临时表,注意,序号必须在表中体现出来。

        把要分析的数据,根据时间段和采集点整体查询出来

        select id,车牌号 as vid,通过时间 as tTime,门架编号 as gid from passTable

        where 门架编号 in ('s01','s02','s03','s04','s05','s06','s07')

        and 通过时间 between '2024-01-01' and '2024-01-01'

        order by 车牌号,通过时间

把上述查询,放到临时表 tmpTable,一个月的记录数,大概有千万记录,服务器必须有足够的内存。接下来就要放大招

        select id

        ,neighbor(vid,-1,NULL) as p_vid,vid,neighbor(vid,1,NULL) as n_vid

        ,neighbor(tTime,-1,NULL) as p_tTime,tTime,neighbor(tTime,1,NULL) as n_tTime

        ,gid

        from tmpTable

        order by vid,tTime

问题一:看起来没毛病,实际上,中间总有些数据不是意料中的理想数据,也就是说neighbor不灵光了!

问题二:用with viewTable as ( ) 或者 create temporary tmpTable as () ,select 中出现了window相关函数,就是 over(partition by ....)这样的,哪怕把neighbor放到临时表内,也会改变数据结果,感觉,neighbor优先级是最低的

        把上述查询,再放到另外一个查询临时表 tempTable2

        select groupArray(gid) over(partition by vid order by vid,tTime) as gidArray,* from tempTable2

        你会发现 原来设定的p_vid 就不一样了

        仔细研究了文档,确实是和window函数有关,但是,没说怎么解决!

在研究好好几天发现了几个有效的方法:

1、排序 order by vid,tTime 和 order (by vid,tTime)还是有差别的,后者使用起来更加顺手。

2、大量数据使用排序后的neighbor函数,要达到预期效果,设置max_block_size,值为Int64最大值,不同版本值不一样,一般设置Int32最大值也都足够了。

3、window函数会导致neighbor不可预期,起码我没研究清楚,谨慎使用!研究清楚后再来汇报

经过一系列改造,基本按预计出结果,但是数据上,出现干扰数据,也需要想办法处理掉,经过10多天的研究,终于包流量计算和有入无出的分析都弄出来了,数据校验基本是通过了,期间踩了不少坑,也学了不少。

        

        

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/51340.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux云计算 |【第二阶段】SECURITY-DAY3

主要内容: Prometheus监控服务器、Prometheus被监控端、Grafana监控可视化 补充:Zabbix监控软件不自带LNMP和DB数据库,需要自行手动安装配置;Prometheus监控软件自带WEB页面和DB数据库;Prometheus数据库为时序数据库&…

05:极限-无穷小

1.无穷小的概念及比较 定义: lim ⁡ x → x 0 f ( x ) 0 , 则称 f ( x ) 是 x x 0 时的无穷小 定义: \lim_{x \to x_0} f(x) 0,则称f(x)是xx_0时的无穷小 定义:x→x0​lim​f(x)0,则称f(x)是xx0​时的无穷小 性质Value①有限个无穷小相加还…

java 使用 aws s3 sdk 实现视频文件的分段下载来实现html 页面 video 的断点播放、拖动进度播放

参考博客: 1. Java 视频流分段返回 1. java 拉取 aws s3 视频流返回给浏览器: Overridepublic void playVideo(Long fileLength,String key,HttpServletRequest request,HttpServletResponse response) {OutputStream outputStream null;S3ObjectInputS…

JVM 运行时内存结构简介

JVM 运行时内存结构简介 一、前言二、JVM 运行时内存结构2.1 线程隔离数据区:2.2 线程共享数据区: 三、JVM 内存区域划分1. 程序计数器(PC)2. 虚拟机栈3. 本地方法栈4. Java 堆5. 方法区6. 运行时常量池 附录 一、前言 JVM&#…

【C#】【EXCEL】Bumblebee/Classes/ExColumn.cs

文章目录 Bumblebee/Classes/ExColumn.csFlow diagramDescriptionCode Bumblebee/Classes/ExColumn.cs Flow diagram #mermaid-svg-6WUm4r0wDJG9uelI {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-6WUm4r0wDJG9ue…

手撕C++类和对象(中)

1.类的默认成员函数 默认成员函数就是⽤⼾没有显式实现,编译器会⾃动⽣成的成员函数称为默认成员函数。⼀个类,我 们不写的情况下编译器会默认⽣成以下6个默认成员函数,需要注意的是这6个中最重要的是前4个,最 后两个取地址重载不…

Linux 内核源码分析---IPv6 数据包

IPv6是英文“Internet Protocol Version 6”(互联网协议第6版)的缩写,是互联网工程任务组(IETF)设计的用于替代IPv4的下一代IP协议,其地址数量号称可以为全世界的每一粒沙子编上一个地址。 由于IPv4最大的…

ES6 -- 总结 03

Es6的模块化 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</title> </head>…

鸿蒙Harmony开发——设备发烫问题分析

&#xff1b; 本文字数&#xff1a;4207字 预计阅读时间&#xff1a;25分钟 设备过热问题是影响用户体验和设备性能的重要因素。过热不仅会导致性能下降&#xff0c;还可能损坏硬件。因此&#xff0c;开发者需要及时发现、分析并解决这一问题。本文将首先介绍评估设备过热的关键…

文心快码(Baidu Comate)初体验

文心快码&#xff08;Baidu Comate&#xff09;初体验 1文心快码简介和安装&#xff1a;简要介绍文心快码&#xff08;Baidu Comate&#xff09;、安装方法、使用方法等&#xff1b; Baidu Comate 是由百度自主研发&#xff0c;基于文心大模型&#xff0c;结合百度丰富的编程现…

C/C++逆向:寻找main函数(Debug-x86)

在程序的逆向分析中&#xff0c;寻找main函数在逆向分析中是非常重要的&#xff0c;它是程序的核心执行点&#xff0c;从这里开始&#xff0c;程序的主要逻辑开始展开&#xff1b;在这边我们需要明确两个概念&#xff1a;用户入口&#xff08;User Entry Point&#xff09; 和 …

(十二)Flink Table API

目录 Table API 案例 Table API 连接操作 Table API 是批处理和流处理的统一的关系型 API。Table API 的查询不需要修改代码就可以采用批输入或流输入来运行。Table API 是 SQL 语言的超集,并且是针对 Apache Flink 专门设计的。Table API 集成了 Scala,Java 和 Python 语言…

WIN 10 添加右键菜单(VSCode 打开当前目录)

WIN 10 添加右键菜单&#xff08;VSCode 打开当前目录&#xff09; 前言最终效果操作步骤 前言 每次打开代码都需要先打开 VSCode&#xff0c;再选择最近打开的项目或者浏览打开项目&#xff0c;感觉比较难找。所以自己添加了右键命令。 最终效果 操作步骤 cmd 打开注册表 找…

【Linux 从基础到进阶】Ceph分布式存储系统搭建

Ceph分布式存储系统搭建 引言 随着数据量的爆炸式增长,传统的存储解决方案逐渐暴露出扩展性差、成本高、管理复杂等问题。Ceph是一种高性能、可扩展的开源分布式存储系统,能够为对象存储、块存储和文件系统提供统一的存储平台。它基于无中心的架构设计,具有高可用性、可靠…

PyTorch 基础学习(13)- 混合精度训练

系列文章&#xff1a; 《PyTorch 基础学习》文章索引 基本概念 混合精度训练是深度学习中一种优化技术&#xff0c;旨在通过结合高精度&#xff08;torch.float32&#xff09;和低精度&#xff08;如 torch.float16 或 torch.bfloat16&#xff09;数据类型的优势&#xff0c;…

【Python】自然语言处理(NLP)技术简介

紧紧握着 青花信物 信守着承诺 离别总在 失意中度过 记忆油膏 反复涂抹 无法愈合的伤口 你的回头 划伤了沉默 &#x1f3b5; 周传雄《青花》 自然语言处理&#xff08;NLP&#xff09;技术是一种使计算机能够理解和处理人类自然语言的技术。以下是一些NLP…

appium学习记录

免责声明 本文内容仅供参考&#xff0c;将appuim与爬虫技术相结合可能违反某些app的使用条款和法律法规。作者不对因此产生的法律问题或技术风险负责。建议读者在进行爬取操作前&#xff0c;充分了解相关法律法规并确保合规。 1、初识appium 背景&#xff1a;部分APP需要反编译…

C#用户控件usercontrol中的子控件事件及属性的传递

也不知道这个标题怎么写&#xff0c;但是问题是个老问题&#xff0c;大家都可能遇到过&#xff0c;不过有同学问到&#xff0c;那就写出来。其实很简单。只不过有的同学看了其他博文后脑子还是懵懵的。所以这里就分两部分来说明一下。 文章目录 一、属性的传递1、原理2、步骤3…

tensorflow新建op (cpp)

为什么使用cpp新建op 一些操作表示成现有操作的组合不好实现或者无法实现。已有操作的组合效率不高。想要自定义一些基本操作的组合&#xff0c;因为未来编译器做这种融合可能会比较困难。 如何使用cpp新建op 注册op&#xff0c;注册op会定义一个接口&#xff08;规范&#…

Mac M1Pro 安装Java性能监控工具VisualVM 2.1.9

本地已经安装了java8&#xff0c;在终端输入jvisualvm提示没有安装 zhiniansara ~ % jvisualvm The operation couldn’t be completed. Unable to locate a Java Runtime that supports jvisualvm. Please visit http://www.java.com for information on installing Java.官网…