生产环境_Apache Spark技术大牛的实践:使用DataFrame API计算唯一值数量并展示技术(属性报告)

业务背景

        给前端提供算法集成好的数据,对算法处理后的数据进行进一步删选展示

        可以使用下面代码运行一下看看结果,听有趣的,我写的代码中计算了不同字段的值的数量,并生成了一个显示字符串来描述这些数据的分布情况然后使用"details"列限制显示的行数,以便更方便地查看和分析数据,其实是生产环境中的应用,为了不涉及敏感信息,进行了数据和字段的脱敏处理。

样例数据

北京,001,23,2.123,中国,12121
北京,001,24,34.2,中国,12121
南京,002,32,23.12,中国1,12312
南京,002,31,23.44,中国1,12312

样例实现内容具体如下   

 #展示的话
"本学校鸟类飞行夜间活动区域分布为xx个鸟,分别布在cc个区域"# eg:xx代表统计后的鸟类个数,cc标识统计后的区域个数

代码实现:

import org.apache.spark.sql.functions.lit
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.{Row, SparkSession}
import org.apache.spark.sql.types.{StringType, StructField, StructType}object bg {def main(args: Array[String]): Unit = {val conf = new SparkConf().setAppName("Parent_child_v3").setMaster("local[1]")val sc = new SparkContext(conf)val spark = SparkSession.builder.appName("Parent_child_v3").getOrCreate()import spark.implicits._val df1 = sc.textFile("C:\\zzcode\\workplace\\src\\main\\data\\jd_Data")val schema = StructType(Array(StructField("区域名称", StringType, nullable = true),StructField("区域编号", StringType, nullable = true),StructField("bird", StringType, nullable = true),StructField("score", StringType, nullable = true) ,StructField("国家", StringType, nullable = true),StructField("区域顶点集", StringType, nullable = true)))val rowRDD = df1.map(line => {val parts = line.split(",")Row(parts(0), parts(1), parts(2), parts(3),parts(4),parts(5))})val df = spark.createDataFrame(rowRDD, schema)df.show(false)//+--------+--------+---+-----+-----+----------+//|区域名称|区域编号|bird |score|国家 |区域顶点集|//+--------+--------+---+-----+-----+----------+//|北京    |001     |23 |2.123|中国 |12121     |//|北京    |001     |24 |34.2 |中国 |12121     |//|南京    |002     |32 |23.12|中国1|12312     |//|南京    |002     |31 |23.44|中国1|12312     |//+--------+--------+---+-----+-----+----------+val birdCount = df.select("bird").distinct().count()val regionNameCount = df.select("区域名称").distinct().count()
//val displayString = "本学校学生区域分布为" + birdCount + "个bird,分布在" + regionNameCount + "个区域名称"println(displayString)//val updatedDataFrame = df.withColumn("details", lit(displayString))updatedDataFrame.show(false)val detailsRow = updatedDataFrame.select("details").limit(1)detailsRow.show(false)}
}
//2023_12_by_Matrix70
//作者:https://blog.csdn.net/qq_52128187?type=blog,如若转载,请注明出处

代码运行结果截图:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/226136.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MySQL数据库 DDL

目录 一、DDL 二、操作数据库 三、操作表 四、数据类型 五、表操作案例 六、修改表 七、删除表 一、DDL Data Definition Language,数据定义语言,用来定义数据库对象(数据库,表,字段) 。 二、操作数据库 (1&am…

微信小程序:按钮禁用,避免按钮重复提交

wxml <view class"modal-buttons"><view class"one_btn" bindtap"submit">确认</view><view class"two_btn" bindtap"cancel">取消</view> </view> wxss /* 按钮 */ .modal-buttons…

maven 引入外部jar包

有时依赖的第三方jar不在maven仓库中&#xff0c;为了能按照maven的方式管理jar同时方便成员间协同&#xff0c;可使用如下方式 在pom.xml同级目录下新建lib文件夹&#xff0c;然后将jar放入&#xff0c;然后纳入版本管理在pom.xml中配置依赖&#xff0c;比如 <dependency…

Rxjs 学习笔记 - 简化版

RxJS 提供了一套完整的异步解決方案,让我们在面对各种异步行为(Event, AJAX, Animation 等)都可以使用相同的 API 做开发。 前置知识点 同步(Synchronous)就是整个处理过程顺序执行,当各个过程都执行完毕,并返回结果。是一种线性执行的方式,执行的流程不能跨越。一般用…

Git 使用教程(超级详细)

目录 一&#xff1a;Git二&#xff1a;SVN与Git的的区别三、安装Git四&#xff1a;常规操作五&#xff1a;远程仓库六&#xff1a;创建与合并分支七&#xff1a;bug分支八&#xff1a;多人协作九&#xff1a;git可视化工具 Git Git 是一种分布式版本控制系统&#xff0c;用于…

C# WPF上位机开发(加密和解密)

【 声明&#xff1a;版权所有&#xff0c;欢迎转载&#xff0c;请勿用于商业用途。 联系信箱&#xff1a;feixiaoxing 163.com】 在报文传输的过程中&#xff0c;根据报文传输的形态&#xff0c;有两种形式&#xff0c;一种是明文传输&#xff0c;一种是加密传输。当然明文传输…

Python+Requests+Pytest+YAML+Allure实现接口自动化

本项目实现接口自动化的技术选型&#xff1a;PythonRequestsPytestYAMLAllure &#xff0c;主要是针对之前开发的一个接口项目来进行学习&#xff0c;通过 PythonRequests 来发送和处理HTTP协议的请求接口&#xff0c;使用 Pytest 作为测试执行器&#xff0c;使用 YAML 来管理测…

Git使用rebase和merge区别

Git使用rebase和merge区别 模拟环境使用merge合并使用rebase 模拟环境 本地dev分支中DevTest增加addRole() 远程dev被同事提交增加了createResource() 使用merge合并 使用idea中merge解决冲突后, 推送远程dev后,日志图显示 使用rebase idea中使用功能rebase 解决冲突…

kafka3.0创建topic出现zookeeper is not a recognized option

在linux云服务器上搭建了一套kafka3.0集群&#xff0c;然后安装以前的创建topic指令&#xff0c;例如这样—— ./kafka-topics.sh --bootstrap-server master:2181,slave1:2181,slave2:2181 --replication-factor 1 --partitions 1 --topic test 然而&#xff0c;却出现了这样…

C语言中的文件压缩和解压缩技术是什么?

文件压缩和解压缩是计算机领域中常用的技术&#xff0c;通过压缩可以减小文件的体积&#xff0c;从而更高效地存储和传输数据。在C语言中&#xff0c;有多种文件压缩和解压缩的技术和算法可供选择。本文将介绍一些常见的压缩和解压缩技术&#xff0c;以及在C语言中如何实现它们…

【正点原子STM32连载】 第十五章 窗口看门狗实验 摘自【正点原子】APM32E103最小系统板使用指南

1&#xff09;实验平台&#xff1a;正点原子APM32E103最小系统板 2&#xff09;平台购买地址&#xff1a;https://detail.tmall.com/item.htm?id609294757420 3&#xff09;全套实验源码手册视频下载地址&#xff1a; http://www.openedv.com/docs/boards/xiaoxitongban 第十…

代码随想录——链表 刷题记录

链表数据结构 public class ListNode {int val;ListNode next;// 构造函数public ListNode() {}public ListNode(int val) {this.val val;}public ListNode(int val, ListNode next) {this.val val;this.next next;} }203.移除链表元素 707.设计链表 单链表双链表 publi…

软件测试小课堂

1.测试用例的作用 一、理清测试思路 实际结果、预期结果、目的、bug二、评估工作进度 每个测试用例覆盖多少个功能点&#xff0c;有多少没有覆盖三、提前准备测试数据 正向数据、反向数据、等价类、边界值四、评估工作量五、进行回归测试六、企业角度 人员流动不影响测试进度&…

遥感图像分割系统:融合空间金字塔池化(FocalModulation)改进YOLOv8

1.研究背景与意义 项目参考AAAI Association for the Advancement of Artificial Intelligence 研究背景与意义 遥感图像分割是遥感技术领域中的一个重要研究方向&#xff0c;它的目标是将遥感图像中的不同地物或地物类别进行有效的分割和识别。随着遥感技术的不断发展和遥感…

Hystrix使用及原理概述

一、背景 1. 当前问题 一个系统&#xff0c;所有请求共用同一个APP容器&#xff08;Tomcat/jetty/等&#xff09;&#xff0c;共用一个用户线程池&#xff0c;依赖多个不同的远程服务。 当系统健康时&#xff0c;处理请求的延时较低&#xff0c;服务正常运行&#xff1b;当某…

大模型下开源文档解析工具总结及技术思考

1 基于文档解析工具的方法 pdf解析工具 导图一览&#xff1a; PyPDF2提取txt&#xff1a; import PyPDF2 def extract_text_from_pdf(pdf_path):with open(pdf_path, rb) as file:pdf_reader PyPDF2.PdfFileReader(file)num_pages pdf_reader.numPagestext ""f…

漏洞复现-网神SecGate3600防火墙敏感信息泄露漏洞(附漏洞检测脚本)

免责声明 文章中涉及的漏洞均已修复&#xff0c;敏感信息均已做打码处理&#xff0c;文章仅做经验分享用途&#xff0c;切勿当真&#xff0c;未授权的攻击属于非法行为&#xff01;文章中敏感信息均已做多层打马处理。传播、利用本文章所提供的信息而造成的任何直接或者间接的…

记录 | ubuntu安装Albert

ubuntu 安装 Albert # 依赖安装 sudo apt install cmake pybind11-dev libmuparser-dev libqalculate-dev libxcb-cursor0 libgl1-mesa-dev# 安装Qt6git clone --recursive https://github.com/albertlauncher/albert.gitcd albert # 若 albert/plugin clone失败&#xff0c;则…

算法leetcode|92. 反转链表 II(rust重拳出击)

文章目录 92. 反转链表 II&#xff1a;样例 1&#xff1a;样例 2&#xff1a;提示&#xff1a;进阶&#xff1a; 分析&#xff1a;题解&#xff1a;rust&#xff1a;go&#xff1a;c&#xff1a;python&#xff1a;java&#xff1a; 92. 反转链表 II&#xff1a; 给你单链表的…

迈入数据结构殿堂——时间复杂度和空间复杂度

目录 一&#xff0c;算法效率 1.如何衡量一个算法的好坏&#xff1f; 2.算法效率 二&#xff0c;时间复杂度 1.时间复杂度的概念 2.大O的渐进表示法 3.推导大O的渐进表示法 4.常见时间复杂度举例 三&#xff0c;空间复杂度 一&#xff0c;算法效率 数据结构和算法是密…