代码杂谈 之 pyspark如何做相似度计算

在 PySpark 中,计算 DataFrame 两列向量的差可以通过使用 UDF(用户自定义函数)和 Vector 类型完成。这里有一个示例,展示了如何使用 PySpark 的

  • pyspark.ml.linalg.Vectors
  • pyspark.sql.functions.udf

来实现这一功能:

首先,确保你已经安装了 PySpark 并且正确设置了 SparkSession。接下来,你可以按照以下步骤操作:

  1. 导入必要的模块。
  2. 创建一个简单的 DataFrame 示例,其中包含两列向量。
  3. 定义一个计算向量差的函数。
  4. 将此函数转换为 UDF。
  5. 使用 UDF 在 DataFrame 上添加一列来存储向量差。
from pyspark.sql import SparkSession
from pyspark.sql.functions import udf
from pyspark.sql.types import ArrayType, FloatType
from pyspark.ml.linalg import Vectors# 创建 SparkSession
spark = SparkSession.builder \.appName("Vector Difference in PySpark") \.getOrCreate()# 创建示例 DataFrame
data = [(Vectors.dense([1.0, 2.0]), Vectors.dense([4.0, 6.0])),(Vectors.dense([2.0, 3.0]), Vectors.dense([5.0, 7.0]))]
df = spark.createDataFrame(data, ["vectorA", "vectorB"])# 定义计算向量差的函数(余弦距离/欧几里得距离)
def cos_sim(a,b):return float(np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b)))def euclidean_distance(v1, v2):return float(np.linalg.norm(np.array(v1) - np.array(v2)))cos_sim_udf = F.udf(cos_sim,FloatType())# 在 DataFrame 上使用 UDF 添加新列
tmp_df = tmp_df.withColumn("cos_sim", cos_sim_udf('vectorA','vectorB'))
# 打印结果
df.show()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/22908.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Windows Linux下查看静态库,动态库各种命令的总结

Windows环境下查看库文件 静态库(.lib) 使用lib.exe查看库内容 命令示例:lib /list C.lib使用dumpbin.exe查看库的详细信息 命令示例:dumpbin /headers C.lib动态链接库(.dll) 使用dumpbin.exe查看DLL的导出信息 命令示例:dumpbin /exports B.dll

Android Studio的Gradle面板里不显示task,build ,assemble 无法出aar包

按照以下方式把对应开关打开就可以正常进行build/assemble进行aar的生成了

多级菜单的实现一

总共分享三种实现多级菜单方式,前面两种是裸机式的,第三种是带有FreeRTOS。 1、首先处在第一级菜单:显示 同时按下一项按钮,flag会变化,光标会根据flag的值,在界面上不同位置显示出光标 按下确定&#xff…

Linux系统中qfile调用seek无法更新指定位置文件内容

一、问题描述 最近在移植qt程序到银河麒麟系统中,发现在Windows下调用seek接口更新二进制文件功能在麒麟系统中总是无法实现更新,调用的QFile接口也并未报错。 原代码实现方式如下: if (!m_writeFile->open(QIODevice::WriteOnly | QIODe…

开源工具专题-04 Atlassian Crowd部署备份及迁移

开源工具专题-04 Atlassian Crowd部署备份及迁移 注: 本教程由羞涩梦整理同步发布,本人技术分享站点:blog.hukanfa.com转发本文请备注原文链接,本文内容整理日期:2024-05-29csdn 博客名称:五维空间-影子&…

使用libgpiod库中的事件方式监测多个输入事件

Linux下要同时检测多个GPIO输入的方法有很多,这里我使用libgpiod库中的API实现多个GPIO输入检测,可以达到类似STM32利用外部中断实现输入事件检测的效果,示例代码如下所示: /* 示例使用的libgpiod库版本为V1.2.1 */ //示例功能是…

2022.9.26DAY678

课程学习:《数据处理技术》讲了“数据查询”的语法格式,语法格式也算是简单,就是没能跟之前的内容联系起来,之前的内容没有及时回顾。 高等数学:“ 函数的概念”,讲了函数的概念,反函数&#…

四舍五入(基础语法)

题目描述 小梦有一套彪悍的四舍五入逻辑,她的身高比小熊高 厘米,四舍五入为 厘米,再四舍五入为 厘米,再四舍五入为 厘米,所以她认为自己比小熊高 厘米。这个逻辑甚至可以推广到整数,比如 &#xff0…

make_ext4fs:not found

报错信息: 解决: sudo apt-get install android-tools-fsutils sudo apt-get install android-sdk-libsparse-utils sudo apt-get install android-sdk-ext4-utils

跟TED演讲学英文:Let your garden grow wild by Rebecca McMackin

Let your garden grow wild Link: https://www.ted.com/talks/rebecca_mcmackin_let_your_garden_grow_wild Speaker: Rebecca McMackin Date: October 2023 文章目录 Let your garden grow wildIntroductionVocabularySummaryTranscriptAfterword Introduction Many garden…

Python中的None用法深度解析

Python中的None用法深度解析 在Python编程中,None是一个特殊的常量,它表示一个空或无值的状态。理解None的用法对于编写健壮且易于理解的代码至关重要。本文将从四个方面、五个方面、六个方面和七个方面深入剖析Python中None的用法。 四个方面&#xf…

怎么等比例缩小图片尺寸?这四种方法肯定可以帮到你!

怎么等比例缩小图片尺寸?在当今日常生活中,图片文件是我们不可或缺的一部分,它们以各种形式出现,从社交媒体上的照片到工作文档中的插图,然而,随之而来的问题是,有时这些图片文件的尺寸过大&…

c++模板进阶——特化

模板参数: 模板参数分类类型形参与非类型形参。 类型形参即:出现在模板参数列表中,跟在class或者typename之类的参数类型名称。 非类型形参:就是用一个常量作为类(函数)模板的一个参数,在类(函数)模板中可将该参数当成…

Threejs墙体挖洞做门或窗

在使用Threejs代码构建的展厅中&#xff0c;需要在一面墙中间挖个洞作为门或窗户&#xff0c;效果如下&#xff1a; 引入ThreeBSP.js <script src"plugins/three/ThreeBSP.js"></script> 创建 // 1 定义墙面var cubeGeometry new THREE.BoxGeometry(1…

今日代码大赏 | Spring Cloud Gateway 全局过滤器实现

在构建微服务架构时&#xff0c;Spring Cloud Gateway 作为服务网关&#xff0c;承担着路由转发、权限校验等职责。 全局过滤器&#xff08;Global Filter&#xff09;是 Spring Cloud Gateway 中用于处理跨服务的通用逻辑的组件&#xff0c;例如权限验证、日志记录等。 下面…

使用 LiteGraph.js 构建可视化工作流图

本文由ScriptEcho平台提供技术支持 项目地址&#xff1a;传送门 使用 LiteGraph.js 构建可视化工作流图 应用场景介绍 LiteGraph.js 是一个轻量级的开源 JavaScript 库&#xff0c;用于构建可视化工作流图。它广泛应用于游戏开发、数据可视化、交互式叙事等领域。 代码基本…

【HarmonyOS】应用通知广播的使用

【HarmonyOS】应用通知广播的使用 一、通知广播是什么&#xff1f; 应用开发多年的同学&#xff0c;对于时间通知广播是比较熟悉。一般刚接触的同学可能不太清楚&#xff0c;下面简单介绍一下&#xff0c;了解的同学可以跨过&#xff0c;直接看第二节。 通知广播&#xff0c;…

2024会声会影激活码免费注册码大揭秘!

在当今数字化时代&#xff0c;视频编辑已经成为了许多人日常生活和工作中不可或缺的一部分。无论是制作短视频、Vlog还是专业影视剪辑&#xff0c;一款优秀的视频编辑软件都能让我们事半功倍。而市面上众多的视频编辑软件中&#xff0c;会声会影无疑是备受瞩目的一款。本文将为…

【全开源】知识库文档系统(ThinkPHP+FastAdmin)

&#x1f4da;知识库文档系统&#xff1a;解锁知识的无限可能 一款基于ThinkPHPFastAdmin开发的知识库文档系统&#xff0c;可用于企业工作流程的文档管理&#xff0c;结构化记录沉淀高价值信息&#xff0c;形成完整的知识体系&#xff0c;能够轻松提升知识的流转和传播效率&a…

短剧出海的第一桶金

经过了第一套短剧出海H5系统的不好体验的经历&#xff0c;敏锐地发现海外短剧出海系统的需求量很大。很多做国内短剧平台的企业&#xff0c;和一些创业者&#xff0c;都有搭建自己平台的想法。 反思与痛点 H5系统的痛点&#xff1a; 底层框架问题&#xff1a; 问题&#xff1…