探索高级聚类技术:使用LLM进行客户细分

在数据科学领域,客户细分是理解和分析客户群体的重要步骤。最近,我发现了一个名为“Clustering with LLM”的GitHub仓库,它由Damian Gil Gonzalez创建,专门针对这一领域提供了一些先进的聚类技术。在这篇文章中,我将概述这个项目的核心内容和方法,以及它如何帮助数据科学家们提升他们的技能。

项目简介

“Clustering with LLM”项目旨在探索定义聚类和分析结果的高级技术。这个仓库是为那些希望扩展其处理聚类问题的工具箱并朝着成为高级数据科学家迈进的数据科学家们准备的。

覆盖内容

该项目将涵盖三种处理客户细分项目的方法:

  1. K-means:一种常用的聚类方法,项目中将深入探讨它以展示高级分析技术。
  2. K-Prototype:当数据集包含混合类型特征(分类和数值)时,这种方法可以用来创建聚类。
  3. LLM + K-means:项目中的亮点,展示了如何应用LLM(Large Language Model,大型语言模型)在聚类项目中获得卓越结果。

此外,项目还提供了使用PCA(主成分分析)、t-SNE(t分布随机邻域嵌入)和MCA(多重对应分析)等降维技术的结果,以及不同模型的2D表示(PCA)的比较。

数据集

项目使用了来自Kaggle的公开数据集“Banking Dataset - Marketing Targets”。数据集的每一行都包含了公司客户的信息,包括数值和分类字段。项目特别关注数据集的前8列,包括年龄、工作类型、婚姻状况、教育水平、信用违约、年均余额、住房贷款和个人贷款等。

项目结构

项目的目录结构如下所示:

clustering_llm
├─ data
│   ├─ data.rar
├─ img
├─ embedding.ipynb
├─ embedding_creation.py
├─ kmeans.ipynb
├─ kprototypes.ipynb
├─ README.md
└─ requirements.txt
其中,data.rar压缩文件包含了原始的训练数据集train.csv和经过嵌入处理后的embedding_train.csv
方法详解
  1. K-means方法:在名为kmeans.ipynb的Jupyter笔记本中,可以找到完整的K-means聚类过程。
  2. K-Prototype方法:在名为kprototypes.ipynb的Jupyter笔记本中,可以找到创建混合特征聚类的方法。
  3. LLM + K-means方法:在名为embedding.ipynb的Jupyter笔记本中,可以找到如何应用LLM以在聚类项目中获得卓越结果的详细说明。
注意事项

值得注意的是,该项目不包括探索性数据分析(EDA)阶段或变量选择,而这些步骤在此类项目中是至关重要的。

通过这个项目,数据科学家们不仅能够学习到如何应用高级聚类技术,还能了解到如何使用大型语言模型来增强聚类分析的准确性。如果你对客户细分或聚类分析感兴趣,这个GitHub仓库是一个宝贵的资源。

项目地址:https://github.com/damiangilgonzalez1995/Clustering-with-LLM

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/5983.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

安卓手机APP开发__媒体开发部分__处理在声音输出中的变化

安卓手机APP开发__媒体开发部分__处理在声音输出中的变化 目录 概述 使用音量控制 程序化地控制流的音量 在固定音量的设备上工作 不要很大声的噪音 概述 用户期望能够控制一个音频APP的音量大小。标准的行为包括 使用音量控制的能力(在设备上的按钮或者是用…

Python 解读:如何使用 ceil 和 floor 函数进行数学运算

在 Python 中,ceil 和 floor 函数是用于数学计算的两个非常重要的函数,它们分别表示对一个数执行向上取整和向下取整的操作。这两个函数位于 Python 的math模块中,因此在使用前需要先导入此模块。 1. ceil函数 ceil函数会将一个数向上舍入到…

python烟花代码

在Python中,可以使用多种方式来模拟烟花效果,其中一种常见的方法是使用turtle图形库来绘制。以下是一个简单的示例,展示了如何使用turtle来创建一个烟花效果的动画: import turtle import random# 设置屏幕和背景 screen turtle…

【数据库主从架构】

【数据库主从架构】 1. 什么是数据库的主从架构1.1 主从复制1.1.1 MySQL的主从主从复制技术三级目录 1. 什么是数据库的主从架构 随着公司业务线的增多,各种数据都在迅速增加,并且数据的读取流量也大大增加,就面临着数据安全问题,…

Mac 电脑 vscode 终端提示 zsh: command not found

问题 Mac上装好node后,使用npm install安装依赖时,终端却提示zsh: command not found 解决方案 【1】在~目录下创建.zshrc文件; 【2】编辑source ~/.bash_profile至.zshrc文件中; 【3】source ~/.zshrc; cd ~ touch .zshrc echo source ~…

06.Git远程仓库

Git远程仓库 #仓库种类,举例说明 github gitlab gitee #以这个仓库为例子操作登录码云 https://gitee.com/projects/new 创建仓库 选择ssh方式 需要配置ssh公钥 在系统上获取公钥输入命令:ssh-keygen 查看文件,复制公钥信息内…

【设计模式】16、state 状态模式

文章目录 十六、state 状态模式16.1 自动购物机16.1.1 vending_machine_test.go16.1.2 vending_maching.go16.1.3 state.go16.1.4 no_good_state.go16.1.5 has_good_state.go 16.2 player16.2.1 player_test.go16.2.2 player.go16.2.3 state.go16.2.4 stopped_state.go16.2.5 p…

go的grpc的三种流模式通信

go的grpc的三种流模式通信 1、grpc通信模式简介2、stream.proto文件3、服务端代码 server.go4、客户端代码client.go5、测试说明 1、grpc通信模式简介 grpc的数据传输可以分为4种模式: 简单模式 (一元调用) 服务端流模式 (服务端返回实时股票数据给前台) 客户端流模…

kubernetes中使用ELK进行日志收集

目录 一、需要收集哪些日志 1、kubernetes集群的系统组件日志 2、应用日志 二、日志收集方案ELK 1、收集日志:Logstash 2、存储日志:Elasticsearch 3、展示日志:Kibana 三、安装elk 1、下载安装包 2、创建用户并切换到新用户 3、上…

npm许可证检查

node开发做项目,很少有人去纯手工打造,大多是采用一些开源框架,还会使用前人做好的轮子,所以咱们的项目文件里,除了自己编写的js文件,还会带有一些拿来主义的npm模块,从其他开源发布网站上下载的…

2024-05-02 商业分析-杭州小万科技-商业模式分析

摘要: 对杭州小万科技的商业模式进行分析,以对其做出客观的评估。 杭州小万科技的资料: 杭州小万科技有限公司 - 企知道 (qizhidao.com) 杭州小万科技有限公司网站备案查询 - 天眼查 (tianyancha.com) 杭州小万科技有限公司 - 爱企查 (baidu.com) ​ 2023年年报:

SMB 协议详解之-TreeID原理和SMB数据包分析技巧

在前面分析SMB协议数据包的过程中,这里,可以看到在SMB协议中存在很多的ID,即Unique Identifiers。那么这些ID表示什么含义?在实际分析数据包的过程中如何根据这些ID进行过滤分析?本文将介绍SMB/SMB2中的tree id ,并介绍如何通过tree id 快速的分析SMB数据包中各种命令交互…

Django响应‘表单请求’过程

(1)用户通过自己的浏览器(客户端)第一次向服务器发出含有表单页面的请求,Django会创建一个未绑定数据的表单实例(例如form LoginForm(), form实例就是未绑定实例),即空表单&#xf…

现代JavaScript:对ES6+的深入讲解,新型的JS特性以及怎样在项目中使用它们

现代JavaScript,也就是ES6(ECMAScript 6)和更高版本,引入了很多新的语言特性来增强JavaScript的编程能力。以下为一些关键的新特性及其在项目中的使用: 1、let 和 const 关键字: 在ES6之前,我们…

使用jdbc方式操作ClickHouse

1、创建测试表,和插入测试数据 create table t_order01(id UInt32,sku_id String,total_amount Decimal(16,2),create_time Datetime ) engine MergeTreepartition by toYYYYMMDD(create_time)primary key (id)order by (id,sku_id);insert into t_order01 values …

MR混合现实情景实训教学系统在商务接待课堂上的应用

随着科技的不断发展,MR混合现实情景实训教学系统已经逐渐应用于商务接待课堂。这种新型的实训教学系统将虚拟现实技术与现实环境相结合,为商务接待课堂带来了全新的教学方式和体验。 首先,MR混合现实情景实训教学系统能够为学生提供真实的商务…

Agent AI智能体:如何借助机器学习引领科技新潮流

文章目录 📑前言一、Agent AI智能体的基本概念二、Agent AI智能体的技术进步2.1 机器学习技术2.2 自适应技术2.3 分布式计算与云计算 三、Agent AI智能体的知识积累3.1 知识图谱3.2 迁移学习 四、Agent AI智能体的挑战与机遇4.1 挑战4.2 机遇 小结 📑前言…

App异常汇总与对策

UI交互异常 空显示/白屏 一般是因为数据为空或获取失败。要请产品定义加载中、加载失败、数据为空的UI。显示不完整、错位 开发时考虑不同屏幕大小、窗体大小、内容量的兼容,做好对齐和层级的设置。内容量会引起折行、显示不全等问题。如果有改变字体大小或多语言设…

Java基础(10)反射

Java反射是Java语言中的一个功能强大且复杂的机制,它允许程序在运行时访问、检查和修改它本身的结构(类、接口、字段、方法等)。反射机制主要在java.lang.reflect包中定义。 反射的核心组件 Class类:它的实例表示正在运行的Java…

【网站项目】高校推免报名

🙊作者简介:拥有多年开发工作经验,分享技术代码帮助学生学习,独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。🌹赠送计算机毕业设计600个选题excel文件,帮助大学选题。赠送开题报告模板&#xff…