数据挖掘丨轻松应用RapidMiner机器学习内置数据分析案例模板详解(下篇)

RapidMiner 案例模板

RapidMiner 机器学习平台提供了一个可视化的操作界面,允许用户通过拖放的方式构建数据分析流程。RapidMiner目前内置了 13 种案例模板,这些模板是预定义的数据分析流程,可以帮助用户快速启动和执行常见的数据分析任务。

上期文中我们给大家介绍了6种案例模板,包括客户流失分析、精准营销、信用风险、购物篮分析、预测性维护、价格风险聚类。大家可在文末回顾上期文章~

在本期文章中,我们将继续给介绍其余7种案例模板:提升图、流程自动化、异常值检测、地理距离计算、情感分析、医疗欺诈检测、网页分析。

图片

案例模板界面

*如内置模板不能满足用户的场景,用户也可以使用模型流程设计器构建自己的模型流程。

1、提升图案例模板

创建提升图能够评估识别具有较高流失概率、响应的营销活动或转化为产品用户的群体的能力。

图片

步骤1:

加载包含客户数据和感兴趣的目标变量的数据——这里指的是:客户流失。

步骤2:

将数据分割为训练集和测试集(保留集)。在训练集上训练一个预测模型,并将模型应用于测试集。

步骤3:

创建提升图。

2、流程自动化案例模板

将预测分析嵌入到业务流程中:当条件满足时,自动执行预测结果并触发动作。

图片

步骤1:

从各种来源读取数据(可以是数据库、文件、Hive等...)。

步骤2:

编辑、转换和加载(ETL)- 数据根据需要进行准备和组合。

步骤3:

在其他地方预训练好的模型被读取。

步骤4:

将模型应用于数据,以发现谁是未来的客户,然后计算并监控性能。现在怎么办?如果性能低于阈值,我们必须做出反应!双击操作符以查看更多。

这个分支操作符检查是否满足某个特定条件 - 在这里:如果性能高于/低于某个特定阈值。在构建和监控模型时,适应检查任何条件。

3、异常值检测案例模板

异常检测技术通过葡萄酒化学成分数据分析,首先对数据进行标准化处理,以便比较不同属性,然后识别数据集群和局部离群因子来检测异常。

图片

步骤1:

加载数据并准备进行分析。在比较不同性质的属性时,对数据进行标准化是一个典型的步骤。在这种情况下,我们使用Z变换作为方法,以确保典型的偏差相等,这样在问题的各个维度中,异常值都有明确的含义。数据集显示了具有各种化学成分的葡萄酒。

步骤2:

我们对数据应用聚类操作符,以在葡萄酒列表中找到一致的组。然后我们使用LOF(局部异常因子)机制来找到“异常值评分”。

步骤3:

我们通过应用反向标准化模型来对数据进行去标准化,从而获得原始数据。然后我们过滤示例,以获得一个包含异常值的数据集和另一个包含其余数据的数据集,使用“异常值=1.5”作为阈值。

4、地理距离计算案例模板

通过使用“1NN”模型,并将其应用于客户位置,计算给定客户位置最近的天线。

图片

步骤1:

获取包含天线位置的数据集。通过选择适当的属性并指明模型的目标:找到CellId,这将是模型的标签,来执行一些简单的ETL操作。

步骤2:

使用数据集训练一个k-最近邻(k-NN)模型(k=1)。它将帮助我们找到最近的天线。

步骤3:

获取客户的相关数据。该过程的目标是为每个客户找到最近的天线。

步骤4:

应用1-最近邻(1-NN)模型来为每个客户的地理位置找到最近的天线(CellId)。

5、情感分析案例模板

使用用户评论数据上训练的分类模型来检测文本中的情感。

图片

步骤1:导入带有相关情感评估的文本数据。它被处理以提取单词,并生成词向量(文本的数值表示)。

步骤2:训练一个支持向量机(SVM)模型,并对其进行验证以收集性能数据。

步骤3:从文本创建一个新文档(添加你自己的文本并尝试),然后像处理初始文档一样处理它。初始单词列表是额外的输入。

步骤4:用旧文本训练的模型应用于新文档。

6、医疗欺诈检测案例模板案例模板

医疗欺诈检测通过训练并应用梯度提升树模型,基于患者信息来检测医疗欺诈。模型通过验证来检查性能。

图片

步骤1:

从患者那里获取医疗数据,以及有关潜在欺诈行为的过去信息。为了将这些数据输入GBT算法,数据被转换为数字。

步骤2:

我们有很多属性,但有些属性是相关的(例如,总额与部分计数相比)。我们自动移除相关性高于95%的属性。

步骤3:

使用GBT算法推断欺诈行为。对模型进行验证以检查性能并避免统计偏差。在验证的训练部分,平衡数据以帮助模型检测不寻常的欺诈案例。

7、网页分析案例模板

通过应用广义线性模型,根据用户在网站上的页面访问情况,将用户评分为高价值/低价值。

图片

步骤1:

我们检索网页数据,设置我们想要预测的属性(高价值/低价值),最后我们移除那些高度相关的属性,因此,它们不提供额外的信息。

步骤2:

复制数据并以两种方式进行分析。

步骤3:

使用H2O的广义线性模型来训练模型并验证预测。数据事先进行了平衡,以帮助模型检测较少出现的“高价值”案例。

步骤4:

计算相关性权重,以检测最相关的属性。


若您对数据分析以及人工智能感兴趣,欢迎与我们一起站在全球视野关注人工智能的发展,与Forrester 、德勤、麦肯锡等全球知名企业共探AI如何加速制造进程,

共同参与6月20日由Altair主办的面向工程师的全球线上人工智能会议“AI for Engineers”。

点击立即免费报名

(注:现在注册参会,即可于会后第一时间获得Altair全球100个客户案例资料)


关于 Altair RapidMiner

Altair RapidMiner 数据分析与人工智能平台,是 Altair 澳汰尔公司旗下仿真、HPC 和数据分析三块主营业务中的解决方案,它在数据分析领域最早实现将自动化数据科学、文本分析、自动特征工程和深度学习等多种功能同时集成的一站式数据分析平台,帮助用户解决从数据清洗、准备、数据科学建模到模型管理和部署,同时又支持数据和流数据的实时分析可视化的数据分析平台。

欲了解更多信息,欢迎访问:www.altair.com.cn​​

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/26470.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

jsp 实验20

三、源代码以及执行结果截图&#xff1a; NewFile.jsp <% page import "java.io.*" %> <% page contentType"text/html" %> <% page pageEncoding "utf-8" %> <jsp:useBean id"english" class "web.Engli…

QT--DAY1

不使用图形化界面实现一个登陆界面 #include "widget.h"Widget::Widget(QWidget *parent): QWidget(parent) {//设置窗口标题this->setWindowTitle("登录界面");//设置窗口大小this->resize(535,410);//固定窗口大小this->setFixedSize(535,410)…

181.二叉树:验证二叉树(力扣)

代码解决 /*** Definition for a binary tree node.* struct TreeNode {* int val;* TreeNode *left;* TreeNode *right;* TreeNode() : val(0), left(nullptr), right(nullptr) {}* TreeNode(int x) : val(x), left(nullptr), right(nullptr) {}* Tre…

Flink任务如何跑起来之 2.算子 StreamOperator

Flink任务如何跑起来之 2.算子 StreamOperator 前文介绍了Transformation创建过程&#xff0c;大多数情况下通过UDF完成DataStream转换中&#xff0c;生成的Transformation实例中&#xff0c;核心逻辑是封装了SimpleOperatorFactory实例。 UDF场景下&#xff0c;DataStream到…

Spring Boot整合hibernate-validator实现数据校验

文章目录 概念基本概念常用校验注解 前置内容整合Hibernate Validator快速入门优雅处理参数校验异常其余注解校验自定义校验注解 参考来源 概念 基本概念 Hibernate Validator 是一个参数校验框架&#xff0c;可以非常方便地帮助我们校验应用程序的入参&#xff0c;实现了参数…

解决:selenium运行时driver初始化失败 DevToolsActivePort file doesn‘t exist的问题

解决&#xff1a;selenium运行时driver初始化失败 DevToolsActivePort file doesn‘t exist的问题 DevToolsActivePort file doesnt exist报错信息&#xff1a;![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/b3f8acc1c47d45e3912575896e421567.png)现象&#xff1…

10.4 Go 并发模式

&#x1f49d;&#x1f49d;&#x1f49d;欢迎莅临我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:「stormsha的主页」…

【Android】基于webView打造富文本编辑器(H5)

目录 前言一、实现效果二、具体实现1. 导入网页资源2. 页面设计3. 功能调用4. 完整代码 总结 前言 HTML5是构建Web内容的一种语言描述方式。HTML5是Web中核心语言HTML的规范&#xff0c;用户使用任何手段进行网页浏览时看到的内容原本都是HTML格式的&#xff0c;在浏览器中通过…

幸狐RV1106开发板烧录Ubuntu系统与配置SDK,RV1106 LuckFox Pico Max——最新的操作

资料&#xff1a;上手教程 | LUCKFOX WIKI 以及SDK内的文档资料 开发板型号&#xff1a;RV1106 LuckFox Pico Max 烧录系统&#xff1a; Ubuntu 虚拟机系统&#xff1a;Ubuntu 20.04&&Ubuntu22.04 PC系统&#xff1a;win11 占用空间&#xff1a;大概15G 本文主要记…

解决IDEA报错Could not find resource mybatis-config.xml最全排错解决收录

解决IDEA报错:Could not find resource mybatis-config.xml最全排错解决收录 1.问题产生 迁移新项目的Java web开发测试数据库时IDEA爆Could not find resource mybatis-config.xml 这个错误表明Mybatis无法找到名为mybatis-config.xml的配置文件。 需要确保该文件存在于cla…

【Qt 学习笔记】Qt窗口 | 对话框 | 创建自定义对话框

博客主页&#xff1a;Duck Bro 博客主页系列专栏&#xff1a;Qt 专栏关注博主&#xff0c;后期持续更新系列文章如果有错误感谢请大家批评指出&#xff0c;及时修改感谢大家点赞&#x1f44d;收藏⭐评论✍ Qt窗口 | 对话框 | 创建自定义对话框 文章编号&#xff1a;Qt 学习笔记…

鸿蒙轻内核A核源码分析系列七 进程管理 (3)

本文记录下进程相关的初始化函数&#xff0c;如OsSystemProcessCreate、OsProcessInit、OsProcessCreateInit、OsUserInitProcess、OsDeInitPCB、OsUserInitProcessStart等。 1、LiteOS-A内核进程创建初始化通用函数 先看看一些内部函数&#xff0c;不管是初始化用户态进程还…

Spring 内置BeanPostProcessor 的子子孙孙

Spring 框架已经实现了很多BeanPostProcessor的类&#xff0c;如下是关于BeanPostProcessor 的类图&#xff0c;图片过大&#xff0c;可以下载资源包看。 要能说清楚这些类&#xff0c;挺难&#xff0c;我也不知道怎么写&#xff0c;这几个类都分布在不同的包中&#xff0c;我感…

Spring系统学习 - Bean的作用域

bean作用域介绍 Spring框架提供了不同的作用域来管理Bean的生命周期和可见性&#xff0c;这对于控制不同类型的组件和处理并发请求尤其重要。 singleton&#xff08;默认&#xff09;&#xff1a; 每个Spring IoC容器只有一个bean实例。当容器创建bean后&#xff0c;它会被缓存…

C#聊天室①

聊天室服务器&#xff1a; 创建项目 桌面不需要使用控件 Program.cs internal class Program {static TcpListener server;[STAThread]static void Main(){Program p new Program(); p.start();}void start(){server new TcpListener(IPAddress.Parse(GetIP()), 33…

iText7——画发票PDF(完整)

显示描述&#xff1a; 1、每页显示必须带有发票头、“销售方和购买方信息” 2、明细填充为&#xff1a;当n≤8 行时&#xff0c;发票总高度140mm&#xff0c;每条发票明细行款高度4.375mm&#xff1b; 当8<n≤12行时&#xff0c;发票高度增加17.5mm&#xff0c;不换页&#…

【模拟-BM100 设计LRU缓存结构】

题目 BM100 设计LRU缓存结构 描述 设计LRU(最近最少使用)缓存结构&#xff0c;该结构在构造时确定大小&#xff0c;假设大小为 capacity &#xff0c;操作次数是 n &#xff0c;并有如下功能: Solution(int capacity) 以正整数作为容量 capacity 初始化 LRU 缓存get(key)&am…

【PyTorch 新手基础】Regularization -- 减轻过拟合 overfitting

Overfit 过拟合&#xff0c;效果如最右图所示 常见应对方案如下&#xff1a; 增大数据集入手&#xff1a;More data or data argumentation简化模型参数入手&#xff1a;Constraint model complexity (shallow model, regularization) or dropout dropout: torch.nn.Dropout(0…

搭建一个好玩的 RSS 订阅网站记录

全文相关链接 Github仓库创建链接Railway官网Supabase官网f-droid上的co.appreactor.news应用下载链接Railway账户使用量估算链接 全文相关代码 原文地址: https://blog.taoshuge.eu.org/p/270/ Dockerfile FROM docker.io/miniflux/miniflux:2.1.3环境变量 DATABASE_URL…

Java线程池参数和处理流程

线程池是一种管理和重用线程资源的机制&#xff0c;是利用池化思想设置和管理多线程的工具。线程池维护一定数量的线程&#xff0c;当有任务需要时&#xff0c;就从中选择一个的线程用来执行任务&#xff0c;当使用完成后该线程就会被重新放回线程池中&#xff0c;通过这样循环…