电子商务网站建设 期末考试试卷以及答案/免费搜索引擎入口

电子商务网站建设 期末考试试卷以及答案,免费搜索引擎入口,租用阿里云做网站,小型视频网站建设一、为何要对特征进行分箱? 分箱(Binning)是将连续型或离散型特征转化为区间型变量的过程,其核心目标是提升模型效果和解释性,具体原因如下: 1. 业务需求 可解释性:将特征转化为业务可理解的…

一、为何要对特征进行分箱?

分箱(Binning)是将连续型或离散型特征转化为区间型变量的过程,其核心目标是提升模型效果和解释性,具体原因如下:

1. 业务需求
  • 可解释性:将特征转化为业务可理解的区间(如年龄分箱为“18-25岁”“26-35岁”)。
  • 规则制定:例如风控模型中,将收入分箱后设置不同的授信阈值。
2. 技术优势
  • 处理非线性关系:分箱可将连续变量的非线性影响转化为分段线性关系。
  • 抗噪声能力:合并相邻区间减少异常值干扰(如将“月消费10000元”与“9999元”合并)。
  • 提升模型性能:通过分箱优化特征与目标变量的单调性(如WOE分箱)。

二、离散型与连续型特征的分箱方法

1. 离散型特征分箱
  • 合并低频类别:将出现频率低于阈值(如5%)的类别合并为“其他”。
  • 基于业务逻辑合并:例如将“教育程度”中的“博士”与“硕士”合并为“高学历”。
  • 示例
    # 合并低频类别
    df['职业'].value_counts()
    # 输出:教师: 300,医生: 250,其他: 50 → 合并“其他”
    
2. 连续型特征分箱
方法原理适用场景
等距分箱区间宽度相等(如年龄分箱为[0-10, 11-20, …])数据分布均匀
等频分箱每个区间样本数量相等数据分布不均匀
基于模型分箱决策树划分(如XGBoost生成最优分箱边界)非线性关系明显
统计分箱卡方检验、最小熵分箱、WOE分箱特征与目标变量相关性强

示例(WOE分箱)

  1. 初始化分箱(如按等距分箱)。
  2. 计算每个分箱的WOE值和IV值。
  3. 合并相邻分箱,直到IV值最大化或分箱数满足要求。

三、分箱后如何用于算法中?

分箱后的特征需转化为模型可接受的格式,常见方法如下:

1. 哑变量编码(One-Hot)
  • 适用模型:树模型、神经网络。
  • 示例:将年龄分箱为[0-18, 19-30, 31+],生成3个哑变量。
2. WOE编码
  • 适用模型:逻辑回归、线性模型。
  • 示例:每个分箱的WOE值作为唯一编码,反映该区间与目标变量的关联程度。
3. 标签编码
  • 方法:直接用区间编号(如[0-18]=1[19-30]=2)。
  • 风险:可能引入虚假线性关系,需谨慎使用。

四、分箱与IV(信息价值)的关系

1. IV的定义
  • 公式IV = Σ[(好样本占比 - 坏样本占比) × WOE]
  • 作用:衡量特征对目标变量的预测能力,IV值越高,特征越有效。
2. 分箱如何影响IV?
  • 优化分箱边界:通过调整分箱,使每个区间内的样本对目标变量的区分度最大化。
  • 消除噪声:合并低IV值的区间,提升整体特征的预测能力。
3. 分箱与IV的交互流程
IV低
IV达标
原始特征
分箱
计算IV
调整分箱
输出分箱结果

五、IV(信息价值)

IV是评估分箱合理性的核心指标之一,尤其在风控、信用评分等领域被广泛使用。以下是其具体作用和评估逻辑:

、IV对分箱合理性的直接评估作用
  1. 量化预测能力

    • IV值反映特征分箱后对目标变量(如违约/正常)的区分能力,数值越高表示分箱越合理。
    • IV阈值参考(行业经验):
      IV值范围预测能力等级
      <0.02无预测能力
      0.02-0.1
      0.1-0.3中等
      0.3-0.5
      >0.5极强(需警惕过拟合)
  2. 验证分箱单调性

    • 分箱后,理想情况下每个区间的WOE值应呈现单调递增或递减趋势(如高收入区间WOE更高)。
    • IV值高但WOE不单调时,可能存在分箱边界不合理或数据噪声,需重新调整。
  3. 稳定性验证

    • 分箱后需在训练集、验证集、测试集上计算IV值,若差异较大(如训练集IV=0.4,测试集IV=0.1),说明分箱过拟合或样本分布偏移。
2、IV在分箱过程中的应用流程
  1. 分箱前

    • 计算原始特征的IV值,判断是否需要分箱(如IV<0.02的特征可直接剔除)。
  2. 分箱中

    • 动态调整分箱边界,选择使IV最大化的分箱方案。
    • 示例
      from sklearn.ensemble import ExtraTreesClassifier
      from feature_engine.discretisation import DecisionTreeDiscretiser# 基于决策树分箱,目标最大化IV
      disc = DecisionTreeDiscretiser(variables=["age"],regression=False,param_grid={"max_depth": [3, 4, 5]},scoring="roc_auc"
      )
      disc.fit(X_train, y_train)
      X_train_binned = disc.transform(X_train)
      
  3. 分箱后

    • 计算分箱后的IV值,若未达标(如IV<0.1),需重新分箱或合并区间。
3、IV的局限性与补充指标
  1. 局限性

    • 高IV≠模型效果好:IV仅反映特征本身的预测能力,需结合模型性能(如AUC、准确率)综合判断。
    • 对类别数敏感:分箱数越多,IV可能虚高(需结合业务场景平衡分箱数与IV)。
  2. 补充评估指标

    • 卡方检验:检验分箱后特征与目标变量的独立性,p值越小表示相关性越强。
    • KS值:衡量正负样本在分箱中的分布差异,KS>0.2表示分箱有效。
    • 业务逻辑验证:如年龄分箱为“18-25岁”与“26-35岁”是否符合业务规则。
  • 在风控模型中,优先选择IV≥0.1的分箱结果。
  • 分箱后通过卡方检验或KS值辅助验证,避免单一指标依赖。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/72410.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

线性dp(数字三角形,LIS,LCS,LCIS)

文章目录 线性dp数字三角形题目思路 LIS&#xff08;最长上升子序列&#xff09;代码&#xff08;n^2&#xff09;二分优化&#xff08;nlogn&#xff09; LCS(最长公共子序列)代码 LCS——>>LIS思路代码 最长公共子串最长公共上升子序列&#xff08;LCIS&#xff09; 线…

《AI大模型趣味实战》No2 : 快速搭建一个漂亮的AI家庭网站-相册/时间线/日历/多用户/个性化配色(中)

快速搭建一个漂亮的AI家庭网站-相册/时间线/日历/多用户/个性化配色(中) 摘要 在上一篇文章中&#xff0c;我们介绍了如何搭建一个基础的家庭网站&#xff08;V1.0版本&#xff09;&#xff0c;包含了用户管理、相册管理、时间线和日历等功能。本文将继续深入&#xff0c;详细…

软件需求分类、需求获取(高软46)

系列文章目录 软件需求分类&#xff0c;需求获取 文章目录 系列文章目录前言一、软件需求二、获取需求三、真题总结 前言 本节讲明软件需求分类、需求获取的相关知识。 一、软件需求 二、获取需求 三、真题 总结 就是高软笔记&#xff0c;大佬请略过&#xff01;

Zabbix7.0+DeepSeek大模型实现人工智能告警分析

一、方案概述 本方案基于Zabbix7.0监控系统,通过底层webhook脚本机制集成Deepseek做故障分析提供解决方案,构建智能化运维体系。 其核心架构包括: Zabbix监控平台:负责实时监控和告警触发 Webhook接口:实现告警信息的传递 Deepseek AI平台:提供故障智能分析能力 二、…

CPU相关:实时cpu信息接口

[rootxxx ~]# cat /proc/cpuinfo #通过实时cpu信息接口查看cpu信息

A SURVEY ON POST-TRAINING OF LARGE LANGUAGE MODELS——大型语言模型的训练后优化综述——第2部分

3、微调&#xff08;上一部分内容&#xff09; 4、LLMs的对齐 大型语言模型&#xff08;LLMs&#xff09;中的对齐涉及引导模型输出以符合人类预期和偏好&#xff0c;特别是在安全关键或用户面对的应用程序中。本章讨论了实现对齐的三个主要范式&#xff1a; 带有反馈的人工…

热key探测技术架构设计与实践

参考&#xff1a; 得物热点探测技术架构设计与实践 Redis数据倾斜与JD开源hotkey源码分析揭秘 京东热点检测 HotKey 学习笔记 hotkey: 京东App后台中间件&#xff0c;毫秒级探测热点数据&#xff0c;毫秒级推送至服务器集群内存&#xff0c;大幅降低热key对数据层查询压力 …

Windows 环境图形化安装 Oracle 23ai

文章目录 Windows 环境安装23ai下载Oracle 23ai安装包安装安装详细图形界面连接Oracle 23ai 安装过程中遇到的错误安装过其他版本数据库&#xff0c;设置了ORACLE_HOME或 TNS_ADMIN解决方法 无法访问Windows Installer Serviece (error 1719)解决方法 其他注意 参考&#xff1a…

基于SpringBoot3+Druid数据库连接池与外部PostgreSQL的Kubernetes Pod YAML全解析

说明 一个基于Spring Boot 3 Druid 外部PostgreSQL的Kubernetes Pod YAML详细解析&#xff0c;包含最佳实践和关键配置说明&#xff1a; YAML apiVersion: apps/v1 kind: Deployment metadata:name: springboot-applabels:app: springboot-app spec:replicas: 2selector:ma…

PyTorch 深度学习实战(14):Deep Deterministic Policy Gradient (DDPG) 算法

在上一篇文章中&#xff0c;我们介绍了 Proximal Policy Optimization (PPO) 算法&#xff0c;并使用它解决了 CartPole 问题。本文将深入探讨 Deep Deterministic Policy Gradient (DDPG) 算法&#xff0c;这是一种用于连续动作空间的强化学习算法。我们将使用 PyTorch 实现 D…

【Agent实战】货物上架位置推荐助手(RAG方式+结构化prompt(CoT)+API工具结合ChatGPT4o能力Agent项目实践)

本文原创作者:姚瑞南 AI-agent 大模型运营专家,先后任职于美团、猎聘等中大厂AI训练专家和智能运营专家岗;多年人工智能行业智能产品运营及大模型落地经验,拥有AI外呼方向国家专利与PMP项目管理证书。(转载需经授权) 目录 结论 效果图示 1.prompt 2. API工具封…

HarmonyOS NEXT开发进阶(十二):build-profile.json5 文件解析

文章目录 一、前言二、Hvigor脚本文件三、任务与任务依赖图四、多模块管理4.1 静态配置模块 五、分模块编译六、配置多目标产物七、配置APP多目标构建产物八、定义 product 中包含的 target九、拓展阅读 一、前言 编译构建工具DevEco Hvigor&#xff08;以下简称Hvigor&#x…

基于SSM + JSP 的图书商城系统

基于SSM的图书商城 网上书城、图书销售系统、图书销售平台 &#xff5c;Java&#xff5c;SSM&#xff5c;HTML&#xff5c;JSP&#xff5c; 项目采用技术&#xff1a; ①&#xff1a;开发环境&#xff1a;IDEA、JDK1.8、Maven、Tomcat ②&#xff1a;技术栈&#xff1a;Java、…

色板在数据可视化中的创新应用

色板在数据可视化中的创新应用&#xff1a;基于色彩感知理论的优化实践 引言 在数据可视化领域&#xff0c;色彩编码系统的设计已成为决定信息传递效能的核心要素。根据《Nature》期刊2024年发布的视觉认知研究&#xff0c;人类大脑对色彩的识别速度比形状快40%&#xff0c;色…

K8S学习之基础二十七:k8s中daemonset控制器

k8s中DaemonSet控制器 ​ DaemonSet控制器确保k8s集群中&#xff0c;所有节点都运行一个相同的pod&#xff0c;当node节点增加时&#xff0c;新节点也会自动创建一个pod&#xff0c;当node节点从集群移除&#xff0c;对应的pod也会自动删除。删除DaemonSet也会删除创建的pod。…

PyTorch 系列教程:使用CNN实现图像分类

图像分类是计算机视觉领域的一项基本任务&#xff0c;也是深度学习技术的一个常见应用。近年来&#xff0c;卷积神经网络&#xff08;cnn&#xff09;和PyTorch库的结合由于其易用性和鲁棒性已经成为执行图像分类的流行选择。 理解卷积神经网络&#xff08;cnn&#xff09; 卷…

Spring Cloud Stream - 构建高可靠消息驱动与事件溯源架构

一、引言 在分布式系统中&#xff0c;传统的 REST 调用模式往往导致耦合&#xff0c;难以满足高并发和异步解耦的需求。消息驱动架构&#xff08;EDA, Event-Driven Architecture&#xff09;通过异步通信、事件溯源等模式&#xff0c;提高了系统的扩展性与可观测性。 作为 S…

王者荣耀道具页面爬虫(json格式数据)

首先这个和英雄页面是不一样的&#xff0c;英雄页面的图片链接是直接放在源代码里面的&#xff0c;直接就可以请求到&#xff0c;但是这个源代码里面是没有的 虽然在检查页面能够搜索到&#xff0c;但是应该是动态加载的&#xff0c;源码中搜不到该链接 然后就去看看是不是某…

【一起来学kubernetes】12、k8s中的Endpoint详解

一、Endpoint的定义与作用二、Endpoint的创建与管理三、Endpoint的查看与组成四、EndpointSlice五、Endpoint的使用场景六、Endpoint与Service的关系1、定义与功能2、创建与管理3、关系与交互4、使用场景与特点 七、Endpoint的kubectl命令1. 查看Endpoint2. 创建Endpoint3. 编辑…

C# Enumerable类 之 集合操作

总目录 前言 在 C# 中&#xff0c;System.Linq.Enumerable 类是 LINQ&#xff08;Language Integrated Query&#xff09;的核心组成部分&#xff0c;它提供了一系列静态方法&#xff0c;用于操作实现了 IEnumerable 接口的集合。通过这些方法&#xff0c;我们可以轻松地对集合…