基于MIV的神经网络变量筛选

1.案例背景

        一般神经网络中所包含的网络输人数据是研究者根据专业知识和经验预先选择好的,然而在许多实际应用中,由于没有清晰的理论依据,神经网络所包含的自变量即网络输入特征难以预先确定,如果将一些不重要的自变量也引入神经网络,会降低模型的精度,因此选择有意义的自变量特征作为网络输入数据常常是应用神经网络分析预测问题中很关键一步。选择神经网络输入的方法有多种,其基本思路是:尽可能将作用效果显著的自变量选入神经网络模型中,将作用不显著的自变量排除在外。本例将结合BP神经网络应用平均影响值(Mean Impact Value,MIV)算法来说明如何使用神经网络来筛选变量,找到对结果有较大影响的输人项,继而实现使用神经网络进行变量筛选。
        BP(back propagation)神经网络是一种神经网络学习算法,其全称为基于误差反向传播算法的人工神经网络。图25-1所示为单隐藏层前馈网络拓扑结构,一般称为三层前馈网或三层感知器,即输入层,中间层(也称隐藏层)和输出层。输入层各神经元负责接收来自外界的输入信息,并传递给中间层各神经元;中间层是内部信息处理层,可以设计为单隐层或者多隐层结构;最后一个隐层传递到输出层各神经元的信息,经进一步处理后,完成一次学习的正向传播处理过程,由输出层向外界输出信息处理结果。BP神经网络的特点是:各层神经元仅与相邻层神经元之间相互全连接,同层内神经元之间无连接,各层神经元之间无反馈连接,构成具有层次结构的前馈型神经网络系统。单层前馈神经网络只能求解线性可分问题,能够求解非线性问题的网络必须是具有隐层的多层神经网络。当实际输出与期望输出不符时,进入误差的反向传播阶段。误差通过输出层,按误差梯度下降的方式修正各层权值,向隐层、输入层逐层反传。周而复始的信息正向传播和误差反向传播过程,是各层权值不断调整的过程,也是神经网络学习训练的过程,此过程一直进行到网络输出的误差减少到可以接受的程度﹐或者预先设定的学习次数为止。

        Dombi等人提出用MIV来反映神经网络中权重矩阵的变化情况,MIV被认为是在神经网络中评价变量相关性最好的指标之一,也为解决此类问题开创了新思路。因此探索此类型的评价指标在实际工作中的运用以及寻找新的评价指标是值得研究的课题。
        本例选择MIV作为评价各个自变量对于因变量影响的重要性大小指标。MIV是用于确定输人神经元对输出神经元影响大小的一个指标,其符号代表相关的方向,绝对值大小代表影响的相对重要性。具体计算过程:在网络训练终止后,将训练样本P中每一自变量特征在其原值的基础上分别加和减10%构成两个新的训练样本P,和P. ,将P,和P:分别作为仿真样本利用已建成的网络进行仿真,得到两个仿真结果A和A,求出A和A2的差值,即为变动该自变量后对输出产生的影响变化值(Impact Value,1V),最后将IⅣ按观测例数平均得出该自变量对于应变量——网络输出的MIV。按照上面步骤依次算出各个自变量的MIV值,最后根据MIV绝对值的大小为各自变量排序,得到各自变量对网络输出影响相对重要性的位次表,从而判断出输入特征对于网络结果的影响程度,即实现了变量筛选。

2.模型建立

        本例产生网络训练数据的方法如下:

3.MATLAB实现

 


%% 清空环境变量
clc
clear
%% 产生输入 输出数据% 设置步长
interval=0.01;% 产生x1 x2
x1=-1.5:interval:1.5;
x2=-1.5:interval:1.5;% 产生x3 x4(噪声)
x=rand(1,301);
x3=(x-0.5)*1.5*2;
x4=(x-0.5)*1.5*2;% 按照函数先求得相应的函数值,作为网络的输出。
F =20+x1.^2-10*cos(2*pi*x1)+x2.^2-10*cos(2*pi*x2);%设置网络输入输出值
p=[x1;x2;x3;x4];
t=F;%% 变量筛选 MIV算法的初步实现(增加或者减少自变量)p=p';
[m,n]=size(p);
yy_temp=p;% p_increase为增加10%的矩阵 p_decrease为减少10%的矩阵
for i=1:np=yy_temp;pX=p(:,i);pa=pX*1.1;p(:,i)=pa;aa=['p_increase'  int2str(i) '=p;'];eval(aa);
endfor i=1:np=yy_temp;pX=p(:,i);pa=pX*0.9;p(:,i)=pa;aa=['p_decrease' int2str(i) '=p;'];eval(aa);
end%% 利用原始数据训练一个正确的神经网络
nntwarn off;
p=yy_temp;
p=p';
% bp网络建立
net=newff(minmax(p),[8,1],{'tansig','purelin'},'traingdm');
% 初始化bp网络
net=init(net);
% 网络训练参数设置
net.trainParam.show=50;
net.trainParam.lr=0.05;
net.trainParam.mc=0.9;
net.trainParam.epochs=2000;% bp网络训练
net=train(net,p,t);%% 变量筛选 MIV算法的后续实现(差值计算)% 转置后simfor i=1:neval(['p_increase',num2str(i),'=transpose(p_increase',num2str(i),');'])
endfor i=1:neval(['p_decrease',num2str(i),'=transpose(p_decrease',num2str(i),');'])
end% result_in为增加10%后的输出 result_de为减少10%后的输出
for i=1:neval(['result_in',num2str(i),'=sim(net,','p_increase',num2str(i),');'])
endfor i=1:neval(['result_de',num2str(i),'=sim(net,','p_decrease',num2str(i),');'])
endfor i=1:neval(['result_in',num2str(i),'=transpose(result_in',num2str(i),');'])
endfor i=1:neval(['result_de',num2str(i),'=transpose(result_de',num2str(i),');'])
end%% MIV的值为各个项网络输出的MIV值 MIV被认为是在神经网络中评价变量相关的最好指标之一,其符号代表相关的方向,绝对值大小代表影响的相对重要性。for i=1:nIV= ['result_in',num2str(i), '-result_de',num2str(i)];eval(['MIV_',num2str(i) ,'=mean(',IV,')'])end

        运行结果如下:

MIV_1 =1.2030MIV_2 =1.0120MIV_3 =-0.0376MIV_4 =0.0773

        MIV_n的值为各项网络输出的MIV值,MIV被认为是在神经网络应用中评价变量对结果影响大小的最好指标之一,其符号代表相关的方向,绝对值大小代表影响的相对重要性。
        由此可见;第一,二个变量得出的MIV值较大;因为F值是靠x1 ,x2计算出来的,与x3 ,x4无关,所以MIV筛选出的对结果有重要影响的自变量同真实情况一致。神经网络使用MIV方法对变量进行筛选是可行的。

4.案例扩展

        神经网络模型本身可以应用于多重共线性的数据,所谓多重共线性(multicollinearity)是指回归模型中的自变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。为了网络的训练效果更佳,使用了MIV算法来寻找对结果影响大的变量。不只是BP神经网络,其他很多神经网络在进行拟合,回归,分类的条件下,都可以应用MIV算法进行变量筛选并且建立自变量更少.效果更好的神经网络模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/39466.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ECS服务器安装docker

​ 为了安装并配置 Docker ,你的系统必须满足下列最低要求: 64 位 Linux 或 Windows 系统 如果使用 Linux ,内核版本必须不低于 3.10 能够使用 sudo 权限的用户 在你系统 BIOS 上启用了 VT(虚拟化技术)支持 on your s…

大数据课程I4——Kafka的零拷贝技术

文章作者邮箱:yugongshiyesina.cn 地址:广东惠州 ▲ 本章节目的 ⚪ 掌握Kafka的零拷贝技术; ⚪ 了解常规的文件传输过程; 一、常规的网络传输原理 表面上一个很简单的网络文件输出的过程,在OS底层&…

一百五十七、Kettle——Kettle最新的官网下载地址(之前的Kettle官网已经无法下载,真坑)

一、目的 之前使用的是kettle8.2,不需要额外下载pentaho-hadoop-shims-hdp30-8.2.2018.11.00-342.jar,因为kettle8.2本身自带 但是kettle8.2在Linux上安装后建立共享资源库又有问题,没办法,只能换成kettle9.3 结果,k…

华为网络篇 RIPv2的基础配置-25

难度 1复杂度1 目录 一、实验原理 1.1 RIP的版本 1.2 RIP的路由更新方式 1.3 RIP的计时器 1.4 RIP的防环机制 二、实验拓扑 三、实验步骤 四、实验过程 总结 一、实验原理 RIP(Routing Information Protocol,路由信息协议)&am…

微服务概述-7

Shiro 框架 Shiro 是一个用于 Java 应用程序的安全框架。它提供了身份验证、授权、加密和会话管理等功能,可以帮助开发人员构建安全可靠的应用程序。 Java 中针对权限管理常见的有 2 个著名的框架:spring security 和 shiro shiro 基本概念 credentia…

机器学习笔记 - 基于C++的​​深度学习 二、实现卷积运算

一、卷积 卷积是信号处理领域的老朋友。最初的定义如下 在机器学习术语中: I(…)通常称为输入 K(…)作为内核,并且 F(…)作为给定K的I(x)的特征图。 虑多维离散域,我们可以将积分转换为以下求和 对于二维数字图像,我们可以将其重写为: <

编程练习(1)

目录 一.选择题 第一题&#xff1a; 第二题&#xff1a; 第三题&#xff1a; 第四题&#xff1a; 第五题&#xff1a; ​编辑 二.编程题 第一题&#xff1a; 第二题&#xff1a; 1.暴力方法&#xff1a; 2.数组法&#xff1a; 一.选择题 第一题&#xff1a; 解析&…

【vue】简洁优雅的火花线、趋势线

来由 在github发现个好看易用的vue趋势线组件&#xff0c;特此记录。 效果 趋势图生成后效果如上&#xff0c;线条为渐变色&#xff0c;可设置是否平滑。具体线条走势&#xff0c;根据数据动态生成。 使用 安装 npm i vuetrend -S 引入 import Vue from "vue"…

MySQL性能分析之慢查询日志查看

一、背景 MySQL的慢查询日志是MySQL提供的一种日志记录,他用来记录在MySQL中响应的时间超过阈值的语句,具体指运行时间超过long_query_time(默认是10秒)值的SQL,会被记录到慢查询日志中。 慢查询日志一般用于性能分析时开启,收集慢SQL然后通过explain进行全面分析,一…

时序预测 | MATLAB实现WOA-CNN-BiLSTM鲸鱼算法优化卷积双向长短期记忆神经网络时间序列预测

时序预测 | MATLAB实现WOA-CNN-BiLSTM鲸鱼算法优化卷积双向长短期记忆神经网络时间序列预测 目录 时序预测 | MATLAB实现WOA-CNN-BiLSTM鲸鱼算法优化卷积双向长短期记忆神经网络时间序列预测预测效果基本介绍程序设计学习总结参考资料 预测效果 基本介绍 时序预测 | MATLAB实现…

Python案例|Pandas正则表达式

字符串的处理在数据清洗中占比很大。也就是说,很多不规则的数据处理都是在对字符串进行处理。Excel提供了拆分、提取、查找和替换等对字符串处理的技术。在Pandas中同样提供了这些功能,并且在Pandas中还有正则表达式技术的加持,让其字符串处理能力更加强大。 01、正则 正则就是…

TypeScript相关面试题

typeScript 1.什么是TypeScript?是什么&#xff1f;特性&#xff1f;区别&#xff1f; 2.TypeScript数据类型&#xff1f;3.说说你对 TypeScript 中枚举类型的理解&#xff1f;应用场景&#xff1f;4.说说你对 TypeScript 中接口的理解&#xff1f;应用场景&#xff1f;使用方…

docker中的jenkins之流水线构建

docker中的jenkins之流水线构建项目 1、用node这种方式&#xff08;因为我用pipeline方式一直不执行&#xff0c;不知道为什么&#xff09; 2、创建项目 创建两个参数&#xff0c;一个是宿主端口号&#xff0c;一个是docker中的端口号 3、使用git项目中的Jenkinsfile 4、编写…

【AGI】世界首次实现室温超导LK-99

论文&#xff1a;The First Room-Temperature Ambient-Pressure Superconductor GPT论文总结&#xff1a; 根据所提供的信息&#xff0c;这篇论文报道了一种在室温和常压下工作的室温超导体LK-99。LK-99的超导性是通过微小的结构畸变引起的&#xff0c;而不是通过温度和压力等外…

09 - 连续的多个commit整理成1个

查看所有文章链接&#xff1a;&#xff08;更新中&#xff09;GIT常用场景- 目录 文章目录 将连续的多个commit整理成1个 将连续的多个commit整理成1个 将anranxiaohunzhang和xianglongshibazhang合并起来&#xff08;将anranxiaohunzhang合并到降龙十八掌上&#xff0c;生成新…

docker 学习--03 环境安装(本人使用的win10 Linux也是在win10下模拟)

docker 学习–03 环境安装&#xff08;本人使用的win10 Linux也是在win10下模拟&#xff09; docker 学习-- 01 基础知识 docker 学习-- 02 常用命令 文章目录 docker 学习--03 环境安装&#xff08;本人使用的win10 Linux也是在win10下模拟&#xff09;[TOC](文章目录) 1. wi…

【数学建模】逻辑回归算法(Logistic Resgression)

逻辑回归算法 简介逻辑回归与条件概率绘制sigmoid函数 简介 逻辑回归算法是一种简单但功能强大的二元线性分类算法。需要注意的是&#xff0c;尽管"逻辑回归"名字带有“回归”二字&#xff0c;但逻辑回归是一个分类算法&#xff0c;而不是回归算法。 我认为&#xff…

冉冉升起的星火,再度升级迎来2.0时代!

文章目录 前言权威性评测结果 星火大模型多模态功能插件功能简历生成文档问答PPT生成 代码能力 福利 前言 前几天从技术群里看到大家都在谈论《人工智能大模型体验报告2.0》里边的内容&#xff0c;抱着好奇和学习的态度把报告看了一遍。看完之后瞬间被里边提到的科大讯飞的星火…

2008-2020年全国各省绿色金融发展指数(含原始数据)

2008-2020年全国各省绿色金融发展指数&#xff08;含原始数据&#xff09; 1、时间&#xff1a;2008-2020年 2、范围&#xff1a;30个省市 不含西藏 3、来源&#xff1a;原始数据整理自csmar、eps、wind等数据库 4、原始数据指标&#xff1a; A股上市环保企业新增银行贷款…

企业服务器数据库遭到malox勒索病毒攻击后如何解决,勒索病毒解密

网络技术的发展不仅为企业带来了更高的效率&#xff0c;还为企业带来信息安全威胁&#xff0c;其中较为常见的就是勒索病毒攻击。近期&#xff0c;我们公司收到很多企业的求助&#xff0c;企业的服务器数据库遭到了malox勒索病毒攻击&#xff0c;导致系统内部的许多重要数据被加…