如何轻松利用人工智能深度学习,提升半导体制造过程中的良率预测?

背景

这个项目涉及半导体制造过程的监测领域。在半导体制造中,不断收集来自传感器或过程测量点的信号是常态。然而,并非所有这些信号在特定的监测系统中都同等重要。这些信号包括了有用的信息、无关的信息以及噪声。通常情况下,工程师获得的信号数量远远超过实际需要的数量。因此,需要进行特征选择,以找出最具相关性的信号,使工程师能够确定对产品良率产生影响的关键因素。这一过程有助于提高生产效率、缩短学习时间,并降低单位生产成本。

目标

项目的目标是构建一个分类器,用于预测特定过程实体的“通过/不通过”产品良率,并分析是否需要所有特征来构建模型。通过分析和尝试不同的特征组合,可以识别影响产品良率的关键信号。

数据集

项目使用名为 "sensor-data.csv" 的数据集,包含1567个样本,每个样本有591个特征(不包含日期和索引)。每个样本代表一个生产实体,具有关联的测量特征,并且标签表示内部线路测试的通过/不通过产品良率。数据集中的目标列 "Pass" 对应于通过,"Fail" 对应于不通过。

项目的步骤:

1.  导入CSV数据。

2.  检查数据的观察值和形状,检查是否存在缺失值,如果有则进行缺失值处理。

3.  检查多重共线性,并丢弃不相关的列。

4.  对数据进行标准化并进行建模。

5.  将依赖列("Pass/Fail")与数据分离,并将数据集拆分为训练集和测试集(70:30的比例)。

6.  应用采样技术以处理类别不平衡问题。

7.  构建深度学习分类器模型,并打印测试数据的混淆矩阵。

8.  PCA降维后重复步骤7。

9.  结论

数据科学

首先使用RapidMiner导入变量,并进行简单的描述性统计,可以看到数据的条数和变量。

图片

然后做一下数据的质量检验,尤其是稳定性的问题,这里我们把稳定性超过80%的数据给筛选出来,不难从下图中看出来,接近23%的数据存在稳定性过高的问题,直接在数据准备中把稳定性过高的数据进行删除。

图片

同时把删除后的变量进行多重共线性检验。在RapidMiner这种我们使用“Remove Correlated Attributes”算子查找相关性超过0.8的变量并进行删除。

图片

并使用“Normalize”算子对自变量进行了标准化处理。

图片

删除前的变量为461个(过滤掉稳定性过高的),删除后剩余216个。

A:为什么要做多重共线性检验?为何要剔除稳定性过高的变量?

Q:多重共线性检验的主要目的是识别自变量之间的高度相关性,并采取适当的措施来解决这些问题。剔除稳定性过高的变量是解决多重共线性的一种方法,因为它有助于降低模型的复杂性和提高模型的解释性。

通过剔除高度相关的变量,可以减少模型中的冗余信息,使模型更加稳定,并更容易理解和解释。

接下来我们查看一下我们的分类变量,可以看到原始数据集中,Fail和Pass的比例大概是1:10。

图片

目前的数据存在极度不平衡的。所以我们需要进行欠采样。

Q:什么是欠采样?

A:欠采样是减少多数类别样本的方法,以使其与少数类别样本数量相匹配。

当我们观察到"Pass"类别只有104个样本时,为了更好地进行机器学习建模,我们希望实现一个更平衡的分类比例,1:2或者1:3,这意味着104个"Pass"样本需要对应312个"Fail"样本。

图片

接下来使用深度学习建模。

Q:什么是深度学习?

A:深度学习是一种机器学习方法,它试图模拟人脑神经网络的工作方式来处理和理解复杂的数据。它的核心思想是构建深层神经网络,这些网络由多层神经元组成,每一层都对数据进行不同层次的特征提取和抽象表示,最终实现高级的模式识别和决策。

深度学习的关键特点包括:

1. 深层结构:深度学习模型通常包括多个隐藏层,允许它们学习数据的多层次表示。这使得它们能够捕获数据中的复杂关系。

2. 神经网络:深度学习使用人工神经网络模拟生物神经元之间的连接。神经元之间的权重和激活函数通过训练来调整,以最大程度地减小预测误差。

3. 大规模数据:深度学习模型通常需要大规模的数据集进行训练,以获得高性能。这有助于模型学习数据的广泛分布和复杂模式。

4. 端到端学习:深度学习模型可以直接从原始数据中学习特征表示,而不需要手动提取特征。这使得模型的构建更加自动化和通用。

图片

通过构建模型后可以看到准确率为76.8%。但是从混淆矩阵上来看,实际为Pass的有很大一部分被预测成了Fail,出现了假阴性率。

图片

如果接下来使用PCA降维,我们查看一下PCA是否有助于改善模型性能。

Q:什么是PCA(主成分分析)?

A:PCA(Principal Component Analysis,主成分分析)是一种常用于数据降维和特征选择的数学方法。它的主要目标是通过线性变换将原始数据转换成一组新的不相关特征,这些新特征被称为主成分,以便降低数据的维度,同时保留尽可能多的信息。

图片

我加了一个PCA,保留了95%的主成分。通过降维找到了129个变量。

图片

但是模型并没有更改多少,所以本质上可能是标签不准确造成的。但是从分析中不难发现。146、91、224、218和139对于Pass/Fail是影响最大的,我们可以着重的关注一下这几个变量。

图片

结论

在本次研究中,我们探讨了使用RapidMiner进行半导体制造过程中产品良率预测的易用性和可解释性。通过对半导体制造过程的数据进行分析和建模,我们得出以下结论:

首先,RapidMiner提供了强大的数据预处理和特征选择功能,使我们能够有效地处理复杂的半导体制造数据。其直观的用户界面和丰富的工具库使数据科学家能够轻松地导入、清理和准备数据,从而为建模工作奠定了坚实的基础。

其次,RapidMiner在建模方面表现出色。我们使用了深度学习模型(有更多可以选择),通过RapidMiner轻松构建了这些模型。通过调整模型参数和应用采样技术,我们成功地提高了产品良率的预测准确性。RapidMiner的模型评估功能还允许我们深入分析模型性能,包括混淆矩阵和特征重要性。

最重要的是,RapidMiner提供了模型可解释性的工具。我们能够轻松地理解模型对产品良率的预测依据,识别了对产品良率产生重大影响的关键特征。这有助于制造工程师更好地理解制造过程中的关键因素,并采取相应的措施来提高产品良率。

综上所述,RapidMiner在半导体制造过程中产品良率预测方面表现出色,具有良好的易用性和可解释性,为制造行业提供了有力的数据分析和建模工具。它有助于提高生产效率、降低成本,并提高产品质量,对于半导体制造企业来说是一项强大的工具。


若您对数据分析以及人工智能感兴趣,欢迎与我们一起站在全球视野关注人工智能的发展,与Forrester 、德勤、麦肯锡等全球知名企业共探AI如何加速工业变革,共享众多优秀行业案例,开启AI人工智能全球新视野!!

共同参与6月20日由Altair主办的面向工程师的全球线上人工智能会议“AI for Engineers”。

点击立即免费报名

(注:现在注册参会,即可于会后第一时间获得Altair全球100个客户案例资料)


关于 Altair RapidMiner

Altair RapidMiner 数据分析与人工智能平台,是 Altair 澳汰尔公司旗下仿真、HPC 和数据分析三块主营业务中的解决方案,它在数据分析领域最早实现将自动化数据科学、文本分析、自动特征工程和深度学习等多种功能同时集成的一站式数据分析平台,帮助用户解决从数据清洗、准备、数据科学建模到模型管理和部署,同时又支持数据和流数据的实时分析可视化的数据分析平台。

欲了解更多信息,欢迎关注公众号:Altair RapidMiner

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/27753.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

将Jar用三种方式生成Windows的安装程序

无论是WEB(spring boot)的JAR,还是JavaFX以及swing的Jar,要生成windows方式。 打包成Windows可执行文件(.exe),你可以使用以下三种方法: ### 方法1:使用Inno Setup 1. **构建JavaFX应用程序**: 使用M…

2779. 数组的最大美丽值

简单翻译一下题目意思: 对于每个 nums[i] 都可以被替换成 [nums[i]-k, nums[i]k] 区间中的任何数,区间左右是闭的。在每个数字可以替换的前提下,返回数组中最多的重复数字的数量。 第一想法是用一个哈希表,Key 是可以被替换的数…

Kotlin 语言基础学习

什么是Kotlin ? Kotiln翻译为中文是:靠他灵。它是由JetBrains 这家公司开发的,JetBrains 是一家编译器软件起家的,例如常用的WebStorm、IntelliJ IDEA等软件。 Kotlin官网 JetBrains 官网 Kotlin 语言目前的现状: 目前Android 已将Kotlin 作为官方开发语言。 Spring 框…

硬件SPI读写W25Q64

硬件SPI读写W25Q64 接线图(和软件SPI一样) 使用SPI1,SCK,接PA5;MISO,接PA6;MOSI,接PA7;NSS,可接PA4。 接线图对应:PA5接CLK引脚,PA6…

【数据结构】第十六弹---C语言实现希尔排序

✨个人主页: 熬夜学编程的小林 💗系列专栏: 【C语言详解】 【数据结构详解】【C详解】 目录 1、希尔排序( 缩小增量排序 ) 1.1、预排序实现 1.2、希尔排序代码实现 1.3、代码测试 1.4、时空复杂度分析 1.5、性能比较 总结 上一弹我们…

Cheat Engine.exe修改植物大战僵尸阳光与冷却

Cheat Engine.exe修改植物大战僵尸阳光与冷却 打开Cheat Engine.exe和植物大战僵尸,点CE中文件下面红框位置,选择植物大战僵尸,点击打开 修改冷却: 等冷却完毕,首次扫描0安放植物,再次扫描变动值等冷却完…

【产品应用】一体化步进伺服电机在吊装机器人中的应用

随着工业自动化和智能制造的发展,吊挂式智能巡检机器人逐渐成为许多工业场景中的重要角色。这类机器人不仅能够提升工作效率,减少人工干预,还能在复杂或危险环境中完成巡检任务。在这些机器人的设计与制造中,一体化步进伺服电机扮…

windows环境如何运行python/java后台服务器进程而不显示控制台窗口

1.通常我们在windows环境下使用Java或Python语言编写服务器程序,都希望他在后台运行,不要显示黑乎乎的控制台窗口: 2.有人写了一个bat文件: cd /d D:\lottery\server && python .\main.py 放到了开机自启动里,可是开机的…

【立体几何】如何使用两个正方体(特殊骰子)摆出所有日期1~31

问题 如何使用两个正方体(特殊骰子)摆出所有日期? 解答 下标列举了所有日期 日期十位数个位数011号正方体:02号正方体:02号正方体:11号正方体:1021号正方体:02号正方体:02号正方体:21号正方…

网络安全形势迫在眉睫!云WAF保护私有云安全!

业务上云面临新的WEB安全挑战 目前,所有的组织都在积极地接受企业的“云”,推进数字化变革。在服务云计算和私有云平台构建中,用户除了要面对各种常见的网络攻击,还需要面对虚拟环境下的非授权访问、虚拟机逃逸和敏感信息泄漏等问…

Android中的KeyEvent详解

介绍 在Android中,KeyEvent 是用来表示按键事件的类,可根据对应的事件来处理按键输入,具体包含了关于按键事件的信息,例如按键的代码、动作(按下或释放)以及事件的时间戳,KeyEvent 对象通常在用…

主观评测图生3D之 --- Era3D

文章目录 概述真人测试(一般)动物(猫猫狗狗,不ok)Q版真人(惊艳) 概述 抱抱脸可以直接测试 不过抱抱脸只能够生成多视图图像以及对应的法向图。 评测的话,拿三类我们比较关心的图片…

Linux内存从0到1学习笔记(8.16 SMMU详解)---更新中

写在前面 前面博客已经了解过。SMMU是IOMMU在ARM架构上的实现。主要为了解决虚拟化环境中,GuestOS无法直接将连续的物理地址分配给硬件的问题。对于Hypervisor/GuestOS的虚拟化系统来说,所有的VM都运行在Hypervisor上,每一个VM独立运行一个O…

实战tcpdump4.99.4交叉编译

主要是记录交叉编译的一个坑,不知道为什么网上的教程都没遇到过。 环境 libpcap 1.10.4tcpdump 4.99.4WSL 编译步骤 注意事项 注意解压的时候文件夹名需要是libpcap-1.10.4,由于我是在github直接下载zip的压缩包名是libpcap-libpcap-1.10.4.tar.gz解…

【二】【动态规划NEW】91. 解码方法,62. 不同路径,63. 不同路径 II

91. 解码方法 一条包含字母 A-Z 的消息通过以下映射进行了 编码 : ‘A’ -> “1” ‘B’ -> “2” … ‘Z’ -> “26” 要 解码 已编码的消息,所有数字必须基于上述映射的方法,反向映射回字母(可能有多种方法&#xff…

两个矩阵差异分析

进行两个矩阵的差异分析是常见的数据分析任务。以下是使用R语言进行两个矩阵差异分析的详细步骤。我们将使用一个具体示例来说明如何计算两个矩阵之间的差异。 示例数据 假设我们有两个矩阵 matrix1 和 matrix2,分别代表不同条件下的基因表达数据。 # 创建示例矩…

基于Matlab的车牌识别停车场出入库计时计费管理系统(含GUI界面)【W6】

简介: 在当今城市化进程加快的环境下,停车管理成为了一个日益重要和复杂的问题。城市中的停车资源有限,如何高效利用和管理这些资源,不仅关乎市民出行便利性,也涉及到城市交通拥堵、环境污染等诸多问题的解决。 传统的…

【转】PG 插件大全,留着学习用

转自:PostgreSQL插件_postgresql 插件-CSDN博客 PostgreSQL插件_postgresql 插件-CSDN博客

Denoising Prior Driven Deep Neural Network for Image Restoration

之所以能够检索到这篇论文是想看看该论文是如何利用多尺度相似性解决图像去噪问题,除了摘要和结论,论文中两次提到这个术语。next section是指section 4。然后整个section 4,根本没有提多尺度的事儿,更别说解决了。又看了一下The …

【idea】解决springboot项目中遇到的问题

一、Maven报错Could not find artifact com.mysql:mysql-connector-j:pom:unknown in aliyunmaven解决及分析 报错 创建springboot项目,勾选数据库驱动,springboot版本为3,现在改成了2.7.2,Maven就发生了报错Could not find art…