透过历史的琉璃之窗:古代玻璃制品成分解析--2022年国赛C题获奖论文思考

问题一:数据预处理------>剔除处理无效数据

转化完美成分数据----定和为1

中心化对数比变换------消除定和限制对后续分析的影响

类别量化分析相关性

第1小问------对超过20%的比例期望计数小于5的组别---------Pearson卡方检验法

对不满足卡方前提的组别-------->建立Yates校正卡方检验法

stats.chi2_contingency(data,correction=True)

第2小问----分析统计规律------

均值,最大值,最小值,标准差,变异系数,偏度系数,峰度系数

箱线图------多组连续型数据分布的散布范围及中心位置

第3小问----聚类使得数据呈现 时序关系

建立回归方程--------建立化学成分趋势变换模型

问题二

第1小问------监督学习------>决策树法

  决策树算法的核心如何选择最优划分属性。

精准率,召回率,准确率,F1系数

查准率=正确结果数/识别总数量
  查全率=正确结果数/正确结果的总数

from sklearn.metrics import precision_score    #引入精准率

from sklearn.metrics import confusion_matrix   #引入混淆矩阵

from sklearn.metrics import classification_report    #分类指标的文本报告

#precision精准度/查准率/准确率   recall召回率  f1-sorce F1系数  support为每个标签的出现次数

#avg / total行为各列的均值(support列为总和)

y_true = [1, 0, 1, 1, 0]    #样本实际值

y_pred = [1, 0, 1, 0, 0]    #模型预测值

res = precision_score(y_true,y_pred, average=None)    #求查准率/准确率=TP / ( TP + FP )

res1 = confusion_matrix(y_true,y_pred)             #得出混淆矩阵

res2 = classification_report(y_true,y_pred)       #得到文本报告

print(res)

print(res1)

print(res2)

第2小问----亚类分类

R型聚类法得到----->特征变量------进行Q型聚类

Q型聚类(Qualitative Clustering),也称为硬聚类(Hard Clustering),属于一种将样本划分为簇的聚类方法。该方法的特点是每个样本只能划分到一个簇中,且每个簇之间没有交集。Q型聚类通常采用距离作为相似性度量标准,具体而言,根据不同的相似性度量标准可以分为以下几种:

1. K-Means聚类算法

K-Means聚类是一种基于质心的聚类算法,其过程如下:

首先随机选取k个点作为质心;

然后对于每个点,计算其到k个质心的距离,将该点归为距离最近的质心所在的簇;

接着重新计算每个簇的质心;

重复以上两步操作,直到质心不再发生变化或达到最大迭代次数。

K-Means聚类算法的优点是计算简单、速度较快,但其缺点是对初始质心的选择较为敏感,容易陷入局部最优解的问题。

2. 层次聚类算法

层次聚类算法是一种自底向上(Bottom-up)或自顶向下(Top-down)的聚类方法,其过程如下:

对于每个样本,将其视为一个独立的簇;

计算两两样本之间的相似度或距离,根据相似度或距离构建一个树形结构,即聚类树(Dendrogram);

不断合并聚类树中距离最小的两个簇,直至所有样本被合并为一个簇或达到某个预设的簇的数量。

层次聚类算法的优点是不需要事先确定聚类的数目,且可视化效果好,但其缺点是计算复杂度高,适用于样本量较小的情况。

问题三:决策树分类+Q型聚类法-----交叉检验

敏感度分析

问题四:建立灰色关联分析模型-----关联度值

成分数据

原数据/原数据之和

 中心化对数比变换

量化处理

空缺数据处理

补0处理

卡方检验

卡方分析是一种利用样本数据的实际值与理论值的符合度来判断接受还是拒绝原假设的方法,常用于分析两个分类变量之间的相关性

1.期望计数

皮尔逊卡方

释然比

线性关联

2.Pearson卡方检验

本文对“ ”组采用Pearson卡方检验。检验步骤如下:

Step1)提出假设

原假设H0:相互独立不相关

备择假设H1:有关联。

Step2)构造卡方检验统计量x2

针对类型和表面风化的分析,如下:

分析流程
算法配置
算法: Pearson卡方检验
变量: 分组变量X:{类型};变量Y:{表面风化}
分析结果
Pearson卡方检验是分析两分类变量是否存在显著性差异:显著性P值为0.009***,水平上呈现显著性,拒绝原假设,因此类型和表面风化数据存在显著性差异。

分析步骤
1. 根据列联表的数据情况,分析Pearson卡方检验是否呈现显著性(P<0.05,呈现显著性,拒绝原假设,则说明分类变量X与分类变量Y之间存在显著性差异)。
2. 若Pearson卡方检验呈现显著性,可接着根据效应指标对差异进行深入量化分析。

详细结论

输出结果1:Pearson卡方检验结果

题目

名称

类型

合计

P

铅钡

高钾

表面风化

1

12

12

24

6.88

0.009***

2

28

6

34

合计

40

18

58

注:***、**、*分别代表1%、5%、10%的显著性水平


图表说明:

上表展示了Pearson卡方检验的结果,包括数据的频数、卡方值、显著性P值。
● 若P<0.05,呈现显著性,拒绝原假设,则说明分类变量X与分类变量Y之间存在显著性差异。
● 若P>0.05,不呈现显著性,不拒绝原假设,不存在显著性差异。


智能分析:

Pearson卡方检验分析的结果显示,显著性P值为0.009***,水平上呈现显著性,拒绝原假设,因此类型和表面风化数据存在显著性差异。


输出结果2:交叉列联表热力图


图表说明:

上图展示了热力图的形式展示了交叉列联表的值,主要通过颜色深浅去表示值的大小。


输出结果3:效应量化分析

字段名/分析项

Phi

Crammer‘s V

列联系数

lambda

表面风化-类型

0.344

0.344

0.326

0.25


图表说明:

上表展示了效应量化分析的结果,包括phi、Crammer's V、列联系数、lambda ,用于分析样本的相关程度。
1. 当呈现出显著性差异(前提),结合分析效应量指标对差异性进行量化分析。
2. 效应量化指标反映的是变量之间的相关程度。
3. 根据交叉类型的不同,可以选用不同的效应量指标(交叉类型表示:交叉表横向格子数×纵向格子数)。
4. phi系数:phi相关系数的大小,表示两样本之间的关联程度。当phi系数小于0.3时,表示相关较弱;当phi系数大于0.6时,表示相关较强(用于2×2交叉类型表)。
5. Cramer's V:与phi系数作用相似,但Cramer's V系数的作用范围较广。当两个变量相互独立时,V=0,当数据中只有2个二分类变量时,Cramer's V系数的结果与phi相同(若m≠n,建议使用Cramer's V )。
6. 列联系数:简称C系数,用于3×3或4×4交叉表,但其受行列数的影响,随着R和C 的增大而增大。因此根据不同的行列和计算的列联系数不便于比较,除非两个列联表中行数和列数一致。
7. lambda:用于反应自变量对因变量的预测效果,一般情况下,其值为1时表示自变量预测因变量效果较好,为0时表明自变量预测因变量较差(X或Y有定序数据时,建议使用lambda)。

智能分析:

效应量化分析的结果显示,分析项:表面风化Cramer's V值为0.344,因此类型和表面风化的差异程度为中等程度差异。

参考文献
[1] Scientific Platform Serving for Statistics Professional 2021. SPSSPRO. (Version 1.0.11)[Online Application Software]. Retrieved from https://www.spsspro.com.
[2] 陆运清. 用 Pearson's 卡方统计量进行统计检验时应注意的问题[J]. 统计与决策, 2009 (15): 32-33.

3.Yates校正卡方检验

 针对问题一第二小问

 描述统计量

(1)变异系数

(2)偏度系数

(3)峰度系数

Excel快捷处理:

通过计算结果可知:偏度系数小(大)于零,说明落在均值左(右)侧的数据均偏多; 成分指标的峰度系数大(小)于零说明指标分布相比于正态分布顶部更加尖锐(平坦)或者尾部更加粗(细)

 箱线图

箱线图可反映多组连续性数据分布的散布范围以及中心位置,其中连续性变量为在一定区间范围内可随意取值的变量,且箱线图中箱子的宽度在一定程度上可以反映样本数据的波动程度,因此本文通过箱线图来统计各个化学成分指标的数据值分布特征。

箱线图绘图步骤如下:

Step1)对N个样本数据X1X2 ,...,Xn由小到大排序

Step2)根据排序后的样本数据,找出其中位数X 。中位数为箱子中间的一条线,可反映整体数据分布的平均水平。

Step3)分别计算上四分数Q1和下四分数Q2 

Step4)计算向箱体的长度Q1-Q2

Step5)分别计算出上限及下限。其中箱子的下限为下四分位数,上限为上四分位数。

Step6)绘制出上下限,须触线,箱体,并标明上下四分数以及中位数,最后绘出箱线图。

超过箱子上下方的数据为异常值数据

 针对问题一第三小问

        聚类-----时序关系

         确定风化点

(1)Q型聚类分析

Q型聚类采用离差平方和法,若分类效果好,则同类文物采样点的离差平方和应当较小,各类别之间的离差平方和应当较大。

(2)2类聚类

风化点+非风化点筛选

 建立时序关系

高钾玻璃时序------时段:未风化、轻度风化、中度风化、严重风化

铅钡玻璃时序------时段:未风化、轻度风化、中度风化、严重风化

 基于中心化对数比变换的成分数据预测建模

(1)提取中心元素

平均数是统计学中最常用的统计量,可以用以表明数据的相对集中较多的中心位置,即反映了现象总体的集中趋势

(2)回归方程

拟合算法步骤(重点)

①确认拟合曲线的类型:曲线要满足一定的趋势同时尽可能简单。

使用最小二乘法求出使得曲线误差最小时对应的曲线参数。该步骤可以通过Matlab中的曲线拟合工具箱进行实现,并导出所绘制的曲线图。

拟合优度R2

(3)预测风化点未风化时的化学含量方法

假设回归方程------对拟合曲线平移-----反向预测出未分化前数据

(4)中心化对数比逆变换

使预测值v1,v2,...,vp转化成相应的成分数据x1,x2,....,xp

  1. 预测结果

  2. 结果分析与验证

在主观分析层面

在客观分析层面

  • 问题二模型的建立与求解

 针对问题二第一小问

根据题目分析应对策略,考虑全面周到

 决策树

决策树是一种用于数据分类的方法,它有如流程图一样的树状结构,其中每个内部节点表示在一个属性上的测试,每一个分支节点表示一个测试输出,每个叶子节点表示一类或者类分布。决策树本质是一种自顶向下的逐步构造方法,它在构造的过程中一般采用信息增益度量。信息增益最大表明了数据集在分类过程中能够最大化减小其不确定性,因此ID3在构建算法的过程中所挑选的特征具有更好的分类效果。信息熵(H)以及信息增益(G)可定义如下:

其中P表示随机变量的概率,A表示特征,D代表数据集,H(D)定义为经验熵, H(Y|X)定义为条件熵,H(D|A)表示特征A在数据集D的条件下的经验条件熵。

 决策树分类结果

(1)针对未风化点数据

针对特定数据集,取70%数据为训练集,30%数据为测试集

  1. 针对风化点数据

 R型聚类分析

相似度量

  1. 相关系数

两变量xj和xk的样本相关系数作为他们的相似性度量

  1. 相关系数矩阵求解

皮尔逊相关系数矩阵

相关系数-----度量变量间的相似性

  1. 最短距离法

(4)R型聚类分析结果

(5)Q型聚类分析结果

 针对问题二第三小问

 合理性假设

划分亚类------R型聚类----了解个别变量之间的关系的亲疏程度,也可以了解各个变量组合之间的亲疏程度

敏感性分析

敏感性分析需要从定量分析的角度研究有关因素发生某种变化对某一个或一组关键指标影响程度的一种不确定分析技术。

扰动范围

  • 问题三模型的建立与求解

 针对问题三第一小问

 鉴别属性

决策树分类

 交叉验证

Q型聚类方法

针对问题三第二小问

 敏感性分析

  • 问题四模型的建立与求解

针对问题四第一小问

 灰色关联分析

对于两个系统之间的因素,其随时间或不同对象而变化的关联性大小的量度,称为关联度。在系统发展过程中,若两个因素变化的趋势具有一致性,即同步变化程度较高,即可谓二者关联程度较高;反之,则较低。因此,灰色关联分析方法,是根据因素之间发展趋势的相似或相异程度,亦即“灰色关联度”,作为衡量因素间关联程度的一种方法。

通常可以运用此方法来分析各个因素对于结果的影响程度,也可以运用此方法解决随时间变化的综合评价类问题。

模型的求解:

由于关联度值介于区间[0,1]上,且关联度值越大表示与母序列的相关性越强,关联度越高,意味着子序列与母序列之间的关联性越高,反之越低

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/619541.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用numpy处理图片——分离通道

大纲 读入图片分离通道堆叠法复制修改法 生成图片 在《使用numpy处理图片——滤镜》中&#xff0c;我们剥离了RGB中的一个颜色&#xff0c;达到一种滤镜的效果。 如果我们只保留一种元素&#xff0c;就可以做到PS中分离通道的效果。 读入图片 import numpy as np import PIL.…

51-10 多模态论文串讲—ALBEF 论文精读

今天我们就来过一下多模态的串讲&#xff0c;其实之前&#xff0c;我们也讲了很多工作了&#xff0c;比如说CLIP&#xff0c;还有ViLT&#xff0c;以及CLIP的那么多后续工作。多模态学习在最近几年真的是异常的火爆&#xff0c;那除了普通的这种多模态学习&#xff0c;比如说视…

自动化神器 Playwright 的 Web 自动化测试解决方案

1. 主流框架的认识 总结&#xff1a; 由于Selenium在3.x和4.x两个版本的迭代中并没有发生多大的变化&#xff0c;因此Selenium一统天下的地位可能因新框架的出现而变得不那么稳固。后续的Cypress、TestCafe、Puppeteer被誉为后Selenium时代Web UI自动化的三驾马车。但是由于这三…

逼格满满,推荐一个高效测试用例工具:XMind2TestCase !

一、背景 软件测试的核心是什么&#xff1f;毫无疑问是测试分析和测试用例设计&#xff0c;也是日常测试投入最多时间的工作内容之一。 然而&#xff0c;传统的测试用例设计过程有很多痛点&#xff1a; 1、使用Excel表格进行测试用例设计&#xff0c;虽然成本低&#xff0c;但…

NeRF算法模型简析:从理论到实践的轻度解析以及如何编辑和微调

nerf模型可编辑的&#xff1f; NeRF模型的可编辑性&#xff08;editability&#xff09;指的是能够修改预训练的NeRF模型以改变其生成的场景或对象的某些特征&#xff0c;而不是从头开始重新训练模型。这种编辑可以是改变颜色、形状、纹理或者添加、移除和修改场景中的对象。 在…

java应用CPU过高查找原因

用top查到占用cpu最高的进程pid 根据进程ID找到占用CPU高的线程 ps -mp 60355 -o THREAD,tid | sort -r 用 printf "%x \n" 将tid换为十六进制&#xff1a;xid printf "%x \n" 6036 根据16进制格式的线程ID查找线程堆栈信息 jstack 60355 |grep ebcb -A…

【linux驱动开发】在linux内核中注册一个杂项设备与字符设备以及内核传参的详细教程

文章目录 注册杂项设备驱动模块传参注册字符设备 开发环境&#xff1a; windows ubuntu18.04 迅为rk3568开发板 注册杂项设备 相较于字符设备&#xff0c;杂项设备有以下两个优点: 节省主设备号:杂项设备的主设备号固定为 10&#xff0c;在系统中注册多个 misc 设备驱动时&…

【分布式技术】监控平台zabbix自定义模板、设置邮件报警、导入模板

目录 案例&#xff1a;监控当前登录人数&#xff0c;超过3人触发报警发送邮件 第一步&#xff1a;自定义模板 1、明确想要获取监控数据的命令和脚本 ​编辑 2、在被监控主机上&#xff0c;修改zabbix agent2的配置文件或者在zabbix agent2的配置文件目录中添加以.conf结尾…

三棋先手必胜证明

目录 创作原因 游戏规则 初始状态图 证明过程 先手必胜的证明 失败的博弈树&#xff08;三个多小时的成果&#xff09; 创作原因 这个棋不是网上流行的成三棋&#xff0c;我也不知道这个棋叫什么。由于这个棋是&#xff08;横竖斜&#xff09;连成三个就获胜&#xff0c;…

GBASE南大通用数据库如何检索单行

SELECT 语句返回的行集是它的活动集。单个 SELECT 语句返回单个行。您可使用嵌入式 SELECT 语句来从数据库将单个行检索到主变量内。然而&#xff0c;当 SELECT 语句返回多行数 据时&#xff0c;程序必须使用游标来一次检索一行。在 检索多行 中讨论“多行”选择操作。 要检索单…

虹软人脸识别白屏

1.修改jdk为1.8 2.编译版本ndk修改 ndk {abiFilters armeabi-v7a, arm64-v8a} 3.local.properties增加ndk路径 ndk.dirH\:\\Android\\SDK\\ndk\\21.1.6352462 4.最重要的一步:检查依赖库是否存在前一定要先检查有么有读取本地文件权限,下面的代码即使是放到点击事件的回调…

[AutoSar]BSW_OS 01 Autosar OS入门(一)

目录 关键词平台说明一、Autosar OS 的位置二、Autosar OS 与OSEK三、TASK 关键词 嵌入式、C语言、autosar、OS、BSW 平台说明 项目ValueOSautosar OSautosar厂商vector芯片厂商TI编程语言C&#xff0c;C编译器HighTec (GCC) 一、Autosar OS 的位置 如在[AutoSar]基础部分 a…

RuoYi-Vue-Plus 5.X登录前流程及解密

一&#xff1a;问题 1. 前端传给后端的是一个加密字符串&#xff0c;后端controller层login接口怎么就直接解密了呢&#xff1f; 2. 中间经过什么步骤到达的登录接口呢&#xff1f; 二&#xff1a;个人分析 首先考虑的是拦截器、过滤器、切面AOP&#xff1b; 1. 使用全文搜…

面向对象的三大特性

个人主页&#xff1a;告别&#xff0c;今天 个人专栏&#xff1a;java趣味之旅 ​​​​​​​本专栏旨在分享学习网络编程的学习心得和复习总结&#xff0c;欢迎大家在评论区交流讨论 1. 封装 1.1 封装的概念 面向对象程序三大特性&#xff1a;封装、继承、多态。而类和对象…

计算机msvcp140.dll丢失如何解决,分享3个简单有效的方法

在计算机系统运行过程中&#xff0c;用户有时会遇到一个常见的错误提示——msvcp140.dll文件缺失&#xff0c;这一问题的发生往往会导致部分软件无法正常启动或运行。“针对计算机系统中出现的msvcp140.dll缺失问题&#xff0c;小编将详尽阐述并探讨5种有效的解决策略。每一种方…

基于springboot+html的汽车销售管理系统设计与实现

基于springboothtml的汽车销售管理系统 &#x1f345; 作者主页 央顺技术团队 &#x1f345; 欢迎点赞 &#x1f44d; 收藏 ⭐留言 &#x1f4dd; &#x1f345; 文末获取源码联系方式 &#x1f4dd; 前言 随着汽车市场的快速发展&#xff0c;汽车销售企业面临着越来越大的管理…

【电路电子学】7天速通攻略+笔记

7天是 看视频记笔记刷题的总时长&#xff0c;时间紧迫的同学可以看情况进行缩减。个人认为做题&#xff0c;尤其是解析齐全的题最重要&#xff01; 我校所用教材 《电路与电子学基础》唐胜安 复习总流程 所用材料&#xff08;都可自行找到免费资源&#xff09; 视频知识点讲…

R2机器人加载棋盘与棋子模型,对urdf、sdf的解释(区分srdf)

1、概述 urdf、sdf、srdf文件都属于xml的规范格式&#xff0c;解释分别如下&#xff1a;urdf(unified robot description format)叫做"统一机器人描述格式"&#xff0c;主要目的就是提供一种尽可能通用的机器人描述规范&#xff0c;这样对于机器人的描述就可以互相移…

恭喜:ChatGPT之父与相恋多年的男友结婚,并希望早日生娃。。。

OpenAI CEO Sam Altman与伴侣Oliver Mulherin海边私密婚礼&#xff1a;爱情、事业与人工智能领域的交织 婚礼主持人是奥特曼的兄弟杰克奥尔特曼 壹.媒体流传 在科技界掀起波澜的OpenAI首席执行官萨姆奥尔特曼&#xff08;Sam Altman&#xff09;&#xff0c;近期与他长久以来的…

Opencv实验合集——实验九:姿势估计

在上一章节(相机校准)&#xff0c;你已经找到了相机矩阵&#xff0c;畸变系数等等参数。给出一个图案图像&#xff0c;我们便可以利用上面的信息用于计算其姿势&#xff0c;或者物体在空间中位于何处&#xff0c;比如如何旋转&#xff0c;如何移动等等问题。对于一个平面物体&a…