文章目录
- 1.题目说明
- 2.我对于这个题目信息的理解
- 3.优秀论文学习
- 3.1摘要
- 3.2相关的算法模型
- 4.总结
1.题目说明
今天阅读的这个文章来自于这个2023年的这个美赛的这个C题的论文;
我们的这个题目可以到网上去找,这个还是比较容易找到的,大致就是进行这个相关的预测吧
我们的这个数据文件里面的这个内容就是我们的这个不同的模式下面的这个
2.我对于这个题目信息的理解
首先就是下面的这个图片:我们的这个过程就展示了这个游戏的玩法,例如这个第一行里面的这个表示的就是这两个字母在我们的这个正确单词里面是存在的,这个位置不对;
接下来我们对于这个位置进行调整,这个位置是对的的时候这个字母快就会显示成为这个绿色的;
其次就是下面的这个数据图:表示的就是这个数据结果在网上是存在多少份的,这个现实的案例就是42237份,但是这个困难模式的就是3685份;
下面的这个比率我没看的很明白,我觉得可能就是一次通关,2次通关的这个人数的比率,以及这个始终没通关的这个人数的百分比吧;
下面的这个就是我们的这个题目的要求了:
1)开发模型对于这个现象结果进行解释,并使用我们的这个魔性对于这个具体的某一天里面的这个数据进行预测;
2)就是开发模型对于未来日期里面的这个数据报告,就是对于未来某一天的用户多少次猜出来这个单词的比例的数据报告结果进行预测;
3)然后就是根据这个难度进行划分,使用我们的这个模型对于这个分类的准确性进行判断;
3.优秀论文学习
说实话,这个论文写的我自己没看的很懂:
3.1摘要
在数字时代,语言往往通过缩写、表情符号和语音消息传达。然而,《纽约时报》提供的Wordle游戏提供了一个回归语言基础的机会。因此,我们对Wordle的结果进行了数据分析。
首先,我们建立了一个GRU预测模型,以预测2023年3月1日报告结果的数量。该模型使用了有效的门控循环单元(GRU)算法。因此,训练集对测试集的预测相对误差率是2.1569%,相对RESE为6.4957%,表明模型预测具有较高的准确性。2023年3月1日报告结果数量的预测区间为20367 ± 2.01569%。
其次,我们对单词属性和分数进行了数据分析,分数定义为得分百分比。然后,我们定义了单词的四个属性:词频、字母频率总和、字母重复模式(2/3或无),以及主要词性。
对于前两个属性,我们进行了与变量“得分”的回归分析。fword与得分之间的皮尔逊相关系数为-0.3165,fletter与得分之间的相关系数为-0.4005。rep和pos可以用于对单词进行分类。箱线图结果显示,rep的中位数差异为0.13004,而pos仅为0.05973。因此,我们认为fword、fletter和rep可以影响得分百分比,而pos则不能。
第三,我们开发了GSRF预测模型,以预测2023年3月1日EERIE的1到X的得分百分比。网格搜索随机森林(GSRF)算法是通过使用最佳超参数组合改进的随机森林算法。我们选择了fword、fletter和rep作为模型的输入参数。模型的训练结果显示MSE为20.70641,MAE为3.24388,表明模型具有良好的预测性能。(表10)EERIE的预测结果为(1,7,23,30,23,13,3)。此外,我们通过分别向fword和fletter添加高斯噪声进行了敏感性分析,结果显示模型的敏感性较低,因此非常稳定。
第四,使用==K-Means++==进行了难度率分类模型。我们首先定义了每个单词的难度日期δ。EERIE的预测分布难度率为0.35916。然后,我们使用K-Means++分析每个单词的δ,并获得了五个难度级别(表11)。EERIE被归类为第三级。最后,我们将模型的分类与部分采样单词的手动难度评分进行了比较,匹配率为93.33%,确认了模型的准确性。
最后,我们探索了另外两个数据特征。之后,我们根据稳定的模型为《纽约时报》的填字游戏编辑撰写了一封信。
关键词:GRU;回归分析;箱线图分析;GSRF;K-Means++
3.2相关的算法模型
下面的这个论文内容里面的这个GRU我是没有听说过的,但是这个时间序列分析我略有了解,可能是一个著名的算法,可以了解一下,学学;
GRU(门控递归单元)是一种递归神经网络(RNN),通常用于时间序列分析。
用于时间序列分析。它具有与 LSTM(长短期记忆)架构类似的特性,但计算速度通常更快。
GRU 架构背后的主要思想是有两个门:复位门和更新门、
这两个门控制网络中的信息流。重置门决定应遗忘多少之前的隐藏状态,而更新门则决定应向当前隐藏状态添加多少新输入。
下面的这个就是实现的这个方法使用的就是pytorch总金额个模型,划分这个测试集合训练集合,这个是常规操作,这个大致可以看懂;
在Python丰富库的支持下,我们选择使用PyTorch提供的GRU模型。PyTorch是一个基于Python的机器学习库,其独特之处在于动态计算图,这与静态计算图不同。动态计算图可以在运行时进行修改,这意味着模型可以根据我们的需求进行调整。这对于处理可变长度的序列数据非常有用,并且非常适合预测我们需要的报告结果数量。在PyTorch中,我们可以利用torch.nn.GRU类轻松构建和训练GRU模型,并使用该模型进行预测。我们使用了从2022年1月7日到2022年12月31日的每日“报告结果数量”时间序列数据的80%作为训练集,剩余的20%作为测试集用于我们的GRU模型。测试集上的预测结果可视化如图4所示。
下面的这个就是进行这个误差的分析,使用的是这个均方根误差,之前在这个机器学习里面略有了解,但是这个公式没讲过,这个对于图像的说明,也可以学习一下;
下面的这个聚类的方法的这个具体的描述,这个和之前学习的这个二维空间里面划分的那个机器学习的思想是很像的;
K-Means聚类算法是一种常用的无监督机器学习算法,用于将数据划分成若干类别。它预先指定初始的聚类数量和初始聚类中心,并根据样本之间的距离大小将样本集划分为不同的聚类。使用欧氏距离作为数据对象之间相似性的度量,相似性与数据对象之间的距离成反比。相似性越大,距离越小。根据数据对象与聚类中心之间的相似性,不断更新聚类中心的位置,并持续减少聚类的平方误差和(SSE)。当SSE不再变化或目标函数收敛时,聚类结束并获得最终结果。
下面的这个就是进行的灵敏度的分析,分别对于这几个属性进行分析:最后就是一些这个参考文献和这个相关的这个模型的优缺点了;
4.总结
我的这个第一次阅读这个英文的优秀论文,主要是为了这个亚太进行准备,确实这个英文的这个论文的阅读是有难度的,而且这个文章里面使用的这个相关的这个模型和算法,对我我目前的这个水平而言,还是遥不可及的,可能是这个论文选择的时候选的太高了,但是对于这个一些问题,常用的这个方法,可能也会为我的这个接下来的这个备战指明这个学习的方向吧;
例如这个聚类里面的这个kmeans我了解过,但是这个++不了解,可能就是一个改进的版本呢,还有这个灵敏度分析,以及这个模型的评价之类的都是我们的数学建模的传统思路,万变不离其宗;
例如这个聚类里面的这个kmeans我了解过,但是这个++不了解,可能就是一个改进的版本呢,还有这个灵敏度分析,以及这个模型的评价之类的都是我们的数学建模的传统思路,万变不离其宗;
路漫漫其修远兮,数学建模之路,任重而道远,通过这次的学习,可能会知道一些这个相关的论文写作格式之类的,但是这个论文目前对于我而言,跨度太大,后面可能会选择合适的论文进行深入学习,比赛的时候进行模仿;