B题 人工智能范式的物理化学家
- 问题一
- 问题二
- 问题三
- 问题四
- 问题五
- 完整代码与文档获取
B题思路详细解析分享给大家,还会继续更新完成具体的求解过程,以及全部的代码与技术文档,都会直接给大家分享的哦~需要完整代码直接看到最后哦
问题一
针对问题一,题目明确要求进行数据预处理,并要求探讨y2和分子id之间是否有函数关系,以及尝试通过分子id预测y2。
- 首先,可以对数据表“data”进行遍历,寻找是否存在缺失值;并使用拉伊达准则等方法判断数据集中的异常值。对于缺失值与异常值,可以之间使用均值进行填补,也可以基于其余信息完整的特征构建预测模型,对缺失值及异常值进行填补。
- 对于y2和分子id之间的函数关系,初步绘图发现随着分子id的增大y2有规律地上升,可以认为分子在进行id编号时参考了y2的值,或者id编号所参考的物理化学量与y2之间存在内部联系。
- 在这里可以考虑使用线性/非线性回归的方式对两者之间的函数关系进行求解。若使用线性回归,则直接使用最小二乘法进行求解即可;若最求更高的拟合优度使用非线性回归,可以在确定拟合函数后通过智能优化算法等优化方法对参数进行求解。由此,即可基于该函数关系通过分子id对y2进行预测。
问题二
针对问题二,要求选择不超过10个特征对y1进行预测。
- 在这里可以构建一个机器学习模型以实现多指标的融合预测。同时,题目要求所选的指标数量不能超过10个,故需要进行特征工程对特征进行选取。
- 在这里可以考虑建立GABP神经网络模型,基于遗传算法对特征进行选取,并利用反向传播公式计算适应度。然后将选出的特征输入BP神经网络中对y1进行预测即可。
问题三
题目要求分析分析y3与y1y2,x1x100之间的函数关系,建立数学模型预测y3,研究y1y2,x1x100中,哪些特征指标对y3预测结果的影响较大。
- 在这一问中,可以先利用相关性模型对特征的相关性进行探讨,然后基于第一问中所用的线性/非线性回归模型求解出对应的函数关系式。
- 然后可以考虑对输入模型的特征进行变换,求解出当加入/舍去某个特征时对于预测准确性的影响,以此来确定指标灵敏度以及影响程度。
问题四
在问题四中,求解的逻辑大体上于第三问类似。与别在于,有能力的同学可以基于肌理对神经网络模型进行优化,使网络更适用于本文所求解的问题。例如,将相关的物理模型融入神经网路的传播过程中。
问题五
题目要求在不局限于特征选择的情况下,提高模型的预测精度。并重新对y1,y3以及类别class进行预测。
- 在这一问中,需要对预测模型进行改进,且不能局限于问题二中已经进行的特征选取。
- 在这一问中,可以考虑实用集成模型对指标进行预测,集成模型相比于单一的神经网络,往往会有更高的预测准确性以及鲁棒性。
完整代码与文档获取
需要长三角助攻资料,关注【云顶数模】公众号,全部无偿分享哦~