如下为C君的2023高教社杯全国大学生数学建模竞赛(国赛)选题建议,
提示:DS C君认为的难度:C<B<A,开放度:B<A<C 。
D、E题推荐选E题,后续会直接更新E论文和思路,不在这里进行选题分析,以下为A、B、C题选题建议及初步分析
A题:定日镜场的优化设计
A题是数模类赛事很常见的物理类赛题,需要学习不少相关知识。一些数值计算的部分,应该还需要用到运筹学的多目标规划。
这里简单提一下第一问的思路,问题一要求计算定日镜场的年平均光学效率、年平均输出热功率和单位镜面积年平均输出热功率。针对这个问题,我们可以采用以下步骤和算法解题:
1确定定日镜位置:根据给定的定日镜中心位置,在圆形定日镜场中确定每个定日镜的坐标。
2计算太阳高度角和方位角:根据地理位置和日期时间,使用公式计算太阳的高度角和方位角,以获取入射光线的方向。
3计算法向直接辐射辐照度:利用所得到的太阳高度角和方位角,结合地球上垂直于太阳光线的平面单位面积上接收到的太阳辐射能量的公式,计算法向直接辐射辐照度。
4计算定日镜的光学效率:利用光学效率公式,分别计算阴影遮挡效率、余弦效率、大气透射率和集热器截断效率,并将它们相乘得到定日镜的光学效率。
5计算定日镜场的输出热功率:根据法向直接辐射辐照度和定日镜的光学效率,计算每个定日镜的输出热功率,并将它们相加得到定日镜场的输出热功率。
6计算单位镜面积年平均输出热功率:将定日镜场的输出热功率除以定日镜总面积,得到单位镜面积年平均输出热功率。
在解题过程中,可能需要使用数值计算和优化算法来处理复杂的计算和问题求解。例如,可以使用数值积分方法来估计法向直接辐射辐照度,使用迭代或优化算法来确定定日镜的最佳位置和尺寸等。
这道题专业性较高,后续账号会在出本题具体思路分析时,再进行具体分析与建模。开放程度低,难度适中。但这类赛题通常门槛较高,小白/非相关专业同学谨慎选择。C君建议在最后对对答案,答案的正确与否会对最终成绩产生较大影响。建议物理、电气、自动化等相关专业选择。
B题:多波束测线问题
今年的国赛题目很奇怪,可能是因为chatgpt等一系列AI工具的普及,B题与A题一样,均为物理类题目,这两道题目的类型很相似。往年一般会有一个趣味性一点的题目。但B题可以明显看出是对数学、统计学相关专业较为友好。B题需要用到不少模拟仿真相关算法,推荐利用lingo进行求解。
这里就不再进行更细致的分析了,我们会在晚上发布相关具体思路,可以关注下。
这道题存在最优解,开放程度低,难度适中。大家选择此题最好在做完后,线上线下对对答案。推荐统计学、数学、物理等专业同学选择。
C题:蔬菜类商品的自动定价与补货决策
这道题就是很多同学在训练的时候经常做的题目类型了,属于大数据、数据分析类题目,同时也是团队擅长的题目。需要一定的建模能力,和其他赛事赛题类型类似,建议大家(各个专业均可)进行选择。
题目需要建立数学模型,大家可以使用评价类算法,比如灰色综合评价法、模糊综合评价法对各个指标建立联系。
第一问前大家需要对数据进行分析和数值化处理,也就是EDA(探索性数据分析)。对于数值型数据,大家用归一化、去除异常值等方式就可以进行数据预处理。而对于非数值型数据进行量化,大家可以使用以下方法:
1标签编码
标签编码是将一组可能的取值转换成整数,从而对非数值型数据进行量化的一种方法。例如,在机器学习领域中,对于一个具有多个类别的变量,我们可以给每个类别赋予一个唯一的整数值,这样就可以将其转换为数值型数据。
2独热编码onehot
独热编码是将多个可能的取值转换成二进制数组的一种方法。在独热编码中,每个可能取值对应一个长度为总共可能取值个数的二进制数组,其中只有一个元素为1,其余元素均为0。例如,对于一个性别变量,可以采用独热编码将“男”和“女”分别转换为[1, 0]和[0, 1]。
3分类计数
分类计数是将非数值型数据转换为数值型数据的一种简单方法。在分类计数中,我们根据某些特定属性(比如学历、职业等)来对数据进行分类,然后统计每个类别的数量或频率。例如,在调查问卷中,我们可以对某个问题的回答按照“是”、“否”和“不确定”三个类别进行分类,并计算每个类别的数量或频率。
4主成分分析
主成分分析是将多维数据转换为低维度表示的一种方法。在主成分分析中,我们通过找到最能解释数据变异的主成分来对原始数据进行降维处理。这样就可以将非数值型数据转换为数值型数据。
而第一问建议大家使用一些可视化方法,可以使用常见的EDA可视化方法:
l 直方图和密度图:展示数值变量的分布情况。
l 散点图:展示两个连续变量之间的关系。
l 箱线图:展示数值变量的分布情况和异常值。
l 条形图和饼图:展示分类变量的分布情况。
l 折线图:展示随时间或顺序变化的趋势。
l 热力图:展示不同变量之间的相关性。
l 散点矩阵图:展示多个变量之间的散点图矩阵。
l 地理图:展示地理位置数据和空间分布信息。
而第一问可以给小白先提示下,后续我们还会更新具体的每问思路。第一问是需要我们做相关性分析,看那几个指标之间的相关系数是否高,如果高则代表影响较大,低代表影响较小。这里可以用热力图进行绘制,从而可视化影响程度。另外,对于分布规律,我的建议是简单一点做,就用统计描述:计算每个蔬菜品类及单品的销售总量、平均销售量、最大销售量和最小销售量等统计指标,以了解它们的整体情况。
如果可以的话,也可以用聚类算法:根据蔬菜品类或单品的销售特征,可以使用聚类分析方法(如K-means聚类)将其划分为不同的群组,进一步了解不同群组之间的销售量分布规律。
由于这篇是选题建议,详细思路可以看我的后续文章/视频。就不赘述了。数据集怎么分析,可视化代码什么的,后续会更新。这道题目开放度较高,难度较易,是本次比赛本科组获奖的首选题目。推荐所有专业同学选择门槛较低且开放度也相对较高。
有关思路、相关代码、讲解视频、参考文献等相关内容可以点击下方群名片哦!