2024 年(第 17 届)中国大学生计算机设计大赛大数据主题赛“数据解读乡村发展”赛题已于和鲸平台正式开赛,一月来,已有来自全国超百所高校的优秀本科生积极响应大赛号召完成报名。
为进一步使广大师生对于赛题主旨形成更清晰的认知,同时拓宽参赛答题思路,3 月 1 日,和鲸作为大赛协办方特邀中国人民大学数据工程与知识工程教育部重点实验室范举教授,以线上直播培训的形式进行了详尽的赛题讲解。为将范教授的培训内容辐射更多参赛师生,现特发布本篇文字实录,文末更有培训视频回放及往届优秀选手经验分享直播预告,敬请参与。
感谢提供此次交流机会,本次交流的核心是对赛题进行解读。我将与各位分享三个关键点:首先,赛题本身希望大家做什么;其次,作品应该包含哪些核心组成部分,也就是作品提交的具体要求;最后,也是大家普遍关注的,大赛评审作品的过程中会侧重哪些关键点。现在,我将从赛题出发,逐一阐述这三个基本问题。
赛题希望大家做什么
首先,是对赛事的基本介绍,在场的教师、学生对于大数据主题赛应该并不陌生,主题赛至今已经成功举办了三届,在这三届中,无论是参与人数、作品数量还是获奖作品数量,均呈现出显著的增长趋势。在此,我想进一步强调大数据主题赛的特点,其与大数据实践赛,或其它使用计算机技术完成模型或作品的赛事略有不同,大数据主题赛更侧重于“分析”,且具有明确的主题性。主题赛为参赛者提供一个主题及与之相关丰富数据集,期望参赛者围绕该主题撰写分析报告;参赛者需从所提供的原始数据中提炼信息,并揭示数据内部蕴含的规律,或发现解决特定问题的关键要点。因此,大赛提供数据集及统一的开发环境都是为了让参赛者能够更专注于问题的切入、分析及解决。
探索数据、发现问题
这里就点出了以下三个关键要点。首先,是需对数据进行深入探索并发现问题。
以本次赛题“数据解读乡村发展”为例,其核心目标是希望引导参赛者聚焦“乡村发展”这一相对宽泛的主题,采用跨学科、多维度的视角制定有针对性的策略,自选维度撰写出大数据分析报告。既往实践中,我们常发现有参赛者将大赛所提供的所有相关数据集进行下载,依次利用数据可视化手段生成线型图、柱状图、柄图等各类图表,随后进行看图说话,比如,某数据集具有某几个特点,呈现出一个逐年增长或下降的趋势——参赛者认为这已经构成了一份完整的数据分析报告——但这种做法实际上是并不充分的,这也是大赛强调探索数据并发现问题重要性的原因,参赛者应在主题内寻找合适的选题切入点。
为了帮助参赛者更好地理解这一点,我们提供了一些可供参考的思考维度,例如,乡村建设。乡村建设是实施乡村发展战略的重要任务,其中会存在诸多问题,如土地资源利用效率低、生态环境问题或乡村美誉问题——这些具体的维度可以帮助参赛者探索更明确的问题。
这里另外给大家举一个例子,最近我在广播中听到有关北京老旧小区加装电梯的新闻,新闻提到将制作加梯地图,通过该地图可以具体分析,哪些小区已具备加装电梯的条件并已提出申请。这个案例或许切口并不大,但通过数据分析,可以以点带面揭示更广泛的社会问题。
除了乡村建设,还可以关注乡村发展、乡村治理及乡村公共服务。我们希望参赛者避免选择过于宽泛的主题,往年的评审中,常发现参赛者提出的主题过于宽泛,最终大概率会造成结论的言之无物。综上,参赛者应在探索数据的过程中,逐步聚焦到具体问题,并提出自己的思考维度。
运用合理的数据分析方法
第二点,我们期望参赛者能够运用合理的数据科学方法。例如,大赛指定的和鲸平台主要基于 Python / R 语言生态,建议参赛者使用 Python 或 R 语言进行数据探索及分析,并得出一些量化的结论——其中的核心在于,从数据出发、以数据为驱动。
很多时候,我们注意到一些参赛者虽然选题出色,但并不能将所研究的问题转化为数据层面的问题。所谓数据层面的问题,举例来说,某参赛者具备良好的数据建模能力,当他想要进行统计性或描述性数据分析时,会将所研究的问题转化为一个统计的查询或相关描述性分析的语义,以 Pandas 为例,就可能涉及聚合查询或数据透视表。对于建模,无论是回归模型还是一些更为复杂的模型,都需要将他研究的问题转化为一个模型的输入及输出。希望大家都能掌握合理的数据科学方法、深入分析,而非浮于表面,使用其它工具进行主观阐述。
结论应言之有物、避免空洞
第三点,关于如何分析数据并得出结论。部分参赛者的选题与切入点都很不错,数据及数据科学方法的运用也相当得当,整个数据分析过程无懈可击,然而,在评审他的结论时,我们发现,即便不进行数据分析,也能得出相同的结论——这正是所谓的“听君一席话,如听一席话”。因此,我们希望参赛者能够揭示那些不为他人所知或未被他人意识到的结论,这些结论通常具有“反常识”或“反心理预期”的特性,这一点至关重要。
回到乡村治理的议题,人们其实早已普遍知晓一些宏观结论,例如,村庄空心化、人口老龄化或留守儿童问题——这些都是众所周知的现象,但我们期望参赛者能够通过数据分析,揭示更深层次的矛盾及关键点,这样的结论不仅具有启发性,也更容易引起他人共鸣。
小结
总结来说,针对“数据解读乡村发展”的赛题,参赛者应当关注以下三个要点:首先,应深入探索数据,通过数据探索发现具体且有价值的问题,大赛的评审标准之一,便是看你的问题是否具有明确性及价值性,此处需要注意,虽然大赛提供了四个思考维度,但这并不意味着参赛者必须在这些维度中择一作答,也不意味着回答了这些问题就能够在评审中获得优势,题目说明也已明确提到了“思考维度包括但不限于”;其次,主题赛不同于文科性质的竞赛,不仅仅是单纯撰写一份报告,参赛者应将所研究的问题转化为数据科学层面,或计算机科学层面上的问题,并以合理的方式进行求解;第三,关于得出结论,大家应回归本真,力求发现他人未曾注意到的结论。
整体来讲,以上就是关于赛题本身的基本介绍。
关于数据集的使用
主题赛的另一特点是提供数据集,参赛选手必须选取所提供的一个或多个数据集作为基础数据进行分析。常有参赛师生会询问,为什么必须选择给定的数据集,此处的核心要点在于,大赛希望通过这种方式引导参赛者做到以数据为中心、确保大家所选取的数据集是相对优质的。尽管如此,在大部分情况下,大赛所提供的数据集并不能够完全覆盖大家个性化的研究需求,这时,参赛者可以补充其它数据集以丰富自己的分析内容,事实上,数据间的关联分析可能会揭示出意想不到的结论。
大赛所提供的数据集大部分是相对宏观的数据,同时,也提供了一些公开论文数据及年鉴数据作为参考。目前,数据版权及相关权属关系相当重要,参赛者应该重视数据来源,在按照指示完成数据申请后,部分纯公开数据可直接在和鲸平台上进行访问,而在提供完整数据及数据描述时,则必须注明数据来源。
作品提交要求
接下来,我将重点介绍大赛的作品提交要求。前文已阐述了赛题本身对于大家的期望,现在讨论的是最终需要交付的内容,主要包含以下两方面:
主题分析报告
首先,是数据分析主题报告,参赛者应围绕特定的切入点撰写报告,运用数据思维去解释社会现象、解决社会问题,报告应以 PDF 的格式进行提交。
针对主题报告,为大家提供一个参考示例,实际上,每年的赛题讲解都会提及这个例子,它来源于 20 年人大同学进行的一次数据研究。每次在介绍这个例子的过程中,常有同学提问,最终的数据分析主题报告是否应该以此作为模板?实际上并非如此,参赛者可以以自己的方式提交作品,主题赛并未设置固定的报告模板,提供此示例,只是为了让参赛者了解,大赛所期望的主题报告应该是一个怎样的形态。
示例中的报告将主题聚焦于疫情早期求助者的数据画像,通过这份报告,我们可以观察到几个关键点。首先,报告展示了作者探索数据并发现问题的过程——在疫情早期,众多求助者在互联网上发布求助信息(实际上,在大部分公共事件中,例如暴雨或其他突发事件,人们常通过社交网络寻求帮助,这种求助方式,即报告研究的核心问题,并不局限于疫情这一单一的健康事件),而通过对数据的探索,作者逐步明确了具体的问题点,例如,在疫情这一事件的探索中存在多种分析维度,而他选择了一个特定群体,旨在为其构建数据画像。这实际上是一个全新的切入点,因为在公共事件中,利用社交媒体求助的人群特征在此前其实并不为人所知,他们的身份、共同特征、诉求以及这些诉求的满足方式都是不清楚的,这也是这份报告所研究问题的出发点。在确立目标后,报告进一步将问题划分为不同的维度,例如年龄问题,求助者的诉求问题,以及空间、地理位置相关的问题等。
由于这是来自 20 年的一份作品,现在看来,报告中所采用的数据分析方法或许已不再新颖,我们期望参赛者能够运用更先进、更好的的方法及手段进行数据分析。最终,这份报告通过分析得出的核心结论是:社交媒体上的求助者并非传统意义上的弱势群体,他们可能是任何人,包括你也包括我——这就是他的关键性结论。此外,报告内容还与当时当地的新闻媒体进行了一些联动,例如探讨“个体叙事淹没于宏大话语中”等议题。
这份研究报告采用了跨学科的视角,这也是我们鼓励参赛者应该具备的一种能力。乡村发展这一议题涉及多个学科领域,在座的教师及学生,如果你们的参赛队伍属于一个跨学科组合,或是你们的学校在相关领域有所建树,那么将不同学科的视角融合在一起,可能会形成更为出色的研究思路。
数据处理源程序
作品提交的第二部分为数据处理源程序,究其原因,是评审要求主题报告中所有关键的数据分析步骤必须具备可复现性,这也是大数据主题赛另一个鲜明的特点。我们常说“一言不合上 code”,大家必须确保所得出的结论不是从“空气”中来的,而是真正从数据分析方法中得来的——从技术应用的角度描述数据来源、数据处理及数据分析方法,另外,分析报告中的分析结果(包括并不限于图表、统计数字等)也都应在程序源代码注释或说明中列出详细的分析步骤,否则相应结果不会计入作品评审中。
和鲸平台有提供一个示例,向参赛者展示主题赛对数据处理源程序的要求,当然,大家不必完全依照示例,也不必将其作为模板,只是应确保源程序与主题分析报告之间存在对应关系。示例的源程序中包含了数据的初步分析及一些基础信息统计,例如年龄相关统计、词频相关统计等,出于版权考虑,其中并未包含具体代码,而在作品的实际提交中,参赛者需附上完整代码及代码运行结果,且应确保运行结果与报告中的核心结论保持完全一致。评审过程将包含一项前置审查,以验证作品的可复现性。
最后,再次强调数据集提交的重要性。参赛者需将源程序中所有使用到的数据集上传至和鲸平台,由于数据集的缺失可能导致源程序无法在平台上完成在线运行,而评审过程主要是通过在线运行确认作品的可复现性,因此这一步骤至关重要。
以上,就是大赛的作品提交要求。
四大评审维度
最后,我主要再对评审维度进行总结。
再次强调,在正式评审之前,大赛将对参赛者所提交的报告及最终的数据处理源程序进行前置审查,以确认作品的可复现性,如果某些数据分析步骤无法得以复现,该作品将不会进入后续的评审环节,影响相对比较大。
就作品本身而言,主题赛评审主要依据四个维度,建议参赛者予以重点关注。首当其冲便是作品主题,核心要点在于选题的新颖性及整体作品的意义所在——作品是否围绕“乡村发展”这一主题确立一个明确的研究课题,随后进行深入探讨——这一点至关重要。
其次是整体分析逻辑,参赛者在破题后,应为主题报告构建一个合理、具有逻辑性且深入的分析框架。既往实践中有一些参赛者掌握了丰富的技术手段,不仅能进行浅层的描述性统计分析,更能运用一些相对复杂的模型进行预测性分析,甚至,大家也可以开发一些新的算法,以提升模型精度及效果。这一维度主要关注参赛者主题分析报告的整体框架,即所构建的 framework 是否能够高效地解决问题、进行合理的分析及求解。
第三个评审维度主要为技术实现手段。在分析作答的过程中,所使用到的原始数据集往往是不完整的、有限的且存在错误的,直接使用未经处理的原始数据是不妥当的,大家应当对数据执行适当的预处理步骤。近年来,我们观察到参赛者对于数据预处理的重视程度有所提高,遥想首届大数据主题赛,许多参赛者都直接使用了原始数据而忽视了其中存在的缺失及错误,导致最终结论与常理大相径庭,随着时间的推移,参赛者开始广泛关注数据的质量问题,尤其是在进行多源数据的联合分析时,应当更加注重数据的预处理工作。
评审的第四个要点为报告及相应结论的撰写。报告结论应当能够产生真正的数据洞察及信息增量,报告本身应当能够揭示数据中隐藏的重要信息,并且这些信息应具有一定深度,同时,报告的撰写应具有一定逻辑性,清晰有效地叙述整个故事,并以报告的形式对数据信息进行良好的呈现。
以上,是对于赛题的整体解读。
点击右侧链接即可查看【范举教授完整版赛题讲解视频回放】,该回放同时包含和鲸为选手培训平台使用、参赛流程等相关事宜(报名参赛后方可查看,建议 pc 端访问)。
2024.3.8 周五 14:00-15:00,和鲸特邀 2023 年(第 16 届)中国大学生计算机设计大赛国赛一等奖选手,聚焦跨学科参赛分享往届经验(东华大学王文正:非代码类专业如何获得数据科学比赛一等奖;华东师范大学 Karelin:社科类数据分析研究应该如何开展),欢迎有意参与直播培训的师生点击右侧链接【完成培训报名】。
“以赛促学、以赛促教、以赛促创”,和鲸致力于为参赛师生提供多层面、多角度、全方位的工作支持,作为协办方,衷心期待本届中国大学生计算机设计大赛能够涌现出更多的优秀作品。
赛事相关咨询、答疑需求欢迎点击右侧链接【加入赛事社群(微信端打开)】。
主办:中国大学生计算机设计大赛组委会
承办:上海对外经贸大学、东华大学、华东师范大学
协办:中国人民大学、上海和今信息科技有限公司