导读
在 2025 年第 18 届中国大学生计算机设计大赛大数据主题赛“科技创新与社会变革”赛道的第二场赛事培训中,北京信息科技大学计算机学院副教授李莉老师,作为多届国赛获奖作品指导老师,向大家分享了在指导学生参赛过程中积累的心得与感悟。
李莉老师分享的内容涵盖了指导学生参赛的全流程规划、日常助力学生 “备赛” 的方法,以及对学生作品成果的总结与反思。我们整理了老师的分享实录,期望能够为各位参赛选手及指导老师提供有益参考。
赛道系列培训回放,您可进入和鲸社区赛道主页观看,以便更全面深入地学习相关内容。
分享嘉宾
李莉
北京信息科技大学计算机学院数据科学与大数据技术系副教授,硕士生导师,北京大学访问学者。博士毕业于中科院自动化研究所模式识别国家重点实验室。北京信息科技大学优秀主讲教师,青年骨干教师。
2024年(第17届)中国大学生计算机设计大赛国赛三等奖指导老师,2023年(第16届)中国大学生计算机设计大赛国赛二等奖指导老师,2022年(第15届)中国大学生计算机设计大赛国赛二等奖指导老师。
以下是实录整理内容
★ 目录 ★
赛前准备与团队建设
日常教学以赛促学
参赛技能融入课程
分组大作业
作品常见问题与改进建议
逻辑一致
可视化不当
AI工具滥用
总结与寄语
从 2021 年本赛道设立开始,我便带领学生参与,到今年已经是第五届。在这期间,我深切感受到参赛选手的实力在逐年攀升,赛事的竞争也愈发激烈。
同时深刻体会到的是,这项赛事对于学生未来发展也是有很大帮助的。以我自己所指导的获奖学生为例,学生在比赛中积累的数据分析方法、思路与经验,对考研、保研还是就业以及毕业论文设计等,都打下了很好的基础。因此,我衷心希望大家踊跃参赛,并且能够坚持不懈地参与下去。
一、赛前准备与团队建设
整个参赛历程分为赛前、赛中、赛后三个阶段,我把这三个大阶段又进一步细分成了若干小阶段:
赛前
赛前主要是动员与宣传。比赛的过程中我正好在负责人工智能,Python、数据挖掘相关的课程教学工作,就鼓励同学们把这次比赛当成课程中的一项任务来参与,提高大家的积极性。
赛前组队时,要保证团队的分工职责明确。指导老师可以指定队长人选,队长的专业技术不一定要非常强,但是需要具备比较优秀的表达能力和组织协调能力,能够有效沟通并组织团队成员们完成各项工作。
赛中
如果队伍中偏文科的同学比较多,我会尽快给到同学们一个 baseline 帮助他们更快地上手,也能打消他们的畏难情绪。其实到后面大家都会发现,技术并不是难点所在,反而明确比赛的思路,找到问题的切入点更加至关重要。
过程中,指导老师也能发现有些团队可能并没有认真参赛,报名只是“试试水”,所以我们要进行队伍选拔,筛选出选题具有特色、具备持续执行能力、能坚持下来的团队,通过帮助他们梳理比赛思路、打磨 PPT 内容、进行内部反复演练等方式提升备赛质量。
赛后
赛后我也会带领同学们对比赛进行复盘,总结成功的经验与不足之处,以在下一届的比赛中改正。
二、日常教学以赛促学
将参赛技能融入课程
在日常教学过程中,我是会有意识地将比赛中需要的一些代码技能融入至课堂,包括编程技能,常用的算法知识等。
- 比如编程方面,Pandas 可以帮助学生在比赛中快速开展数据分析,因此我会在课堂上教授一些基本的技能,那他们在比赛中遇到就不会再发怵了;可视化方面平时会给同学们分享一些常用的包和工具;
- 在上人工智能方面的课程时,我也会给大家灌输一些常见的算法,比如 Prophet 、LSTM ,提供一些开源工具给大家学习;文本挖掘方面,词云图、TF-IDF、LDA主题分析现在已经算是“标配了”;
- 这样有一个好处是:同学们日常学习如回归分析的课程时,有时会比较困惑到底怎么运用,那比赛就能让他们把所学的知识付诸于实践,也有助于提高学生的专业素养和对自己学科知识的理解。
另一方面,我再强调的一点是,相较于代码的教学来说更为重要的,是如何结合领域知识培养学生的跨学科思维。我个人是比较鼓励不同专业背景的学生组队的,就像计算机专业与管理学背景的学生组队,团队中既有技术实力过硬的成员,又有在特定领域表达能力出众的成员,如此便能实现学科间的优势互补与交叉融合。这种组队模式能够让学生们从多元视角出发,更精准、深入地切入赛题,挖掘出更具创新性与可行性的解决方案。
分组大作业
前面提到,我会将竞赛融入至课程,那它常见的形式就是课堂大作业。通常,课程都会设置实践作业环节,我会适当提高课堂大作业在实践课程中的分值占比。通过这种方式,学生能够更快地掌握数据分析技巧,也能切实提升运用数据分析工具解决实际问题的能力。在课堂作业或竞赛中表现认真、成果出色的同学,我也会给予相应奖励,让同学们获得一些成就感,增强他们的学习动力。
三、作品常见问题与改进建议
在竞赛过程中,一定不要认为技术是不可逾越的障碍,参赛选手需要聚焦的,是寻找问题、分析问题和解决问题,而非简单堆砌数据形成报告,却未能提炼出有价值的结论。总结来说,所有数据分析均需服务于核心问题的解决。
最常见的问题包括:
- 逻辑框架松散:首要的问题是作品逻辑框架松散,内容不连贯。部分作品存在报告中的分析没有紧扣题目、结论未能回应核心问题、前后不一致或矛盾等问题;
- 可视化设计不当:第二类常见问题是可视化设计不当,图表不需要依赖高深技术或者炫酷的展示方式,但是一定要能够精准的传达信息,避免数据的堆砌;
- AI 工具滥用:这是这两年比较常见的问题,即报告的文本有一股浓浓的“AI味”。
我来举几个从学生们的作业中发现的问题和例子。
逻辑框架松散
- 负例
以 2021 年我们的一个参赛作品为例。这个作品当时虽然入围了国赛,但是最后没有获奖,作品的标题为“外出打工是否还是农村劳动力的首要选择”。
首先,标题与分析内容脱节。从标题出发,我们做的数据分析应该是“农民可以回到农村务工”,但在展示时,PPT上有一页却写着“农村人口的减少,有利于土地集中规模化生产”,所分析的内容和标题相悖;
其次,作品使用的统计年鉴数据时效性不强。该作品选取的是 2007 至 2014 年统计年鉴的数据,而比赛是 2021 年开展的,因此已经并不能很好地反映当时农村人口数据了;
最后一点,图表与文本矛盾。这个图(见下图)的标题是财政支出与基础建设投入,但是所给出的数据变化并不是特别大,尤其是 2014 年之后,反而呈现下降趋势。由此我们可以推断下,如果基础建设投入减少的话,外出打工的人还会回来吗?肯定不会。
- 正例
然后我举一个比较好的例子,是 2023 年的参赛作品,也是当时国赛二等奖获奖作品,标题为“生生万物,息息相关”。
这个作品用于数据分析的模型较为基础,但最后却能进入国赛并且获奖的一个主要原因在于,它叙事完整、逻辑严密。作品主要是针对生物多样性进行分析,从自然灾害频次、地表温度变化、温室气体排放量、森林覆盖率等数切入,系统论证了各因素对生物多样性的影响,呈现出清晰的逻辑架构。
另一个例子是关于新冠疫情期间网民的情绪变化与相关政策调整的关联分析,两者之间的逻辑也很清晰。同时,展现出的每个数据图表都有相应的政策文件去支撑,实现了数据与政策文件的有机呼应,做到了有理有据。
可视化设计不当
- 误用散点图
散点图适用于反映两个连续变量之间的相关性,而图表上的(见下图)X 轴表示年份、纵轴表示物种,两者之间根本没有展现出变化关系。这里正确的图表类型其实可以采用折线图,以更好地展现年份。因此同学们掌握绘图技能的同时也需要理解不同图表类型的适用场景。
- 合理使用柱状图
这张(见下图左侧)柱状图的数据太过密集,评委难以看清具体的数据;
还有展现趋势变化图表(见下图右侧),可以看出其中有一项数据和其他数据存在显著差距,这个时候可以把这项数据单独拎出来分析,才能突出其具体的数据特征。
最后,衷心祝愿每一位参赛选手在本次比赛中斩获佳绩,更重要的是,尽情享受在数据分析过程中探索未知、大胆创新的美好历程,在赛事中实现自我突破与成长 。
和鲸始终贯彻大赛“以赛促学、以赛促教、以赛促创”的精神与理念,为参赛师生提供多层面、多角度、全方位的工作支持。
对于和鲸平台的环境配置与操作等有疑问,可以在大赛主页查看和鲸平台用户手册。
赛道系列培训回放,您可进入和鲸社区赛道主页观看。
希望同学们能够充分利用这些信息,在比赛中发挥出自己的最佳水平,用数据驱动创新,在大赛中取得优异成绩。衷心期待本届中国大学生计算机设计大赛能够涌现出更多的优秀作品。返回搜狐,查看更多