第二届“登峰杯”全国中学生数据挖掘竞赛 高分解读 1 竞赛简介 “登峰杯”全国中学生数据挖掘竞赛由中国科学技术大学承办,是面向全国高中生开展的数据挖掘竞赛活动,旨在提高中学生运用数据挖掘知识解决实际问题的能力,培训中学生的创新合作精神、编程能力和论文写作能力。 数据挖掘竞赛根据现实中的热点事件提出开放性的问题,考察学生利用所学知识思考和解决实际问题的能力。竞赛题目涉及到对实际生活中数据的挖掘与分析,及对问题的探索性思考,需要一定的数学能力,编程能力和论文写作能力。 2 竞赛赛题 奥运会奖牌榜排名预测 2016年里约热内卢奥运会刚刚落下帷幕,来自世界各地的207支国家和地区代表队参与了本次盛会,中国代表队取得了金牌榜第三,奖牌榜第二的好成绩。奥运会期间,奖牌榜排名成为了最热门的话题。对于这个问题,不同的人可能会有不同的预测结果。如何让预测结果更加准确,这就是数据挖掘所关注的。请你利用自己所学的知识,通过实践研究,就奥运会奖牌榜排名预测问题,从以下角度做出探讨。 问题 1:纵向讨论,讨论如何利用历届奥运会的历史成绩与本次奥运会成绩之间可能存在的关联性做出预测。 问题 2:横向讨论,除了历史成绩可以帮助预测,国家综合实力也是影响奥运会成绩的重要因素,讨论国家综合实力会怎样影响预测结果。 问题 3:在问题 1 和 2 解答的基础上,思考除了历史成绩与国家综合实力,其它可能的影响因素。 问题 4:结合以上讨论内容,对下一届奥运会的奖牌榜前十名给出你自己的预测结果,并阐述理由。 3 竞赛任务 数据挖掘竞赛考察学生从现实生活中收集数据的能力、对实际问题的科学分析能力及对所学知识的熟练应用能力。竞赛共分为三个部分,分别是数据收集部分、模型设计部分和拓展思考部分。 1、数据收集部分旨在培养学生的信息检索与过滤能力。学生可以通过查阅文献资料、网络搜索等途径寻找解决问题所需要的各种原始数据,进而通过对原始数据内容的甄别、过滤,获取有效信息并最终运用到自己设计的模型中。对于动手能力较强的学生,还可以动手编写网络爬虫以自动收集大量互联网信息。 2、模型设计部分旨在培养学生的推导分析与建模能力。学生需要针对题目给出的实际问题进行建模,并利用已收集的数据进行求解。学生可以利用已有的数学算法、数据挖掘技术或者设计新的方法来解决问题,其中可能需要一定程度的数学推导和计算机编程。对于有余力的同学,还可以对得到的结果做出分析,比如如果结果不好,可能是什么原因导致的;如果结果很好,能否说明模型的有效性? 3、拓展思考部分旨在拓宽学生的思维范畴,培养学生的创新能力。竞赛题目中会包含一定程度的拓展问题,学生不需要对此类问题做出详细求解,但需要就此类问题提出自己的见解。 4 数据挖掘竞赛将根据现实中的热点事件提出问题,学生在得到问题后,需要主动收集数据(问题所需要的主要数据将是很易于收集的),分析问题并进行建模,并利用已有数据进行求解,最后进行可能的模型评估和拓展思考。 · 采用的模型或方法是否具有理论依据 · 对问题影响因素的考虑是否周全 · 模型是否有过拟合的可能 · 模型求解算法的时间和空间复杂性
|
|
来自: 么么公主khu9a0 > 《数据挖掘》