2025MCM – 美国大学生数学建模竞赛

难忘今宵

四天四夜的战斗,加起来睡了12个小时。也是第二次和队友完成完整的数模题目。

选题:C 题:奥运会奖牌榜模型(Models for Olympic Medal Tables)

英文版本

2025 MCM Problem C: Models for Olympic Medal Tables

During the 2024 Paris Summer Olympics, in addition to watching various individual events, fans closely followed the overall “medal table” for each country. The final results (Table 1) showed that the United States had the largest total number of medals (126). China and the United States tied for the first place in the gold medal standings, both with 40 gold medals. The host country, France, ranked 5th in the gold medal count (16) but 4th in terms of the total medal count. Great Britain, with 14 gold medals ranking 7th, was 3rd in the total medal count.

CountryGoldSilverBronzeTotal
United States404442126
China40272491
Japan20121345
Australia18191653
France16262264
Netherlands1571234
Great Britain14222965

Table 1: Final Medal Table of the 2024 Paris Olympics – Top 7 Countries in Gold Medal Count [1]

The rankings at the top of the medal table always attract much attention, but the medal counts of other countries are also of great significance. For example, Albania (2 medals), Cabo Verde, Dominica, and Saint Lucia (2 medals each) won their first Olympic medals at the Paris Olympics. Dominica and Saint Lucia each also earned a gold medal. More than 60 countries still haven’t won an Olympic medal so far.

Predictions of the final medal counts are often made. Usually, they are not based on historical medal counts but are made closer to the start of an upcoming Olympics when the information of current athletes scheduled to compete is available (for example: https://www.nielsen.com/news – center/2024/virtual – medal – table – forecast/).

Data of medal tables for all summer Olympics, host countries, as well as the number of Olympic events at each games broken down by sport are provided. In addition, data of all individual Olympic competitors, including their sports and results (medal types or no medals), are also given. Your models and data analysis must only use the provided datasets. You can use additional resources to provide background, context, or assistance in interpreting results (make sure to document the sources). Specifically, use the provided data to:

  • Develop a model for medal counts for each country (at least for gold medals and total medals). Include estimates of the uncertainty/precision of your model predictions and measures of how well the model performs.
    • Based on your model, what are your projections for the medal table in the 2028 Los Angeles Summer Olympics in the United States? Include prediction intervals for all results. Which countries do you think are most likely to improve? Which countries will perform worse than in 2024?
    • Your model should cover countries that haven’t won medals yet. What is your projection for the number of countries that will win their first medal in the next Olympics? How confident are you about this estimate?
    • Your model should also take into account the events (number and types) at a given Olympics. Explore the relationship between the events and the number of medals countries win. Which sports are most important for different countries? Why? How do the events selected by the host country affect the results?

Athletes may compete for different countries, but it’s not easy for them to change due to citizenship requirements. Coaches, however, can move from one country to another easily as they don’t need to be citizens to coach. Therefore, there may be a “great coach” effect. Two possible examples are Lang Ping [2], who coached the volleyball teams of both the US and China to championships, and the sometimes – controversial gymnastics coach, Béla Károlyi [3], who coached the Romanian and then the US women’s gymnastics teams with great success. Examine the data to find evidence of changes that might be attributed to the “great coach” effect. Estimate how much this effect contributes to the medal counts. Select three countries, identify the sports in which they should consider hiring a “great” coach, and estimate the impact.

What other original insights about Olympic medal counts does your model reveal? Explain how these insights can provide references for national Olympic committees.

Your PDF solution, with a maximum of 25 pages in total, should include:

  • A one – page Summary Sheet.
  • A Table of Contents.
  • Your complete solution.
  • A References list.
  • An AI Use Report (If used, it doesn’t count towards the 25 – page limit.)

Note: There is no specific minimum page length requirement for a complete MCM submission. You can use up to 25 pages for all your solution work and any additional information you want to include (such as drawings, diagrams, calculations, tables). Partial solutions are acceptable. We allow the cautious use of AI, such as ChatGPT, although it’s not necessary to solve this problem. If you choose to use generative AI, you must follow COMAP’s AI use policy. This will require you to add an AI use report at the end of your PDF solution file, which doesn’t count towards the 25 – page limit of your solution.

New MCM/ICM: Online Submission Process

This article aims to assist and guide students and advisors participating in HiMCM/MidMCM. COMAP introduces the new online submission process using the new online submission page https://forms.comap.org/241335097294056 in this article. You need your team’s control number, advisor ID number, and the problem you’ve chosen to complete the submission.

Data Files

2025_Problem_C_Data.zip: This zip file contains all 5 data files listed below.

  • data_dictionary.csv – Database descriptions with examples.
  • summerOly_athletes.csv – Information of all competitors including their sports, years of participation, and results (medal types or no medals).
  • summerOly_medal_counts.csv – Complete country medal – count tables for all summer Olympics from 1896 to 2024.
  • summerOly_hosts.csv – List of host countries for all summer Olympics from 1896 to 2032.
  • summerOly_programs.csv – Counts of the number of events by sport/discipline and the total for all summer Olympics from 1896 to 2032.

Data such as country designations are recorded by the International Olympic Committee (IOC) on their Olympics.com website during a specific Olympics. So, the designations in the dataset may change. Like all data, there may be recording anomalies. For example, in the athlete dataset, for sports like tennis, table tennis, and beach volleyball, the “Team” information sometimes includes more details than just the country. For instance, Germany – 1 represented the first of two beach volleyball teams from Germany in the 2000 Olympics. Decisions and assumptions about how to handle the data are crucial parts of the modeling process.

Glossary

  • International Olympic Committee (IOC): It is the international, non – governmental sports – governing body of the Olympic Games and the Olympic Movement. The IOC is well – known for organizing the Summer and Winter Olympics.
  • Programme of the Olympic Games: It is the program of all sports competitions established by the IOC for each edition of the Olympic Games.
  • SDE: Sport, Discipline, or Event.
  • Sport: The IOC defines an Olympic sport as a discipline governed by a single international sports federation (IF). A single sport may contain one or more disciplines, and each discipline is the focus of one or more events.
  • Discipline: A branch of a sport that includes one or more events.
  • Event: A competition within a discipline that results in a ranking and awards (such as medals).

Take the 2024 Paris Olympics as an example to illustrate the relationship between sport, discipline, and event: World Aquatics is the IF that governs the sport of aquatics. In the sport of aquatics, there are multiple disciplines, such as artistic swimming, diving, marathon swimming, swimming, and water polo. In the discipline of diving, there are 8 medal events: men’s and women’s individual 3m springboard, men’s and women’s individual 10m platform, men’s and women’s synchronized 3m springboard, and men’s and women’s synchronized 10m platform.

References

[1] Olympics.comhttps://olympics.com/en/paris – 2024/medals
[2] Olympics.com Biography, Lang Ping, https://olympics.com/en/athletes/ping – lang
[3] USA Gymnastics Hall of Fame, https://usagym.org/halloffame/inductee/coaching – team – bela – martha – karolyi/

Disclaimer

COMAP is a non – profit organization dedicated to improving mathematics education, especially focusing on enhancing students’ proficiency in mathematical modeling. This contest problem quotes materials from the International Olympic Committee (IOC). We acknowledge and respect the IOC’s ownership of these materials. The use here is solely for educational and non – commercial purposes to enrich the learning experiences of participants. This content is not endorsed by or affiliated with the IOC.

中文版本

2025 年数学建模竞赛(MCM)C 题:奥运会奖牌榜模型

在 2024 年巴黎夏季奥运会期间,除了观看各项单项赛事,粉丝们还密切关注着每个国家的总 “奖牌榜” 情况。最终结果(表 1)显示,美国获得的奖牌总数最多,达 126 枚,中国和美国在金牌榜上并列第一,均获得 40 枚金牌 。主办国法国在金牌数排名中位列第 5(共 16 枚金牌),但在奖牌总数排名中位列第 4;英国以 14 枚金牌排在第 7 位,不过在奖牌总数排名中位居第 3。

国家金牌银牌铜牌总数
美国404442126
中国40272491
日本20121345
澳大利亚18191653
法国16262264
荷兰1571234
英国14222965

表 1:2024 年巴黎奥运会最终奖牌榜 —— 金牌数前 7 的国家 [1]

奖牌榜前列的排名总是备受关注,但其他国家的奖牌数也同样受到重视。例如,阿尔巴尼亚(获得 2 枚奖牌)、佛得角、多米尼克和圣卢西亚(均获得 2 枚奖牌)在巴黎奥运会上赢得了本国的首枚奥运奖牌。多米尼克和圣卢西亚在这届奥运会上还各自斩获了一枚金牌。目前,仍有 60 多个国家尚未赢得过奥运奖牌。

人们通常会对奥运会最终的奖牌数进行预测,但这类预测一般并非基于历史奖牌数据,而是在临近奥运会开幕、确定了计划参赛的现役运动员信息后才进行(例如:https://www.nielsen.com/news – center/2024/virtual – medal – table – forecast/ )。

此次提供了所有夏季奥运会的奖牌榜数据、主办国信息,以及各届夏季奥运会按运动项目细分的赛事数量。此外,还提供了所有奥运会个人参赛者的运动项目和比赛结果(获得何种奖牌或未获奖)数据。你的模型和数据分析必须仅使用提供的数据集。你可以利用其他资源来提供背景信息、上下文内容,或辅助解释结果(务必注明资料来源)。具体而言,需使用提供的数据来:

  • 为每个国家构建奖牌数模型(至少针对金牌数和奖牌总数)。给出模型预测的不确定性 / 精度估计,以及评估模型性能的指标。
    • 根据你的模型,对 2028 年美国洛杉矶夏季奥运会的奖牌榜有何预测?给出所有预测结果的置信区间。你认为哪些国家最有可能取得进步?哪些国家会比 2024 年表现更差?
    • 你的模型应涵盖尚未获得过奖牌的国家;你预测在下一届奥运会中有多少个国家将赢得首枚奖牌?你对这一预测的把握有多大?
    • 你的模型还应考虑特定奥运会的赛事(数量和类型)。探究赛事与各国获得奖牌数量之间的关系。哪些运动项目对不同国家最为重要?原因是什么?主办国选定的赛事对比赛结果有何影响?

运动员更换代表国家并非易事,因为这受到公民身份要求的限制。然而,教练更换执教国家则相对容易,因为他们执教无需拥有该国国籍。因此,可能存在 “优秀教练效应”。例如,郎平 [2] 曾分别执教美国和中国的排球队并带领队伍夺冠;还有体操教练贝拉・卡罗利 [3],他先后执教罗马尼亚和美国女子体操队并取得显著成就,不过其执教方式有时也颇具争议。请研究数据,寻找可能归因于 “优秀教练效应” 的变化证据。估计这种效应在奖牌数中所占的比重。选择三个国家,确定这些国家在哪些运动项目上应考虑聘请 “优秀” 教练,并预估其带来的影响。

你的模型还揭示了哪些关于奥运奖牌数的独到见解?解释这些见解如何为各国奥委会提供参考。

你提交的 PDF 解决方案总页数不得超过 25 页,应包含:

  • 1 页摘要表
  • 目录
  • 完整的解决方案
  • 参考文献列表
  • AI 使用报告(若使用了 AI,此报告不计入 25 页的总页数限制)

注意:完整的 MCM 提交作品没有具体的最低页数要求。你最多可使用 25 页来完成解决方案以及包含任何你想添加的额外信息(例如:绘图、图表、计算过程、表格等)。部分解决方案也可接受。我们允许谨慎使用像 ChatGPT 这样的人工智能工具,不过解决此问题并非必须使用。若你选择使用生成式人工智能,必须遵循 COMAP 的人工智能使用政策。这意味着你需要在 PDF 解决方案文件末尾添加一份 AI 使用报告,该报告不计入解决方案的 25 页总页数限制。

新 MCM/ICM:在线提交流程

本文旨在为参加高中数学建模竞赛(HiMCM)/ 中学数学建模竞赛(MidMCM)的学生和指导老师提供帮助与指导。在本文中,COMAP 介绍了使用新在线提交页面(https://forms.comap.org/241335097294056)进行在线提交的新流程。你需要用到团队控制编号、指导老师 ID 编号以及所选题目,才能完成提交。

数据文件

2025_Problem_C_Data.zip:此压缩文件包含以下列出的全部 5 个数据文件。

  • data_dictionary.csv:带有示例的数据库描述
  • summerOly_athletes.csv:所有参赛者的运动项目、参赛年份和比赛结果(获得何种奖牌或未获奖)
  • summerOly_medal_counts.csv:1896 年至 2024 年所有夏季奥运会完整的国家奖牌数表格
  • summerOly_hosts.csv:1896 年至 2032 年所有夏季奥运会的主办国列表
  • summerOly_programs.csv:1896 年至 2032 年所有夏季奥运会按运动项目 / 分项统计的赛事数量及总数

数据(如国家名称)由国际奥委会(IOC)在特定奥运会举办时记录在其Olympics.com网站上。因此,数据集中的国家名称等信息可能会发生变化。和所有数据一样,这些数据也可能存在记录异常的情况。例如,在运动员数据集中,对于网球、乒乓球、沙滩排球等项目,“团队” 信息有时包含比国家更详细的内容。以 2000 年奥运会为例,Germany – 1 代表德国两支沙滩排球队中的第一支。在建模过程中,如何处理这些数据的决策和假设至关重要。

术语表

  • 国际奥委会(IOC):是奥运会和奥林匹克运动的国际非政府体育管理机构。IOC 最为人熟知的职责是组织夏季和冬季奥运会。
  • 奥运会项目:是 IOC 为每届奥运会制定的所有体育比赛项目。
  • SDE:运动项目、分项或赛事
  • 运动项目:IOC 将奥运会运动项目定义为由单一国际体育联合会(IF)管理的一个分项。一个运动项目可能包含一个或多个分项,每个分项是一个或多个赛事的核心。
  • 分项:是一项运动的分支,包含一个或多个赛事。
  • 赛事:是分项内的一场比赛,会产生排名并颁发奖项(如奖牌)。

以 2024 年巴黎奥运会为例,说明运动项目、分项和赛事之间的关系:世界游泳联合会(World Aquatics)是管理游泳运动的国际体育联合会。在游泳运动项目中,包含多个分项,如艺术游泳、跳水、马拉松游泳、游泳和水球。在跳水分项中,设有 8 个奖牌赛事,分别为男子和女子个人 3 米跳板、男子和女子个人 10 米跳台、男子和女子双人 3 米跳板、男子和女子双人 10 米跳台。

参考文献

[1] Olympics.comhttps://olympics.com/en/paris – 2024/medals
[2] Olympics.com Biography, Lang Ping, https://olympics.com/en/athletes/ping – lang
[3] USA Gymnastics Hall of Fame, https://usagym.org/halloffame/inductee/coaching – team – bela – martha – karolyi/

免责声明

COMAP 是一个非营利组织,致力于改善数学教育,尤其注重提升学生的数学建模能力。本竞赛题目引用了国际奥委会(IOC)的材料。我们承认并尊重 IOC 对这些材料的所有权,在此使用仅出于教育、非商业目的,旨在丰富参与者的学习体验。本内容未得到 IOC 的认可,也与 IOC 没有任何关联。

Day1 选题和第一问的整理

早上七点三刻起床,八点钟集合开始看选题。整体看完一遍之后,先是排除了EF题,因为太过于“文科”了,要选的话很难发挥数学方面的技能。然后排除了A题,因为很难找到文献和数据,要是有数据和资料参考的话其实我感觉我们会选A题。最后在BCD中,选择了C题。不选BD是因为,D和之前校赛做的网络题很像,没有办法学到新东西,B题要给出旅游业优化方案,没有很大的头绪,做不出来容易暴毙。选择C题是因为,C题看起来确实比较简单,而且相关数据和文献也有很多,而且我们的水平可以保证一定的下限,上限取决于我们在这四天里能学多少,能找多少数据。

中午十一二点左右,我们确定了选题为C题。接下来,我们开始进行建模。首先是排除了时间序列预测,因为奖牌数是一个和时间无关的变量。接下来我们问了AI,给出了高斯回归+二次指数的方法,这个方法适用于数据有较强的不确定性,但是没有学过因此暂时放置。然后我们看到了马尔科夫链,这个方法不是基于历史数据,而是基于当下的状态去预测的,非常符合题目要求。同时,我们看到了一篇使用了GDP数据和神经网络模型去预测2024奥运会获奖情况的文章,其结果非常符合实际情况,我们转向使用GDP作为预测特征,但是,题目里有一句话是,”Your models and data analysis must ONLY use the provided data sets. You may use additional resources to provide background and context or help with interpreting results (be sure to document the sources).“,也就是说,我们的建模不能使用题目数据以外的数据,但是可以用额外的数据进行背景分析(虽然问了文杰老师说是可以的)。我们决定先把GDP和奖牌数进行一个相关性分析,然后再去作预测,这样可以保证预测模型里不使用GDP。因此,我作为编程手要做的第一步就是,去预测2028年的GDP、人均GDP和人口。好玩的是,我们是先建模再去看机构内容,结果我们刚建一个模,机构就提出了一模一样的方法,鉴于中国数模手有很大一部分都会照抄机构,这令我们非常红温(

时间来到晚上,我做的第一步是找数据,我在世界银行的网站上找到了非常完整的数据,接下来就是去写一个神经网络预测。这个不是很难,做完之后,我去把预测小国概率的代码写了,使用的就是刚才预测的GDP作为依据,使用了逻辑回归。但是因为我开始的比较晚,所以这个晚上只写了这两个代码,画了几张散点图和混淆矩阵。(事后来看,第一天真的非常摸鱼,但是确实思路比较乱不知道做什么,上午提到太多模型了,所以先写一个确定下来肯定要做的东西)

Day2 第一问:大国、小国预测、Kmeans聚类、因素相关性分析

同样是早上八点开始,我们重新整理了一下思路,用Kmeans聚类把国家进行划分,然后分大小国去预测。但是所给的数据太特么乱了,因此我一整个白天都在进行数据处理,这样之后就可以对每个国家使用神经网络了。然后,把昨天写的预测进一步的写完了,同时画了一些图,但是跑神经网络要很久,因此在中午吃饭和睡觉的时候我的电脑在一直跑,大概要跑个三十多分钟。同时,中午再次整理了思路,我画了第一版的思维导图,有了比较清晰的逻辑链之后才能去更好的工作!

下午,我开始写预测大国的代码,这个地方使用了线性回归+最小二乘拟合参数去写,同时要给出预测区间,因此去补习了一些它的数学原理。然后我们发现,没有使用运动员的数据,另外两位在思考过后,决定使用层次分析法,在预测结果之后进行数据修正。在一个下午的努力之后,我在四点三刻完成了对大国的预测,预测值非常合理,一边就通过,非常开心!这个模型是复现了重庆大学的一篇文章,原文就非常靠谱。

晚上,我回爷爷奶奶家去吃年夜饭,然后晚上七点有视觉组的周会,我大概在七点半加入。这个时候我查看预测数据,突然发现,英国和俄罗斯不见了!在两个数据里,在不同时期,他们是不同的名字!因此我的数据处理并不彻底,需要进一步地去处理。比如,俄罗斯就有Soviet,Russian Empire,Russia三个时期的名字,英国也有United Kingdom和Great Britain两个名字。之后,我在八点半再次重新整理了我们第一问的思路,这一次加入了第一题的第三小问,是最完整的最终的思维导图。同时,我把代码进行了一个修改,把训练集改到了2020以前,去预测2024的数据,并绘制了对比的柱状图,发现结果非常好。然后我们去写了一个Kmeans聚类,分开大国和小国。

零点之后,我自己去把小国首次获奖概率重新写了一下,这样就可以预测全部小国了(本来是只能预测单个国家),同时把图表美化了一下,把相关性分析的图也进行了一个画,并且得到了较好的p值。但是这个时候进行回归分析,发现方差在800+,所以我没有继续下去,等白天建模手再看看。这一天是四点睡的。

整体来说进度有点慢了,本来计划是在第一天完成第一问的,但是可能因为第一问太他妈长了,所有做了整整两天(还没做完)

Day3 第二问:证明教练效应

起的太晚了,十点十一点快才起来,白天他们进行了第二问教练效应的建模,但是问题出在数据难找,所有的数据基本都是只有运动员,没有他们的教练,因此决定只对某几个教练进行分析,同时我绘制了各国各项目的获奖数量波动,这样可以明显看出上升和下降,从而判断教练效应。但是沟槽的是,这个时候论文手的电脑下线了!论文失踪了!试了很多方法都没有试出来,而且建模手没有把第二问”如何证明教练效应“的模建出来。

我们下午决定去看机构的课,论文手开始重写论文,找到了滑动窗口+AD检验的方法,和最小二乘+CUSUM方法,然后找到了更厉害的一个视频,完美的讲了第一问第三小问和第二问的方法,我们都觉得很对!而且他画的图好看!

晚上吃完年夜饭回来,我一边开ckyf的大会一边写代码。晚上我帮着把第二问的模建了,使用了伟大的Kimi老师。然后分别对郎平、迈克·沙舍夫斯基和贝拉进行分析,算出了和教练有关的参数,喜报是都很显著!也算出来了平均提升百分比,完美地完成了第二问(的第一部分)!然后,把相关性分析的热力图重绘了一下,画了一个更好看的散点图。

完成第二问之后,我去继续写第一问第三小问,画了一个热力图来表示各国最重要的项目,但是奇怪的是,输出的数据只有0和1,是有很大的问题的,需要后面再修改。然后,我们对第三大问进行了分析,其实没有什么可以用数值方法来分析的了,只能是文字建模。本来想的是用数值方法来一个震撼人心的建模,但是实在燃尽了,建不出来了。所以我们决定转向小作文,晚上把我们要考虑的因素讨论完了,总结下来就是四大点,然后交给论文手去完成写作!

Day4 最后的收尾

由于前一天晚上因为其他事情,约等于没有睡觉(只睡了一小时),因此九点加入的时候有点神志不清,还好有咖啡续命。趴在床上把第二问证明的部分的思维导图画好了,然后决定直接用问题2-1的公式去带入,求解2-2。中午进行了一个总结,要做的还有1-3、2-2和3,其实看起来剩下的不多了。中午吃饭前,我先把各国项目的重要系数画了个图,这样可以挑选用于带入2-2的国家了,然后也可以直接求解出2-1的三位教练对三个国家的提升系数。

下午,我重新把昨晚出问题的热力图写了一下,算是可以正常输出了,这是好的。然后对于项目增减,我们打算对增加项目和删减项目的东道主获奖情况进行分析,查看项目设置是否对东道主有利。最后还是用了相关性分析,发现系数是0.95,p值更是e-15级别的小,结果非常非常好!画的回归图也很好看。然后,我去把奖牌榜整理了一下,同时开始用层次分析法进行手动修正,然后把神经网络的图重新画了一下(因为之前字体没有好好设置)

晚上,该收尾了。我们决定把第三问画成海报的形式(参考了去年O奖),然后我开始作排版,然后九点去开了另一个会,边开边做误差分析,分析的结果也不错。开完会回来我队友和我说要把第三问版面的头图换一下,因为如果直接用题目里的图太容易重了。十点多,我和建模手整理了完整的目录,开始做最后的整合。十一点多,我开始去画our work的图表,然后继续去做论文格式的翻译和调整,然后论文手开始写摘要。上一次校赛最后问题就在排版时间不够,这一次还好,但是也弄了很久很久。大概一直弄到了三点,发现还有缺少的部分,整理了一下另外两位一起写作,最后大家就是一边调整,一边查缺补漏,大概在六点多我自己这里除了摘要全完成了,然后等他们把摘要翻译完。最后通读了一遍,没什么问题,就去提交了,时间是早上七点。


总的来说,这次配合也是相当到位,分工明确,就是选题太坑了,根本不知道是谁在选这个题,本来以为很简单的,结果题目越做越多,根本做不完!但是结果是好的,我觉得我们的结果相当可以,无论拿到什么奖都无所谓了。

期待下次国赛!

留下评论

您的邮箱地址不会被公开。 必填项已用 * 标注