数模校赛/小美赛 – 2024年第十三届”认证杯”数学中国数学建模国际赛

非常好队友,使我Pycharm旋转

和队友的第一次合作,故记录

题目是周日12.15日发的,然而这一天大家都挺没空的,因此我们周日晚上才进行的选题。选题过程有点坎坷,首先排除A和D,然后在B和C里纠结,分别去看了这两题的解析之后决定了去做C题。

Problem C (ICM) Iron Age Archaelogical Sites of Turkey

We possess a dataset pertaining to the Archaeological Settlements of Turkey. This dataset is the result of combining the data from the Archaeological Settlements of Turkey (TAY) Project with geo-spatial data sourced from OpenStreetMaps. It is derived from Kaan Eraslan’s PhD project and is publicly accessible on the relevant website. For each archaeological settlement within this dataset, the following information is included:

1. The active dates;

2. Geo-spatial data indicating the town in which the settlement is located;

3. Information regarding the site type as well as its research status and methodology.

All of this information is contained within the file taydata.json. For the raw data, one can refer to taydata.html. The associated notebook for this dataset elucidates the process by which each file is generated. Furthermore, the dataset encompasses several significant statistics related to the regions and cities of Turkey during the Iron Age. You need to analyse the structure of the dataset. Should one wish to visualize the data on a map, the 1200___330_bce_sites_of_turkey.umap file can be utilized. This can be visualized on the platform https://umap-project.org/.

Tasks:

We expect you to construct rational mathematical models to deduce the following information from this dataset:

1. The migration and expansion trajectories of the Iron Civilisation;

2. The most probable paths of material exchange and trade among different settlements within each distinct time period;

3. The locations where new settlements are most likely to be unearthed in hitherto undetected areas (this can be predicted for different time periods).

周一我满课,因此没有进度,其他两位去做了进一步的背调。周二晚上我们聊了目前的思路,并且根据参考资料(一大堆问题,约等于照着模子重写)写出了第一题的代码,也就是聚类分析和热力图绘制,到这一步的编程任务十分顺利,毕竟聚类分析并不用得到多少时间复杂度,主要的难点文件的读取,学习了现有的json库。

写完第一题,我开始着手第二题,尝试学习最大流(没学会,下次一定)无果,因此转向dijkstra算法,然后一通查阅发现这玩意也有现成库,那就用吧。单纯写一个两点间最短路确实没什么问题,新的问题是:题目要求不同时期不同遗址之间的最可能的物质交换路径。这个确实有点抽象了。因为dij算法本来就有O(nlogn)的时间复杂度,再加上一个n2,对于庞大的数据量,不是一时半会算的完的。而且,如何体现最可能的物质交换路径也是很大的问题。因此,我的思路是:记下每条边作为最短路的边的次数,次数越多,越有可能。虽然有极大可能不是一个正解,但是至少有解,关于正解什么的,以后再学习吧。那么跑数据就成为了当下最大的问题。我尝试让我电脑跑了一宿,七个小时,没有结果。因此我开始意识到,用完整的数据集是不太可能实现的事情。然后我换了思路——用第一题的聚类,把原数据集按聚类分割成小数据集。即使只有五次切割,对于电脑来说时间复杂度也是指数级地下降。事实证明我的想法是正确的,计算时间从原来的不知道几百个小时变成了几分钟,可喜可贺。

最后是第三问,对于空间的预测,一开始想用的是克里金插值法,后来发现这玩意他妈的没有线性关系,而且神经网络有些来不及写了,因此用了随机森林算法进行预测。其实这个算法我没怎么学懂,好在现代科技比较发达,可以帮助我去修。结果的图还不错,但是有几个奇怪的点:一个是,当我把随机点的数量拉的很高的时候,画面上的概率分布会呈现条带状分布;第二个是,R2是负值!?!?!?后面分析了一下,可能是特征值只有经纬度导致的,后面尝试使用第二问的点遍历次数作为特征值,没来得及写完。只能说还好美赛不看代码。

以上是作为编程手的解题思路,那么再来说说合作感受吧。感受就是:很爽。第一次碰到这么优质的队友,建模手在线,论文手也在线,三线基本是并行推进进度,而且不会出现“我提出一个算法,其他两人无法理解”的情况,其他两位都非常负责。周四晚直接无感通宵,直到周五早八论文提交之后,那种疲惫感才一下子涌上来。总之就是,遇上了这种队友哪怕不拿奖也无所谓的程度。

当然,第一次打美赛还是会有问题存在的,这一次最显著的问题是:时间分配不合理,尤其是论文写作、翻译和排版的时间,我们只留了三个小时,发现根本不够,因此论文最后公式的序号和参考文献的引用都没添加,不过其他的部分的排版接近完美。下次要至少预留半天来交给论文编排了。以及队友不熟latex公式,可以考虑单写一篇blog来简述latex使用。


Updated on 2025.01.03

其实12/24就出成绩了,但是有懒猪忘记写了。我意料之外的A+,但是我的队友好像不怎么意外,是我期望太低了?

老师给出的问题总结如下:

建模和文献引用可优化;论文规范,表述清晰,模型合理丰富摘要内容;图表不美观;文字润色;目录尽量控制在一页;模型讨论可以更充分些;摘要两端对齐,注意页眉格式

下次一定注意,接下来等奖状啦。

一条评论

留下评论

您的邮箱地址不会被公开。 必填项已用 * 标注