您的位置:首页 > 其它

童童让我写的小经验贴。。看过赛题的看红字。黑色为赛题

2017-11-05 10:37 141 查看
文件名称

文件格式

CityData.csv

.csv (121B) 

ForecastDataforTesting.zip

.zip (1GB) 

ForecastDataforTraining.zip

.zip (1GB) 

In-situMeasurementforTraining.csv

.csv (230MB) 

未来已来——气象数据领航无人飞行器线路优化大赛

1. 大赛背景

       在2050年,推进式无人运输飞行器将进行大规模的量产,并在运输货物领域得到极大地推广。但是在恶劣的天气下,无人运输飞行器很容易在空中损毁,带来巨额的经济损失。因此作为天气多变的英国,为了推动无人运输飞行器在未来的应用,英国气象局希望通过他们提供的气象预测数据,来为无人运输飞行器运输货物保驾护航。也就是说基于气象局提供给我们的预测模型去规划路线,通过实际天气检测路线是否合规。

2. 问题描述

       本次大赛的目标是为无人运输飞行器寻找一个可以避开危险气象区域的有效航行算法。在飞行器飞行之前,选手需要根据英国气象局预测的天气数据,计划无人机航行路线。英国气象局每天会运行 10 个不同的预测模型,得出稍有不同但基本准确的预测结果。然而,天气预测的准确率通常为
90% 到 95%。优胜的算法需要基于我们提供的每日天气预测数据,确保无人运输飞行器航线安全且最短。

       为简化挑战,我们根据天气预报所覆盖的最小范围,对覆盖区域进行了区域块的划分,每一个区域块都可以用(x,y)唯一表示,x表示X轴方向的坐标值,y表示Y轴方向的坐标值。同时我们假设无人运输飞行器在所有天气条件下的飞行速度均保持不变,在每个区域块的飞行时长固定,限定为2分钟飞越一个区域块,且只能从当前区域块上下左右地飞越到下一个区域块。这边相当于每次飞行器只能飞到相邻区域块,很好理解,每次移动一个点就是两分钟。

       每天9点钟10架推进式无人运输飞行器将从伦敦海德公园飞往英国其他10个目的地城市,限定最大飞行时长为12个小时。选手需要基于我们提供的天气预报数据,预测每个区域块(x,y)的天气情况,规划无人机的飞行轨迹,具体的数据说明与描述详见下一章。

      同时赛题暂且只考虑影响无人飞行器坠毁的一个天气因素:风速。当风速值≥20时,无人机坠毁

所以这题的意思就是给一份训练数据,让我们通过算法融合他的十个模型得到最接近真值的预测。最简单的可以先尝试做成一个线性回归,即

k_1 * data_1 + k_2 * data_2 + ……  + k_10 * data_10 = trainingdata. 因为数据量很大,我们先要解决数据量的问题。后面改进模型。。

此前有一篇文章《别老扯什么Hadoop了,你的数据根本不够大》指出:只有在超过5TB数据量的规模下,Hadoop才是一个合理的技术选择。。。

我现在是指定iterator=True
返回一个可迭代对象TextFileReader。详细参见:http://blog.csdn.net/zm714981790/article/details/51375475

另外,及时通过GC模块清理临时变量,我还在循坏内psutil包检测物理运行内存。。。。90%以上自动终止。

3、数据说明

       我们将为参赛者提供4类数据文件:城市数据、天气预测数据、天气真值数据、测试数据,其中部分数据进行了一些脱敏操作。天气预测数据和天气真值数据总共提供5天数据,线上测试数据也提供5天的数据。

       城市数据为‘CityData.csv’,包含城市编号和区域块坐标信息。伦敦为起点城市,城市编号为0,其他城市为目的地城市,编号依次为1,2,3……10。数据格式详见表1。

表1:城市数据格式
城市编号
x轴坐标
y轴坐标
0
142
328



 

       英国气象局发布的气象数据经过脱敏后,天气预测数据为‘ForecastDataforTraining.csv’,天气真值数据为‘In-situMeasurementforTraining.csv’。天气预测数据中包含了 6列数据,数据格式详见表2。天气真值数据中包含了 5列数据,数据格式详见表3。

这两份数据有一点疑问,我在群里也提过。日期编号不一致,表2为1-5,表3为6-10.是否意思是1对应6???

还有这个预报时间,3-27 而不是0-24.。。。。这个应该是3对应0吧

表2:天气预测数据格式

x轴坐标
y轴坐标
日期编号
预报时间(小时)
模型编号
风速
22
201
2
14
1
4.91
45
32
1
21
2
1.28






 

表3:天气真值数据格式

x轴坐标
y轴坐标
日期编号
预报时间(小时)
风速
120
25
3
14
6.35
82
19
5
21
3.56





       线上测试的数据为‘In-situMeasurementforTesting.csv’,数据格式与天气预测数据的格式一致,详见表2。

       注:天气预报数据的间隔时间为1个小时,但无人机2分钟飞越一个区域块,因此赛题假定在从预报时刻点开始,一个小时的天气保持不变。

4. 目标函数

       我们将根据一天中每小时的实际天气状况评估参赛者提交内容中所描述的飞行器路线。  如果有任何一时刻飞行器进入极恶劣的天气环境后损毁,那么将导致 24 小时的延时处罚。 

       比赛最终得分将是飞行器成功航行时间总时长(分钟)加上处罚(分钟)总数。分数最低者赢得比赛。

目标函数值 = 24*60*飞行器坠毁数 + 顺利到达的飞行器总飞行时长(分钟)

5. 参赛者提交内容

       参赛者需要根据5天的测试数据提交一个汇总的航行路线文件(csv文件,逗号分隔)。  该航行路线文件应包含以下五列数据:目的地编号、日期编号、时间(格式为hh:mm)、x轴坐标、y轴坐标。航行路线文件应包含航行过程中每两分钟的详细航行路线。文件格式示详见表4(提交时统一规定不要包含表头)。 

表4:结果数据格式

[align=center]
[/align]

目的地编号
日期编号
时间
x轴坐标
y轴坐标
3
2
09:50
2.3
5.7
8
5
08:28
4.2
6.1
10
6
15:32
8.2
3.0





内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: