测绘学报毛文婧简历(测绘学报毛文婧)
测绘学报毛文婧简历(测绘学报毛文婧)摘要:实现全国连续空间覆盖未来小时尺度的PM2.5浓度实时、高精度预报是一个难题。本文建立基于深度学习的多层长短期记忆迭代模型和改进的空间反向传播神经网络S-BPNN模型来实现全国小时尺度PM2.5浓度的空间预报。首先 研究基于空间相关性将全国1286个空气质量监测站点在空间上进行自适应分区 并对各个分区分别构建多层LSTM迭代预报模型实现未来24 h各个监测站点的PM2.5浓度的实时预报。其次 应用改进的S-BPNN空间化模型实现未来24 h全国连续空间覆盖的PM2.5浓度精细化制图。然后 利用2016—2019年中国PM2.5监测站的历史数据进行训练和验证 结果显示预报模型和空间化模型的相关系数R2分别为0.88和0.87 表明模型都能实现较高的精度。最后 基于提出的预报模型和空间化模型 辅助从监测站实时获取的大气污染数据和气象数据 通过搭建的大气污染物浓度预报智能化
本文内容来源于《测绘学报》2022年第3期(审图号GS(2022)1460号)
基于深度学习的中国连续空间覆盖PM2.5浓度预报
毛文婧1
王卫林1 焦利民1
刘安宝2
1. 武汉大学资源与环境科学学院 湖北 武汉 430079;
2. 福建经纬测绘信息有限公司 福建 福州 350001
基金项目:国家自然科学基金(41971368);国家重点研发计划(2017YFA0604404)
摘要:实现全国连续空间覆盖未来小时尺度的PM2.5浓度实时、高精度预报是一个难题。本文建立基于深度学习的多层长短期记忆迭代模型和改进的空间反向传播神经网络S-BPNN模型来实现全国小时尺度PM2.5浓度的空间预报。首先 研究基于空间相关性将全国1286个空气质量监测站点在空间上进行自适应分区 并对各个分区分别构建多层LSTM迭代预报模型实现未来24 h各个监测站点的PM2.5浓度的实时预报。其次 应用改进的S-BPNN空间化模型实现未来24 h全国连续空间覆盖的PM2.5浓度精细化制图。然后 利用2016—2019年中国PM2.5监测站的历史数据进行训练和验证 结果显示预报模型和空间化模型的相关系数R2分别为0.88和0.87 表明模型都能实现较高的精度。最后 基于提出的预报模型和空间化模型 辅助从监测站实时获取的大气污染数据和气象数据 通过搭建的大气污染物浓度预报智能化在线信息原型系统可实时发布预报结果并可进行空间化展示。研究实现了全国连续空间覆盖的PM2.5浓度高时空精度的实时预测 以支持大气污染联防联控和公众环境空间质量信息服务。
关键词:大气污染 时空预报 PM2.5深度学习
引文格式:毛文婧 王卫林 焦利民 等. 基于深度学习的中国连续空间覆盖PM2.5浓度预报[J]. 测绘学报,2022,51(3):361-372. DOI: 10.11947/j.AGCS.2022.20200385
MAO Wenjing WANG Weilin JIAO Limin et al. Continuous spatial coverage PM2.5concentration forecast in China based on deep learning[J]. Acta Geodaetica et Cartographica Sinica 2022 51(3): 361-372. DOI: 10.11947/j.AGCS.2022.20200385
阅读全文:http://xb.sinomaps.com/article/2022/1001-1595/2022-3-361.htm
引 言
随着世界经济和城市化快速发展,许多城市都面临空气污染问题[1-2]。PM2.5是指在空气中直径小于2.5 μm的悬浮颗粒,是造成空气污染的主要来源,PM2.5浓度的增加会严重危害人体的身体健康和生态环境[3-6]。实现全国大范围区域内的大气污染物浓度的高精度时空预报和分析对大气污染物的联防联控和公众环境大气质量信息服务具有重要的现实意义。
目前,大气污染物浓度时空预报的方法主要包括物理模型的方法和统计模型的方法。物理模型的方法是基于大气污染物形成的机制和原理,进行演化、模拟从而通过数学的方式构建模型从而推演出污染物的时空分布[7-8]。然而,该方法难以基于物理方程准确描述大气污染浓度与外部特征之间的关系,且计算量巨大等问题使其难以用于大范围区域的空间化模拟[9]。统计模型的方法主要以统计学为基础,通过拟合历史的污染物数据与外部特征的定量关系,从而预测未来大气污染的分布,此类方法精度较高且相对于物理模型易于实现,应用更加广泛[10],常用的统计模型包括机器学习模型[11-14]和人工神经网络模型[15-16],基于机器学习模型的方法能很好地拟合大气污染物与外部特征间的数值关系,但是其更适用于小样本数据致使无法充分捕捉大气污染物自身的时空依赖特征[17]。
随着计算机能力的增强,人工神经网络的模型逐渐应用于大气污染物浓度的时空预报任务中,特别是基于深度学习的模型(含有两层或两层以上的隐藏层)由于其自适应、自组织、自学习能力决定了其在空间预测任务中能表现良好的性能[18-19]。其中,反向传播神经网络(BPNN)通过并入气象因素(例如,相对湿度、温度和风速)、土地使用类型、人口、道路网络等多种外源的变量能很好地实现PM2.5浓度空间化展示[20-22],但是,此模型空间化的精度有待改善,难以广泛应用于未来实时的预测。研究发现基于长短期记忆(LSTM)网络的模型擅长捕获时间序列数据中的长时间依赖性[23-24]。LSTM模型是循环神经网络(RNN)的变体,能有效解决RNN产生的梯度爆炸或者梯度消失等问题,使其能更有效地学习长时间序列数据的特征[25]。许多研究者通过建立基于长短期记忆(LSTM)网络的模型来预测未来时刻监测站点的PM2.5浓度的变化,并取得不错的预测结果[26-29]。目前基于LSTM的模型一般能在未来1 h的PM2.5浓度预测任务中表现优秀,但长期预测的精度普遍较低。目前的研究预测PM2.5浓度的范围大都为区域小尺度范围,很少有对全国大尺度范围实现较高精度的PM2.5浓度预测,并且大多研究预测的是各个空气质量监测站未来PM2.5浓度的变化,很少有全国大范围精细空间化的预报结果,仅仅对PM2.5浓度的区域预测和分析难以获取全国尺度的PM2.5浓度时空分布状况从而为整个中国的宏观监测提供足够的信息。
针对以上问题,本文通过构建基于深度学习的多层LSTM迭代预报模型和改进的S-BPNN空间化模型实现全国大范围内精细空间化的PM2.5浓度预报。主要贡献如下:①在PM2.5的时空相关性和影响因素分析基础上,将全国范围内PM2.5监测站进行自适应分区并分别构建非线性和自适应的多层LSTM迭代预测模型,该模型结合最佳时滞,利用迭代的方式通过多层双向LSTM捕获PM2.5浓度的长时间依赖特征,从而可以保持较高的时间相关性,从而预测各个监测站点未来24 h PM2.5浓度的变化;②结合预报模型,再利用改进的空间反向传播神经网络(S-BPNN)空间化模型,该模型通过顾及监测站点的空间相关性对预报模型的预报结果进行全国大范围精细化制图,实现PM2.5浓度的空间预报;③基于预测模型和空间化模型搭建大气污染物浓度预报的智能化在线信息原型系统从而发布全国大范围的PM2.5浓度时空预报。
1 研究区域与数据分析
1.1 研究区域
本文获取了2016-01-01—2019-12-31共4年全国范围内1286个空气质量监测站点的PM2.5监测数据(http://106.37.208.233:20035/),相应的辅助数据包括气象数据(CMDC: http://data.cma.cn/en),建筑用地数据(http://www.dsac.cn/),道路长度数据(http://www.openstreetmap.org/),人口密度数据(https://web.ornl.gov/sci),归一化的植被指数(NDVI)(https://web.ornl.gov/sci)数据和高程(DEM)(http://www.gscloud.cn/)数据。图 1显示了所有空气质量监测站点地理位置分布和对应2019年的平均PM2.5浓度。如图 1所示,我国PM2.5浓度较高的区域集中在京津冀及周边地区、汾渭平原和西北部的一些城市,京津冀及周边地区和汾渭平原的人口数量密集,是我国重工业集中区域,区域性的大气污染问题较为严重,而西北地区如乌鲁木齐、伊犁等城市风沙较大,沙尘天气较多,以及城市特殊的地理位置导致污染物难以散去,导致PM2.5浓度较高。
图 1 研究区域内空气质量监测站点的分布Fig. 1 Distribution of air quality monitoring stations in the study area
图选项
首先,基于PM2.5站点的空间相关性对所有监测站点进行自适应分区,再利用历史时刻的实测PM2.5监测数据和气象数据基于深度学习的方法分别建立预报模型,从而预测各个监测站未来时刻的PM2.5浓度值,其中气象数据包括降水量(PRE)、气压(PRS)、相对湿度(RHU)、日照(SSD)、温度(TEM)及风向风速(WIN),气象数据通过反距离加权空间插值的方式匹配到各个PM2.5监测站点。然后,结合气象数据,建筑用地数据,道路长度数据,人口密度数据,NDVI数据和DEM数据进行空间化建模,对PM2.5浓度预报结果进行精细化制图,从而实现全国大范围尺度的PM2.5浓度空间预报,以实时评估全国的PM2.5浓度空间分布特征。最后,基于研究的大气污染物预报模型和空间化模型,初步生成大气污染物浓度预报平台原型系统,从而发布大气污染物浓度的预报结果。表 1列出了选取数据的统计特征。
表 1 试验数据的统计特征Tab. 1 Statistical characteristics of experimental data
变量 |
取值范围 |
均值 |
标准差 |
PM2.5/(μg/m3) |
[1.00 894.00] |
42.84 |
42.21 |
降水量/mm |
[0.00 410.42] |
2.95 |
9.18 |
气压/hPa |
[593.16 1047.13] |
968.30 |
66.67 |
相对湿度/(%) |
[0.00 100.00] |
51.94 |
22.65 |
日照/(MJ/m2) |
[0.00 25.38] |
5.48 |
4.05 |
温度/℃ |
[-38.75 42.16] |
15.07 |
10.96 |
风向风速/(m/s) |
[0.00 19.69] |
2.22 |
1.05 |
建筑用地/万km2 |
[23.5 1998] |
731 |
1426 |
道路长度/万km |
[393.77 41.50] |
43.72 |
49.16 |
人口密度/人/km2 |
[0.25 470.55] |
89.03 |
79.38 |
NDVI |
[0.21 0.92] |
0.53 |
0.13 |
DEM/m |
[1.00 3678.00] |
329.74 |
516.93 |
季节/NA |
[1 4] |
- |
- |
月份/NA |
[1 12] |
- |
- |
天/NA |
[1 31] |
- |
- |
表选项
1.2 PM2.5浓度预报模型的影响因子
气象条件是影响大气污染物浓度的重要因素,并且大气污染物浓度具有一定的时间特征[30-31]。图 2展示了2016-01-01—2019-12-31全国日均PM2.5浓度值。由图 2可知,PM2.5浓度具有明显的季节特征,由于受到污染源排放和气象条件影响,PM2.5浓度一年表现为“冬季普遍偏高,春秋次之,夏季最轻”。冬季,温度的降低会致使大气污染不易扩散从而累积,并且釆暖期的燃煤量需求变大也导致污染物的排放增加;夏季,气象条件的变化如温度的增高、降水量的增加等,有利于降低PM2.5浓度。因此在进行PM2.5浓度预测中,本文考虑将大气污染的时间特征(季节特征、月份特征、天特征)的独热编码(one-hot)作为预测模型的辅助输入。图 3展示了2019-01-01—2019-12-31所有监测站日均PM2.5浓度、降水量、气压、相对湿度、日照、温度及风向风速值,通过PM2.5浓度与同时期的气象数据进行对比分析,可以发现PM2.5浓度值与降水量、湿度、气压、温度呈现明显的负相关,气象条件是大气污染关键的影响外因,当风速很小,大气静稳,近地面逆温,湿度较高等情况容易产生重污染,在本文中将归一化的气象数据和时间数据的one-hot编码作为PM2.5预测模型的辅助数据,增加这些辅助数据能提高模型的预测能力。
图 2 1月1日—12月31日全国日均PM2.5浓度值(2016—2019年)Fig. 2 Daily average PM2.5concentration values in China from January 1 to December 31 (2016—2019)
图选项
图 3 2019-01-01—2019-12-31日平均观测PM2.5浓度值与降水量,气压量,湿度,日照量,温度和风速的关系Fig. 3 The relationship diagram of daily averaged observed PM2.5and PRE PRS RHU SSD TEM WIN from January 1 to December 31 (2016—2019)
图选项
1.3 时空相关性分析
1.3.1 时间相关性分析
利用最大互信息系数分析PM2.5数据的时间相关性,最大互信息系数(maximal information coefficient MIC)是用来度量两个变量之间线性或非线性关联强度[32],其公式为
(1)
式中,x和y分别代表时滞前后的PM2.5数据;a和b分别为x和y方向上的网格数量;B为可变变量,一般设置为数据量的0.6次方。
图 4显示了全国范围为内随机选取的100个空气质量监测站0~20 h时间间隔的最大信息相关系数变化情况。由图 4可知,相关系数随时滞的增大而减小,时滞越小,相关程度越强,这说明了PM2.5数据具有显著的时间相关性,这些发现同样可为预测任务选择合适的时滞。
图 4 100个随机选择站点之间的最大信息相关系数Fig. 4 MIC between 100 randomly selected stations
图选项
1.3.2 空间相关性分析
单个站点的PM2.5浓度监测值往往会受到区域范围内污染物的影响,距离较近的PM2.5监测站点之间往往空间相关程度较强[22]。本文综合考虑全国范围内各个站点的PM2.5污染程度和地理位置,以自相关系数为衡量标准,研究最佳相关分区,将所有站点划分到68个区域,再分别进行建模预测未来的PM2.5浓度。
利用莫兰指数(Moran’s I)评估各个分区内的PM2.5监测站的空间相关性,以下分别为全局莫兰指数I和全局莫兰检验数Z的计算公式
(2)
(3)
式中,
;n是空间单元总数;yi和yj分别表示第i个空间单元和第j个空间单元的属性值;y为所有空间单元属性值的均值;wij为空间权重值;E(I)和Var(I)分别为莫兰指数的期望值和方差值。
以各个监测站2016—2019年PM2.5平均值作为观测矩阵,区域内各个监测站点之间距离的倒数作为空间权重矩阵从而计算全局莫兰指数和显著性检验值。图 5(a)和(b)分别显示了每个分区的全局莫兰指数和显著性检验值。由图 5可知,每个区域在显著性为0.05水平下,全局莫兰指数Z都大于1.96,莫兰指数皆大于0.4,且大部分区域都大于0.5,个别区域甚至大于0.9,表明了PM2.5浓度具有一定区域效应,在一定区域范围内的PM2.监测站之间具有显著的空间相关性。
图 5 各个分区的空间相关性统计情况Fig. 5 Spatial correlation statistics of each partition
图选项
2 研究方法
2.1 PM2.5浓度预报模型
长短期记忆(LSTM)网络是通过门控机制和状态变量控制循环信息的传递。本文基于在68个分区区域分别建立多层LSTM迭代预测模型,该预测模型能够同时对同一个区域内的多个PM2.5监测站进行协同训练,并一次性得到该区域内各个监测站未来24 h的PM2.5预测值。该模型的总体结构如图 6所示,此模型以各个区域内的所有监测站PM2.5时滞历史数据作为模型的主要输入,结合合适的时滞r,然后通过双向LSTM层和全连接层的组合进行迭代预测,将预测未来24 h的时间段分为24/r个区间 以时滞r=8为例,将进行3次迭代预测任务(输出1:未来1~8 h 输出2:未来9~16 h 输出3:未来17~24 h),每次输出作为下一次迭代预测的输入,直到迭代任务结束,其中r=12时,预测结果最好(具体试验见3.1节)。另外,为了减少迭代预测中的误差累积,最后一个输出为该时间段预测的平均值。将迭代预测的所有输出结果再结合辅助输入(气象数据和时间数据)通过全连接层训练,最后输出该区域各个监测站未来1~12 h实时,13~24 h的平均PM2.5预测值。
图 6 多层LSTM迭代模型的网络结构Fig. 6 The network structure of multi-layer LSTM iterative model
图选项
预测模型整体流程图如图 7所示,主要包括3个步骤。
图 7 预测模型整体流程Fig. 7 Overall flow chart of prediction model
图选项
(1) 由于考虑PM2.5监测站点间显著的时空相关性,以每个区域各个PM2.5监测站点的历史序列数据作为模型的主要输入,以气象数据和时间数据作为辅助输入,通过多层LSTM迭代预测模型进行训练,得到未来24 h PM2.5浓度的预测值。
(2) 通过模型的预训练得出初步的PM2.5预测值,结合PM2.5观测值,计算损失函数,这里以均方误差作为损失函数,损失函数的公式为式(4),再通过反向传播的方式调整网络的权重参数,使结果最优化。
(3) 将样本数据集以75%和25%划分为训练数据集和测试数据集,以RMSE MAE R2作为精度指标,评估预测模型是否存在过拟合或者欠拟合的现象,若是的话,则回到步骤1,调整预测模型的网络结构。通过上述3个步骤得到68个分区内各个监测站点最终的PM2.5预测值。
(4)
式中,N表示总的样本数目;i表示当前样本;Pi表示当前样本的预测值;Oi表示当前样本的观测值。
2.2 PM2.5浓度空间化模型
基于多层LSTM迭代模型预测的PM2.5监测站点值难以在空间上进行展示,因此,应采用相应的模型进行空间化建模从而对PM2.5预报结果进行精细化制图,以实时评估区域的PM2.5空间分布特征。相关研究表明空气质量的空间分布会受到气象特征、地理环境以及人类活动等多重影响[33],本文考虑输入影响特征时,分别考虑了气象因素、空间相关因素和物理因素。
本文在空间化神经网络(S-BPNN)模型[22]的基础上做出进一步改进,改进的空间化模型的结构如图 8所示。
图 8 空间化模型网络结构Fig. 8 Network framework of the spatial model
图选项
该模型网络结构主要由输入层、隐藏层和输出层组成,其中输入层是由每个网格点的所有特征组成的,包括主要输入和辅助输入。首先,将全国划分将近为10万个10 km×10 km的网格点。由PM2.5浓度时空分析可知,PM2.5浓度具有高度的空间相关性,对于每个网格单元的PM2.5浓度与其空间距离最近的m个网格单元的PM2.5浓度具有显著的相关性,所以将各个网格点的空间滞后变量(SLV)特征作为主要输入,计算公式见式(5)
(5)
式中,m表示空间邻近网格单元数;wsi表示第i个邻近网格的权重;ds表示空间距离。
基于相关研究证明,当m=3时,模型性能表现最佳[22 33-34]。然后,将主要输入变量输入到隐藏层,通过两层全连接层的训练后,结合辅助输入再通过一层全连接层进行训练,其中辅助输入由站点的经纬度、DEM、NDVI、建筑面积、人口密度、道路长度以及6个气象特征数据共13个特征数据组成。最后,输出各个网格点在t时刻的PM2.5预测值。
3 试验结果与讨论
3.1 PM2.5预测结果
本文获取了2016—2019年共35 064 h的数据,基于PM2.5浓度显著的时空相关性,利用时间序列填补法和邻近站点填补法处理缺失值。基于时间相关性分析,并且为保证每次迭代预测的时间间隔一致,本文随机选取5个分区模型分别在[3 4 6 8 12]中选择时滞r进行试验,得到每个时滞下各个分区模型试验精度指标的平均值结果,由表 2可知,当r=12时,模型预测性能表现最好。
表 2 不同时滞的选择对模型性能的影响分析Tab. 2 Analysis of the influence of different time delays on model performance
时滞r |
RMSE/(μg/m3) |
MAE/(μg/m3) |
R2 |
3 |
11.28 |
8.44 |
0.76 |
4 |
10.56 |
7.83 |
0.79 |
6 |
8.01 |
5.76 |
0.86 |
8 |
7.88 |
5.46 |
0.87 |
12 |
6.45 |
4.23 |
0.93 |
表选项
为了验证预测模型的性能以及捕捉时间序列的能力,图 9展示了全国地区2019年1月1日—12月31日的日均PM2.5观测值和多层LSTM迭代模型预测的PM2.5浓度的变化曲线。由图 9可知,PM2.5预测值与观测值的时间变化趋势之间存在一致性,表明多层LSTM迭代模型能很好地预测未来PM2.5浓度的时间序列变化。
图 9 基于多层LSTM迭代模型的预测结果Fig. 9 Forecast results based on multi-layer LSTM iterative model
图选项
PM2.5预测值和观测值的回归图如图 10所示。本文不仅预测了2019年365天的PM2.5日均值(图 10(a)),也预测了基于每小时样本未来24 h的PM2.5平均值(图 10(b))。图 10(c)—(f)为1年4个时间段基于每小时样本的回归评价图,其中图 10(a)和图 10(b)的R2分别为0.96和0.88,并且从图 10(c)—(f)和表 3可以看出,PM2.5浓度具有明显的时间特征,表 3为预测模型的时段精度评价,可知预测模型在4个时间段总体表现良好,其中每年1—2月和9—12月R2值在0.90以上,这表明多层LSTM迭代模型总体能实现较高精度的PM2.5浓度预测。由图 9和图 10可知,模型的预测能力随时间的变化很明显,在6—8月期间,存在明显的PM2.5浓度低值高估的现象,如图 10所示,PM2.5浓度预测值和观测值之间的线性回归方程的斜率小于1并且截距大于0,可以推断出预报结果有低估高浓度和高估低浓度的趋势,其预测结果的区间往往小于观测值的区间,从侧面也反映了PM2.5浓度预测的复杂性。
图 10 PM2.5浓度预测值和观测值的回归图Fig. 10 Correlation between the observed and estimated PM2.5concentrations
图选项
表 3 多层LSTM迭代预测模型的4个时间段精度评价Tab. 3 Accuracy evaluation of four time periods of multi-layer LSTM iterative forecasting model
时间段 |
RMSE/(μg/m3) |
MAE/(μg/m3) |
R2 |
3—5月 |
5.86 |
4.49 |
0.85 |
6—8月 |
3.69 |
2.79 |
0.76 |
9—11月 |
5.39 |
4.08 |
0.93 |
1—2月,12月 |
8.57 |
6.61 |
0.90 |
表选项
3.2 PM2.5预测结果空间化
利用2016—2019年每个PM2.5监测站实时的数据,采用十折交叉验证的方式评估模型的性能。表 4为改进的S-BPNN空间化模型和S-BPNN模型十折交叉验证结果。由表 4可知,S-BPNN模型训练数据集和测试数据集的平均R2分别为0.77和0.75,而改进的S-BPNN模型R2分别为0.88和0.87,RMSE和MAE值都小于S- BPNN模型的值,RMSE和MAE的值分别提高了24.31%和25.33%,而且对比改进的S-BPNN模型和S-BPNN模型误差的标准差,可以发现改进的S-BPNN模型各项误差的波动较小,表明了改进的S-BPNN模型通过改变模型的网络结构,将空间滞后变量作为主要输入,其他特征数据作为辅助输入,可以实现更高的精度和稳定性,且适当增加隐藏层的层数可以提高模型的预测性能。本文基于预报模型预测的2020年7月29日未来24 h的PM2.5浓度,结合改进的S-BPNN空间化模型绘制了中国在空间分辨率为10 km时未来1~12 h、13~24 h和1~24 h PM2.5浓度的平均分布图,图 11展示了基于改进的S-BPNN模型全国大范围PM2.5预测值的空间分布(未来1 h、6 h、12 h、13~24 h平均和1~24 h平均)。如图 11所示,从季节上看,全国在夏季的PM2.5浓度值普遍偏低,全国大范围地区的PM2.5浓度值都低于30 μg/m3。从时间上看,PM2.5浓度值具有显著的时间相关性,相隔时间越短,其PM2.5浓度变化较小。从空间上看,我国PM2.5浓度值偏高地区主要集中于华北地区,这与该地区的产业发展,地理位置与气候条件等密切相关。
表 4 S-BPNN和改进的S-BPNN模型十折交叉验证结果Tab. 4 10-fold cross-validation results of S-BPNN and improved S-BPNN model
模型 |
指标 |
训练数据集 |
测试数据集 | ||||
RMSE /(μg/m3) |
MAE /(μg/m3) |
R2 |
RMSE /(μg/m3) |
MAE /(μg/m3) |
R2 | ||
S-BPNN |
Mean |
21.43 |
11.58 |
0.77 |
21.96 |
11.96 |
0.75 |
Std |
2.34 |
1.06 |
0.03 |
2.74 |
0.91 |
0.03 | |
改进的S-BPNN |
Mean |
15.77 |
8.48 |
0.88 |
16.62 |
8.93 |
0.87 |
Std |
1.86 |
0.78 |
0.02 |
2.13 |
0.76 |
0.02 |
表选项
图 11 基于改进的S-BPNN模型的全国大范围PM2.5预测值空间分布Fig. 11 Spatial distribution of predicted PM2.5concentrations in large-scale area based on improved S-BPNN model
图选项
3.3 大气污染物浓度预报原型系统
基于预报模型和空间化模型,建立大气污染物浓度预报原型系统,以此发布全国连续空间PM2.5浓度的预报结果。基于MySQL数据库为运行核心,原型系统主要包括数据管理、模型预测、实时预警及可视化展示4个模块,其中,数据管理模块用于实时大气污染物浓度、气象等数据实时的录入、管理等;模型预测模块主要基于多层LSTM迭代预报模型和改进的S-BPNN网络空间化模型,实现未来时刻大气污染物的时空预报;实时预警模块主要基于大气污染物预报的结果,实时评估大气污染物浓度的污染程度;可视化模块主要实时展示一定时期内的大气污染物浓度信息,实现相关信息的统计分析。图 12为大气污染物浓度预报原型系统的架构图,包括以下3个步骤。
图 12 大气污染物浓度预报原型系统架构Fig. 12 Architecture diagram of the prototype system of atmospheric pollutant concentration forecast
图选项
(1) 基于爬虫程序分别在全国城市空气质量实时发布平台(http://113.108.142.147:20035/)和中央气象台(http://www.nmc.cn/publish/forecast/)爬取小时尺度的大气污染监测站点数据以及未来7天的气象站点数据,并将爬取的数据入库。
(2) 利用2016年1月1日—2019年12月31日的实时PM2.5监测数据和气象数据,将全国各个站点分为68个区域并分别建模,训练得到满足监测精度的多层LSTM迭代预测模型,通过读取数据库中实时更新的站点数据,将数据输入已训练的多层LSTM迭代预测模型库中,其中输入的气象数据是基于GDAL进行实时空间插值的数据。同时借助于武汉大学超算中心(http://hpc.whu.edu.cn/),从而实时预测出未来24 h的PM2.5浓度变化,并将PM2.5预测值实时存储到数据库内,其中,采用武汉大学超算中心作为模型计算的平台,可提升模型的运行效率和稳定性。
(3) 读取数据库存储的预测数据,将数据传入应用层,并结合改进的S-BPNN空间化模型,生成实时预报结果的空间化影像图,应用层主要包括B/S网站,B/S网站(http://218.85.23.37:20104/)是基于ArcGIS API将模型预测的结果数据进行发布。B/S网站的重要功能包括预测结果的实时发布、数据的统计分析等,基本功能包括底图切换、地名和地名快捷选择等。预测结果也可以发布至移动端,方便用户用移动终端获取相关信息。
以上步骤如此循环,可以实现监测站点未来时刻的PM2.5预报以及对预测结果的空间化展示,并可实时在线发布区域的PM2.5空间分布特征数据以及统计后的PM2.5浓度变化的特征数据。
3.4 讨论
本文通过全国内1286个空气质量站点的PM2.5历史数据,通过分析PM2.5浓度的时空相关性和影响因素,通过结合多层LSTM迭代预测模型和改进的S-BPNN模型从而实现全国大范围PM2.5浓度空间化预报,由于如PM10、O3、SO2等大气污染物都为长时间序列数据,且皆具有显著的时空相关性,并且会受到气象等特征的影响,本文的方法可以根据实际情况选择合适的影响因素和时滞,也适用于全国大范围其他大气污染物(PM10、O3、SO2等)的时空预报。对全国大范围大气污染进行实时的时空预报可以提前有针对性地治理环境污染,降低大气污染物治理成本,从而提升大气污染物治理的效率。
本文构建的预报模型和空间化模型精度RMSE分别为6.11 μg/m3和16.62 μg/m3,相比于国家发布的《环境质量标准》 (http://www.mee.gov.cn/ywgz/fgbz/bz/bzwb/dqhjbh/dqhjzlbz/201203/W020120410330232398521.pdf)中的PM2.5二级24 h平均浓度限值为75 μg/m3,模型的误差较小,在可接受的误差范围之内,并不会影响模型的应用。但提出的模型也存在一定的局限性,如各个站点的PM2.5浓度预测值会存在高值低估和低值高估的现象,由于西藏地区监测站点数量较少,该地区的PM2.5浓度空间化预报存在一定的偏差等。大气污染空间化预报是一个复杂的问题,地面排放数据、遥感AOD(aerosol optical depth)数据等对PM2.5浓度预报也具有重要的作用。因此在未来的研究中,将应用这些数据建立基于深度学习的模型去改善存在的问题,从而提高全国大气污染时空预报的精度。
4 结论
本文利用深度学习的方法分别构建了多层LSTM迭代预报模型和改进的S-BPNN空间化模型,不仅可以提供各个站点未来的PM2.5浓度预报结果,而且能发布空间大范围连续覆盖的未来实时PM2.5浓度预报结果。本文基于PM2.5监测站的历史数据,考虑PM2.5浓度具有一定的区域效应,在一定范围内的各个监测站点间PM2.5浓度具有显著的时空相关性,将所有站点进行自适应分区并分别建立预报模型,同时结合空间化模型将预报结果空间化,以此搭建大气污染浓度预报原型系统从而实现全国PM2.5浓度高时空精度的实时预报,与此同时,根据监测的结果可实时更新预报模型和空间化模型的数据输入与输出,进一步优化PM2.5浓度预报结果。本文研究可对区域的大气污染物浓度进行实时预警,辅助相关政府部门制定相关大气污染物联防联控预案,并可以对公众环境空间质量信息服务提供有力的支持。
作者简介
第一作者简介:毛文婧(1997—) 女 博士 研究方向为GeoAI在城市的应用。E-mail: wenjingmao@whu.edu.cn
通信作者:焦利民 E-mail: lmjiao@whu.edu.cn
初审:张艳玲
复审:宋启凡
终审:金 君
往期推荐
资讯
○ 东华理工大学发布优秀人才招聘通知!
○ 《测绘学报(英文版)》被中国科学引文数据库CSCD收录
○ 贵州省第二测绘院2022年公开招聘(地信、测绘遥感等相关专业)
○ 自然资源部国土卫星遥感应用中心正式对外发布卫星激光测高产品
○ 要闻 | 修订后的《地名管理条例》公布,5月1日起施行
○ 中国地质大学康志忠教授荣获国际摄影测量与遥感学会主席荣誉奖
○ 刚刚!自然资源部印发技术文件,扎实推进新型基础测绘与实景三维中国建设工作
○《测绘学报》青年科学家沙龙(第1辑)报告日程
会议
○ 关于举办《测绘学报》青年科学家沙龙(第1辑)的通知
○ “第二届新型基础测绘高峰论坛”会议日程来啦!
○ 第二届“地理资源青年创新论坛”一号通知
○ Geoinformatics 2022 暨CPGIS成立30周年年会(二号通知)
《测绘学报》
○《测绘学报》同济专刊 | 龚健雅:智能遥感深度学习框架与模型设计
○ 测绘学报 | 王乐洋:协方差阵非负约束的赫尔默特方差分量估计
○《测绘学报》同济专刊(2022年第4期)目录
○ 测绘学报 | 姚翔宇:数字环境下面状要素分级设色的适宜方案分析
《测绘通报》
○ 《测绘通报》2022年第3期目录
○ 《测绘通报》2022年第2期目录
○ 地市级实景三维城市建设及应用
○ 基于GIS的东川区生态环境敏感性分析
《北京测绘》
○《北京测绘》2022年第2期摘要推荐
○《北京测绘》2022年第1期摘要推荐
○《北京测绘》2021年第12期摘要推荐
○《北京测绘》2021年第11期摘要推荐
《测绘科学技术学报》
○ 摘要 |《测绘科学技术学报》2021年第2期摘要推荐
○ 摘要 |《测绘科学技术学报》2021年第4期摘要推荐
○ 摘要 |《测绘科学技术学报》2021年第5期摘要推荐
○ 摘要 |《测绘科学技术学报》2021年第6期摘要推荐
《地球信息科学学报》
○ 《地球信息科学学报》2022年第4期佳文推介
○ 龚健雅院士:全球位置信息叠加协议与位置服务网技术研究进展与展望
○ 专题征稿:地球信息科学技术在旅游休闲领域的应用
○ 专刊征稿:社会感知与地理大数据挖掘(征稿中)
《测绘工程》
○ 摘要 |《测绘工程》2022年第2期摘要推荐
○ 摘要 |《测绘工程》2022年第1期摘要推荐
○ 摘要 |《测绘工程》2021年第6期摘要推荐
○ 佳文推介 | 单目视觉技术在室内定位中的应用研究
《中国空间科学技术》
○《中国空间科学技术》2022年第2期摘要
○《中国空间科学技术》2022年第1期摘要
○《中国空间科学技术》2021年第6期摘要
○《中国空间科学技术》2021年第5期摘要推荐
《卫星应用》
○《卫星应用》2022年第02期摘要○《卫星应用》2022年第01期摘要○《卫星应用》2021年第12期摘要○《卫星应用》2021年第11期摘要《Journal of Geodesy and Geoinformation Science》
○ 《测绘学报(英文版)》被中国科学引文数据库CSCD收录
○《测绘学报(英文版)》专刊征稿 | 地图学与地球空间信息教育:理论与实践
○ 《测绘学报(英文版)》专刊征稿 | 用于三维地理信息的摄影测量和计算机视觉
○ InSAR专刊 | 《测绘学报(英文版)》(JGGS)2022年第1期发布
○ GFZ德国地球科学研究中心-贺玉芳 | 《测绘学报(英文版)》(JGGS)InSAR专刊
○ 长安大学-朱武教授 | 《测绘学报(英文版)》(JGGS)InSAR专刊
《Satellite Navigation》
○ 杨飞博士:GNSS天顶对流层精化模型的构建与分析| SANA佳文速递
○ 2022征文| SatNav“普适定位、室内导航与基于位置服务”专题
○ 2022征文| SatNav“GNSS地学应用”专题
○ 李昕博士:多频多星座PPP-RTK原理及性能| SANA佳文速递
《自然资源遥感》
○ 摘要 |《自然资源遥感》2022年第1期摘要推荐
○ 《自然资源遥感》征稿:“海岸带空间资源及生态健康遥感监测”专栏
○ 摘要 |《自然资源遥感》2021年第3期摘要推荐
○ 摘要 |《自然资源遥感》2021年第4期摘要推荐
《Journal of Geovisualization and Spatial Analysis》
○《Journal of Geovisualization and Spatial Analysis》入驻“智绘科服”融媒体平台!
○ JGSA国际期刊2021年第5卷第2期论文摘要
○ 高被引论文推荐 | Journal of Geovisualization and Spatial Analysis
○ JGSA论文推荐 | 地理信息科学研究在过去几十年中都在关注什么?
《全球定位系统》
○《全球定位系统》入驻“智绘科服”融媒体平台!
○《全球定位系统》论文推荐 | 刘光明:我国常用地心坐标系的现状与发展
○《全球定位系统》2022年第1期目次
○《全球定位系统》2022年“卫星导航与增强”专栏征文
《导航定位与授时》
○《导航定位与授时》入驻“智绘科服”融媒体平台!