专利名称:一种基于近地面紫外辐射的近地面臭氧反演方法
专利类型:发明专利
专利申请号:CN202111245783.6
专利申请(专利权)人:武汉大学
权利人地址:湖北省武汉市武昌区珞珈山武汉大学
专利发明(设计)人:李四维,宋戈,杨洁,张茂林
专利摘要:本发明提供了一种基于近地面紫外辐射的近地面臭氧反演方法。本发明突破了直接利用卫星观测臭氧柱浓度进行反演的模型精度的限制,充分利用了光化学反应中紫外波段的辐射强度和近地面臭氧生成的理化性质和定量关系,实现了广覆盖、高精度的近地面臭氧的反演。此外,训练后的反演模型(深度学习模型)计算方便快速,可用于快速反演;转换结果准确,可应用于其他领域的研究。
主权利要求:
1.一种基于近地面紫外辐射的近地面臭氧反演方法,其特征在于,包括如下步骤:A)深度学习模型的搭建,所述深度学习模型为Stacking集成学习模型,该模型分为两层,其中第一层使用多种基础机器学习和神经网络模型,第二层使用Lasso模型,用于将第一层中的结果进行综合,得到最终的反演结果;
B)站点监测近地面臭氧浓度的统计模型的建立,包括站点监测臭氧与卫星观测近地面紫外辐射信息的时空匹配、以及深度学习模型的训练;
步骤B)的具体实现方式如下;
B1,准备长时间的大区域的卫星的近地面臭氧辐照度产品和臭氧柱浓度产品,并读取其在特定波长处的近地面辐照度、臭氧柱浓度和高程数据,以及日期和经纬度;其中波长为
380nm近地面辐照度记作UV,臭氧柱浓度记作CO3,高程数据记作EL,日期记作YY/MM/DD,即YY为年、MM为月、DD为日,经纬度分别记作LAT、LON;
B2,准备与卫星产品的时间覆盖范围相同的地面臭氧监测站点的数据与高程数据,地面臭氧监测站点的数据记作SO3,高程数据记作EL,根据最邻近原则将站点数据的经纬度与卫星数据的经纬度进行匹配,形成近地面紫外辐射与近地面臭氧的映射表;
B3,对于映射表中与监测站点相匹配的记录,根据记录构建深度学习模型,将上述表格中的YY、MM、DD、LAT、LON、UV、CO3、EL数据作为输入,将目标近地面臭氧数据SO3作为输出,训练并保存该深度学习模型;
C)基于卫星观测的近地面臭氧的估计,在已训练好的深度学习模型的基础上,快速估计卫星观测区域的近地面臭氧浓度;
步骤C)的具体实现方式如下;
C1,在对区域进行近地面臭氧反演时,反演目标的范围是所有有卫星观测数据的地区,从卫星观测数据文件中提取波长为380nm近地面紫外辐照度以及臭氧柱浓度,分别记作UV*、CO3*,同时提取经纬度,记作LAT*、LON*,和观测日期,记作YY*/MM*/DD*,即YY*为年、MM*为月、DD*为日,地表高程数据EL*从原始数据文件中提取,并与LAT*、LON*进行空间匹配,最终得到一张记录表,表中数据包括所有有卫星观测数据的记录;
C2,将卫星观测近地面紫外辐照度UV*、臭氧柱浓度CO3*、地表高程EL*、时间信息YY*/MM*/DD*和地理信息LAT*、LON*作为已训练的深度学习模型的输入,计算其所对应的近地面臭氧浓度SO3*。
2.如权利要求1所述的一种基于近地面紫外辐射的近地面臭氧反演方法,其特征在于:步骤A)中使用的多种基础神经网络模型中必须包括随机森林模型。
3.如权利要求1所述的一种基于近地面紫外辐射的近地面臭氧反演方法,其特征在于:步骤A)中使用的多种基础神经网络模型包括随机森林模型、极端梯度提升模型、轻度梯度提升模型、分类提升模型、支持向量机模型和残差神经网络模型这六种模型。
4.如权利要求3所述的一种基于近地面紫外辐射的近地面臭氧反演方法,其特征在于:残差神经网络模型的具体参数如下:编码器部分的隐藏层共四层,每层节点数分别为[256,
128,64,32];过渡层部分的隐藏层共两层,每层节点数分别为[16,16];解码器部分的隐藏层共四层,每层节点数分别为[32,64,128,256],其中编码器中每个隐藏层输出与解码器中相同节点数的隐藏层相加构成残差块,最后在解码器后增加一个全连接层以提取高效特征用于stacking第二层回归分析。 说明书 : 一种基于近地面紫外辐射的近地面臭氧反演方法技术领域[0001] 本申请涉及卫星被动遥感的技术领域,尤其涉及卫星的近地面臭氧遥感反演,特别是一种基于近地面紫外辐射的近地面臭氧反演方法。背景技术[0002] 近地面臭氧作为造成空气质量超标的首要污染物之一,对人类健康和生态环境均会产生负面影响。地面监测站点对臭氧的监测无法达到广覆盖的监测效果,因此卫星遥感对臭氧的监测因其覆盖度高而起到重要作用。现有的对近地面臭氧的遥感监测存在精度较低的问题,因此实现对近地面臭氧的高精度遥感反演是提升卫星被动遥感技术的重要应用成果。[0003] 现有的对近地面臭氧的遥感监测,很大程度上由于对臭氧形成机制理解的缺失,导致以臭氧柱浓度为主要数据,通过建立柱浓度与近地面臭氧的统计关系来实现对近地面臭氧的遥感反演。但由于柱浓度与近地面浓度的相关性低,导致无法建立与近地面臭氧和遥感观测信息的准确联系,近地面臭氧的准确反演无法实现。目前,在化学领域对近地面臭氧的前沿研究表明,其光化学机制的影响至关重要。因此,如何将臭氧光化学机制融合到近地面臭氧的反演过程,是准确反演近地面臭氧需要解决的重要问题。[0004] 另一方面,由于影响近地面臭氧的相关因素,如近地面紫外辐射等光化学生成因素、气象条件等传输过程因素、湿度等沉降因素,这些因素与近地面臭氧存在相当复杂的关系,其物理化学机制无法通过简单的统计关系进行拟合,因此需要使用加强的统计模型,对近地面臭氧和相关因素之间的关系进行捕捉。近年来,机器学习模型逐渐成为遥感反演领域的常用工具,针对该领域内数据的复杂情况有较好的解决效果。近年来,国内外相关文献报道了使用随机森林、卷积神经网络、残差神经网络、长短期记忆模型等方式对近地面臭氧及其相关因素的统计关系进行学习。然而,由于这种关系过于复杂,当前的模型还无法准确捕捉这种统计关系,因此,需要更高级的深度学习来完成这一目标。[0005] 综上所述,现有反演算法基于臭氧柱浓度以及地表气象信息的近地面臭氧,仅能提供有限信息。而将臭氧光化学机制融合到近地面臭氧的反演过程,并结合深度学习模型,能够实现近地面臭氧的准确反演,为近地面臭氧的监测提供工具,拓展卫星被动遥感技术的发展和应用。发明内容[0006] 为了实现卫星高精度遥感反演近地面臭氧浓度的目的,本发明使用Stacking集成学习这种机器学习的方式来建立基于近地面紫外辐射的近地面臭氧反演模型。该模型使用卫星观测的近地面紫外辐射作为决定性数据,通过Stacking模型构建统计关系,既能够建立与站点监测的近地面臭氧的准确联系,又能保证卫星遥感反演臭氧的覆盖度。因此,这是本发明可能够实现近地面臭氧反演高精度、广覆盖的关键。[0007] 本发明中的关键在于融合了大气光化学机制于近地面臭氧的反演过程中。本发明利用了近地面臭氧的链式反应生成机制,如反应(1)‑(3)所示。其中,链式反应的决速步骤在于反应(1)中的输入能量条件,即近地面紫外辐射。近地面紫外辐射作为臭氧光化学生成的决定性因素,其在区间波段(小于420纳米)能够发生特定的光化学反应,通过从区间波段中建立不同特定波长紫外辐射与近地面臭氧的反演关系,评估模型提升反演精度的效果。本发明的反演模型最终使用的380nm的紫外辐射强度,既能够反映臭氧的生成关系,同时排除了对流层臭氧吸收的干扰,从而能够与近地面臭氧建立强相关关系。本研究中的算法采用了上述的光化学机制,能够为准确捕捉近地面臭氧的内在机制特征提供支持,是本发明能够实现高精度近地面臭氧的关键。[0008] 因此,建立近地面紫外辐射和近地面臭氧的定量关系,就能实现高精度的近地面臭氧的遥感反演。[0009] NO2+hv(λ<420nm)→NO+O(3P)(I)[0010][0011] O3+NO→NO2+O2(3)[0012] Stacking集成学习能够综合各种回归器的优势,进而提高模型精度。Stacking集成学习分为两层,其中第一层使用了RandomForest(随机森林)、XGBoost(极端梯度提升)、LightGBM(轻度梯度提升)、Catboost(分类提升)、SVM(支持向量机)和ResidualCompiler(残差神经网络)这六种模型,这些模型的集成使用能够可以综合各种回归器的优势,得到高度凝练的新特征,为下一步预测提供支撑,从而提升模型精度。其中,RandomForest模型能够产生对泛化误差的内部无偏估计;XGBoost模型可以有效防止过拟合,从而提高模型的泛化能力;LightGBM处理速度快、使用内存少,工业应用价值高;Catboost模型减少了对超参数调优的需求,模型通用性高;SVM模型能够捕捉对任务至关重要的关键样本,进而高效处理非线性问题;ResidualCompiler能够通过实现缓解神经网络中的梯度弥散问题而获得高精度结果。本发明中的残差网络构造设计,引入了一种改进的深度编译码结构作为网络内部拓扑结构的基础,并在内部使用矫正线性单元(ReLU)激活函数,每个隐含层之后立即使用批归一化(BN),以抵消两个相邻隐含层之间的内部协变量移位。同时在编码层的隐藏单元后增加了dropout层以达正则化减少泛化误差的目的。残差网络是利用跳过连接或快捷键跳过一些隐藏层来实现残差连接,实现避免梯度消失的目的。其最优网络结构可通过网格搜索实现。Stacking集成模型的第二层使用简单的Lasso(套索算法)模型,将第一层中的结果进行综合,得到最终的反演结果,其优势在于模型复杂度低且避免了过拟合的发生。结合这些模型,Stacking集成模型因此在结果准度、泛化能力、应用效率、通用性等方面均表现优良。最终使用的深度学习模型构架图如附图说明部分所示。本研究中的深度学习模型采用了上述的复杂结构,能够为准确捕捉近地面臭氧及其相关因素的数据特征以及得到准确的近地面臭氧相关关系提供支持,是本发明能够实现高精度近地面臭氧的关键。[0013] 为了实现高精度的近地面臭氧反演,本发明在以往模型的基础上进行的模型输入变量的特征选择,包括以下内容:1)强调光化学反应与近地面臭氧浓度的相关性,选择近地面紫外强度作为输入特征;2)考虑臭氧垂直分布对近地面臭氧的影响,选择臭氧柱浓度作为输入特征;3)基于近地面臭氧具备的空间特征,即臭氧浓度在污染物排放处高,并且向邻近空间扩散,模型输入采用空间信息,包括经度和纬度;4)基于近地面臭氧具备的时间特征,即臭氧浓度在夏季高冬季低,并且邻近日期的臭氧浓度相关性高,模型输入采用时间信息,包括年、月、日;5)强化臭氧分布的空间特征,选择地表高程作为输入特征。[0014] 为实现上述目的,本发明的实施步骤包括三部分:A)深度学习模型的搭建、B)站点监测近地面臭氧浓度的统计模型的建立、C)基于卫星观测的近地面臭氧的估计。深度学习模型的搭建包括Stacking集成学习的构建以及其中的ResidualCompiler的构造;站点监测近地面臭氧浓度的统计模型的建立包括站点监测臭氧与卫星观测近地面紫外辐射信息的时空匹配、以及深度学习模型的训练;基于卫星观测的近地面臭氧的估计是在已训练好的深度学习模型的基础上,快速估计卫星观测区域的近地面臭氧浓度。[0015] A)深度学习模型的搭建[0016] 1、深度学习模型搭建环境配置为python3.8,深度学习框架为Tensorflow库、Keras库、mlxtend库、catboost库、xgboost库、lightgbm库和sklearn库。[0017] 2、由于集成学习对于提高机器学习(或深度学习)模型的泛化能力有较高提升,故选择一个集成学习框架作为反演模型的基础。在这里选择Stacking集成框架(模型堆叠框架),其具有综合各种机器学习(深度学习)模型优势的能力。[0018] 3、Stacking框架第一层选择RandomForest、XGBoost、LightGBM、CatBoost、SVM和ResidualCompiler(残差神经网络)六种模型,第二层选择Lasso广义线性回归模型。[0019] 4、ResidualCompiler(残差神经网络)是基于自编码器的深度学习模型框架和残差卷积神经网络(ResNet)中独特的残差块两种深度学习中表现突出的模型搭建思路应用于MLP构建的模型。ResidualCompiler的具体参数如下:编码器部分隐藏层共四层,每层节点数分别为[256,128,64,32];过渡层部分隐藏层共两层,每层节点数分别为[16,16];解码器部分隐藏层共四层,每层节点数分别为[32,64,128,256]。其中编码器中每个隐藏层输出与解码器中相同节点数的隐藏层相加构成残差块。最后在解码器后增加一个具有10个节点的全连接层以提取10个高效特征用于stacking第二层回归分析。[0020] 5、除RandomForest中设置超参数决策树个数为100外,其他五种机器学习(或深度学习)模型的超参数由网格搜索方法确定。该深度学习模型记作DL。[0021] B)根据卫星产品建立站点监测近地面臭氧浓度的统计模型[0022] 1、准备长时间的大区域的卫星的近地面臭氧辐照度产品和臭氧柱浓度产品,并读取其在380nm波长处的近地面辐照度(记作UV)、臭氧柱浓度(记作CO3)以及高程数据(记作EL),以及日期(YY/MM/DD)和经纬度(记作LAT、LON)。例如OMUVBd产品,它是基于OMI观测得到的近地面紫外辐照度产品,包含305、310、324以及380nm等数个特定波长下的近地面紫外辐照度,其中380nm为与臭氧光化学反应紧密相关的波段,因此在本发明中选择其作为关键数据。以及OMDOAO3e产品,它是OMI观测得到的臭氧柱浓度每日全球产品。[0023] 2、准备与卫星产品的时间覆盖范围相同的地面臭氧监测站点的数据(记作SO3),根据最邻近原则将站点数据的经纬度与卫星数据的经纬度(LAT、LON)进行匹配,形成近地面紫外辐射与近地面臭氧的映射表。臭氧监测站点的数据,例如MDA8,它是站点监测的每日8小时滑动平均的臭氧最大值;或者O3_24h,它代表每日臭氧的平均值;或者14时臭氧瞬时值。这些数据指标均可作为臭氧监测站点使用的数据,本模型的臭氧反演目标与使用臭氧数据类别相对应。[0024] 3、对于映射表中与监测站点相匹配的记录,根据记录构建深度学习模型(记做DL),将上述表格中的YY、MM、DD、LAT、LON、UV、CO3、EL等数据作为输入,将目标近地面臭氧数据SO3作为输出,训练并保存该深度学习模型。[0025] C)基于卫星观测的近地面臭氧的估计[0026] 1、在对区域进行近地面臭氧反演时,反演目标的范围是所有有卫星观测数据的地区。从卫星观测数据文件中提取波长为380nm的近地面紫外辐照度以及臭氧柱浓度(记作UV*、CO3*)。同时提取经纬度(记作LAT*、LON*)和观测日期(YY*/MM*/DD*)信息。地表高程数据EL*从原始数据文件中提取,并与LAT*、LON*进行空间匹配,最终得到一张记录表,表中数据包括所有有卫星观测数据的记录。[0027] 2、将卫星观测近地面紫外辐照度(UV*)、臭氧柱浓度(CO3*)、地表高程(EL*)、时间信息(YY*/MM*/DD*)和地理信息(LAT*、LON*)作为已训练的深度学习模型(DL)的输入,计算其所对应的近地面臭氧浓度(SO3*)。[0028] 本发明实现的基于近地面紫外辐照度反演近地面臭氧的方法突破了直接利用卫星观测臭氧柱浓度进行反演的模型精度的限制,充分利用了光化学反应中紫外波段的辐射强度和近地面臭氧生成的理化性质和定量关系,实现了广覆盖、高精度的近地面臭氧的反演。此外,训练后的反演模型(深度学习模型)计算方便快速,可用于快速反演;转换结果准确,可应用于其他领域的研究。附图说明[0029] 图1为本发明实施例流程图。[0030] 图2为Stacking集成学习框架图。[0031] 图3为模型反演数据与观测数据的散点图,其中a)为基于样本的十折交叉验证结果;b)为基于站点的十折交叉验证结果;c)为基于时间的十折交叉验证结果。[0032] 图4为不同验证方式下是否使用近地面紫外辐照度对模型精度的影响。具体实施方式[0033] 下面结合附图和实施例对本发明的技术方案作进一步说明。[0034] 1、实施目标[0035] 以基于卫星遥感结果进行中国范围内时空间连续的近地面臭氧反演、并将结果与空气质量标准进行比较为例。之前的反演方法中主要使用臭氧柱浓度和地表气象信息实现反演,但反演精度较低,无法满足实际应用的需要。为了实现高精度的近地面臭氧反演,除了常规反演方法中使用的臭氧柱浓度外,在反演过程中需要用到时空间连续的近地面紫外辐照度作为关键数据。因此在反演过程中可应用本发明来快速反演近地面臭氧浓度。[0036] 2、数据选择[0037] 基于Aura卫星OMI仪器生产的OMUVBd近地面紫外辐射产品能够提供380nm的紫外波段信息,该波段与臭氧的光化学反应生成密切相关。选择2018全年的OMUVBd产品,覆盖范围为经度73°‑135°,纬度18°‑54°范围内的产品数据为基准数据。同样基于Aura卫星OMI仪器生产的OMDOAO3e产品能够提供臭氧柱浓度数据,它因为与近地面紫外辐照度产品来自同一个传感器,在采样时间上能够自动匹配。为了研究中国近地面臭氧,选择中国环境监测总站的全国城市空气质量实时发布平台上发布的臭氧站点监测数据。我国对臭氧的每日空气质量标准以臭氧的最大8小时滑动平均为指标,因此才有臭氧监测站点的MDA8数据作为研究目标。地表高程数据采用USGS提供的数据。以上述数据来建立近地面臭氧浓度的统计模型(深度学习模型)。[0038] 3、实施过程[0039] A、深度学习模型(DL)的搭建[0040] 1)装载python3.8,并安装Tensorflow库、Keras库、mlxtend库、catboost库、xgboost库、lightgbm库和sklearn库。[0041] 2)搭建Stacking框架,第一层选择RandomForest、XGBoost、LightGBM、CatBoost、SVM和ResidualCompiler六种模型,第二层选择Lasso广义线性回归模型。其中,ResidualCompiler的构造按图3的方式进行设计。[0042] 3)除RandomForest中设置超参数决策树个数为100外,其他三种机器学习模型的超参数由网格搜索方法确定。[0043] 4)编写输入数据和输出数据的接口,准备模型后续训练。该深度学习模型记作DL。[0044] B、建立站点监测近地面臭氧浓度的统计模型[0045] 1)收集2018年中国范围的OMUVBd产品、OMDOAO3e产品以及USGS‑SRTM产品,并收集每日的地面空气质量监测站点的MDA8数据。[0046] 2)根据各自产品中的时间和经纬度信息,得到有卫星观测数据(UV,CO3)的数据记录表,并根据最邻近原则与站点监测数据(SO3)和地表高程数据(EL)进行时空间匹配,数据记录的空间分辨率为0.25°,时间分辨率为每天。[0047] 3)将数据记录表作为训练数据,选择深度学习模型(DL)作为近地面臭氧的统计模型,训练并保存训练后的模型。该训练过程只需进行一次,训练时将UV、CO3、EL和时空间信息等数据作为输入,将SO3作为输出。[0048] C、卫星观测近地面臭氧柱浓度的估计[0049] 1)基于卫星观测产品,对有卫星数据的区域数据进行记录。得到有卫星观测数据区域的数据记录表(UV*、CO3*等数据),并记录观测的日期(YY*/MM*/DD*)和经纬度信息(LAT*、LON*),以及经纬度对应的高程(EL*)。数据记录的空间分辨率为0.25°,时间分辨率为每天。[0050] 2)将上述UV*、CO3*、EL*、YY*、MM*、DD*、LAT*、LON*等数据作为输入,通过已训练的DL模型计算得到SO3*。[0051] 4、结果评价[0052] 为验证本发明的可行性、鲁棒性,我们对模型进行了十折交叉检验。试验将上述收集的一一对应的2018年包含卫星观测近地面紫外辐射和臭氧柱浓度的数据以及地表高程的数据随机分为90%训练集以及10%测试集,并循环10次至所有的数据均被测试。图1展示了本发明对于补全近地面臭氧的精度,其中a)展示了本发明的方法可以达到0.85的精度,且均方根误差仅为17,表明本发明能够取得高精度的近地面臭氧浓度反演效果。从三种验证方法来看,均能达到很高的反演精度,说明本方法具备一定的时间和空间的泛化能力。[0053] 通过不同的验证方法,即基于样本、基于空间、基于时间和基于临近信息的十折交叉验证结果,比较使用近地面紫外辐照度信息和不使用近地面紫外辐照度信息的反演近地面臭氧浓度的结果。图2展示了使用各种验证方法后,得到使用近地面紫外辐照度信息和不使用近地面紫外辐照度信息的模型精度相差很大,在样本验证中精度达到0.841,较原有方式0.794有显著提升;在空间验证中精度达到0.811,较原有方式0.767也有明显提升;在时间验证中精度达到0.693,较原有方式0.629有更为显著的差异;在临近信息验证中精度达到0.776,较原有方式0.732,也能体现近地面紫外辐射信息的优越性。因此,若不采用本发明中的实施方案,而是直接使用臭氧柱浓度作为反演的主要数据,误差会大很多。[0054] 本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
专利地区:湖北
专利申请日期:2021-10-26
专利公开日期:2024-07-26
专利公告号:CN114021436B