遥感定量反演与同化理论(团队论文联合LiDAR和多光谱数据森林地上生物量反演研究)
遥感定量反演与同化理论(团队论文联合LiDAR和多光谱数据森林地上生物量反演研究)本期论文推荐的作者以LiDAR数据和 Landsat8 OLI 数据为数据源 结合地面实测数据 进行数据源的不同组合 并筛选优化特征 再以多元线性回归及KNN-FIFS两种算法建模 对研究区典型的寒温带落叶松林进行森林AGB反演 最后 对各自模型的适宜性及精度及准确性进行对比分析 从而为推动大兴安岭地区典型森林AGB动态监测提供参考。利用遥感数据进行森林AGB反演通常采用参数模型和非参数模型两类方法 多元线性逐步回归为参数模型方法中反演森林AGB既常用又有效的算法。非参数模型中的KNN-FIFS ( k-nearest neighbor with fast iterative features selection KNN-FIFS)算法是韩宗涛川2017年基于马氏距离K-NN算法 提出以迭代方式优选遥感特征 并将特征因子优化组合的反演模型。韩宗涛等以Landsat8 OLI 和SAR数据
原创 巨一琳等 南京林业大学学报
专题报道
联合LiDAR和多光谱数据森林地上生物量反演研究
巨一琳1,姬永杰2*,黄继茂2,张王菲1
1.西南林业大学林学院;2.西南林业大学地理与生态旅游学院所
森林是陆地生态系统的主体 在生物圈的生物地球化学过程中起着重要的“缓冲器”和“调节器”的功能 对改善生态环境、维护生态平衡有着重要的作用。森林地上生物量(above-ground biomass,AGB)作为森林生产力的重要评价指标,是评估森林碳收支的重要参数 是系统发挥其他生态功能的物质基础 也是进行陆地生态系统碳循环的重要内容。森林地上生物量的传统调查方法是通过现地测量森林的胸径及树高等因子 使用异速生长方程或蓄积量-生物量模型计算森林地上生物量。基于资源清查的人工调查方法可准确估算森林地上生物量 但其需要花费大量时间、人力和物力 还会对森林造成一定的干扰与损伤 且只适于较小区域的森林AGB估算。不同于传统资源调查方法 使用遥感技术立足不同传感器获取影像 可快速准确、连续、动态、长期的估算森林ACB 同时可在大区域范围内实现森林AGB的估算。基于遥感技术的森林AGB反演有光学遥感、激光雷达、微波遥感等方式 在不造成森林生态损伤的前提下可极大提高对森林AGB反演的效率和精度。
多光谱遥感具有丰富的光谱特征及植被指数,但其穿透性差 难以获取森林垂直结构特征 并且估算森林生物量时容易出现易饱和、敏感性差的现象。激光雷达(light delection and ranging,LiDAR)具有穿透植被叶冠 并能直接获取目标的三维坐标 对地形、林木高度和植被空间结构的探测具有极大优越性。将多光谱遥感与LiDAR数据相结合 进行森林AGB反演是当前研究的热点之一。Popescu等融合机载LiDAR数据和多光谱数据 结合地面调查数据建立森林生物量反演模型 结果显示两种数据的融合比单一数据反演AGB精度更高。徐婷等借助LiDAR和 Landsat8 OLI多光谱数据采用线性多元逐步回归法分别建立森林生物量反演模型 结果表明两种数据建立的综合模型反演精度更高。卜帆结合机载LiDAR和高光谱数据进行生物量反演 结果表明两种数据结合时采用支持向量机建立森林生物量反演模型精度较高 决定系数(R²)达到0.7。
利用遥感数据进行森林AGB反演通常采用参数模型和非参数模型两类方法 多元线性逐步回归为参数模型方法中反演森林AGB既常用又有效的算法。非参数模型中的KNN-FIFS ( k-nearest neighbor with fast iterative features selection KNN-FIFS)算法是韩宗涛川2017年基于马氏距离K-NN算法 提出以迭代方式优选遥感特征 并将特征因子优化组合的反演模型。韩宗涛等以Landsat8 OLI 和SAR数据为数据源 采用KNN-FIFS算法对大兴安岭根河研究区森林AGB进行估测 结果表明KNN-FIFS算法精度显著优于多元线性逐步回归法(SMLR)及K-NN算法 R²达到0.77。孙少伟等采用KNN-FIFS算法结合2009年和2014年两期主、被动遥感数据 进行特征组合及快速优化构建估测模型 结果表明KNN-FIFS算法可大幅度提升高维度、多模式遥感特征优选效率。
本期论文推荐的作者以LiDAR数据和 Landsat8 OLI 数据为数据源 结合地面实测数据 进行数据源的不同组合 并筛选优化特征 再以多元线性回归及KNN-FIFS两种算法建模 对研究区典型的寒温带落叶松林进行森林AGB反演 最后 对各自模型的适宜性及精度及准确性进行对比分析 从而为推动大兴安岭地区典型森林AGB动态监测提供参考。
下面跟学报君一探究竟!
作者简介
通讯作者
姬永杰,男,山西屯留人,硕士研究生导师。地图学与地理信息系统硕士,森林经理学专业、林业遥感与信息技术研究方向博士,主要从事SAR、多光谱、LiDAR遥感数据在林业参数反演中的研究与应用。
第一作者
巨一琳,女,吉林长春人,在读硕士。西南林业大学林学院林业硕士,研究方向:数字林业与森林资源管理。
关键词:机载激光雷达(LiDAR);Landsat8 OLI;森林地上生物量;偏最小二乘法;线性多元逐步回归;最近邻算法
基金项目:国家自然科学基金项目(31860240 32160365 42161059);云南省万人计划青年拔尖人才项目(80201444);云南省教育厅科学研究基金(2020Y0393)。
引文格式:巨一琳 姬永杰 黄继茂 等.联合LiDAR和多光谱数据森林地上生物量反演研究[J].南京林业大学学报(自然科学版) 2022 46(1):59-69.JU Y L JI Y J HUANG J M et al.Inversion offorest aboveground biomass using combination of LiDAR andmultispectral data[J].Journal of Nanjing Forestry University (Natural Sciences Edition) 2022 46(1):59-69.DOI:10.12302/j.issn.1000-2006.202109029.
1目的
森林地上生物量的准确估测对于实时掌握全球碳储量变化及应对气候变化有着重要的意义。组合多种遥感数据特征优选 分类建模反演森林地上生物量 是提高森林地上生物量精度的有效方法。
2方法
以根河市大兴安岭生态观测站寒温带天然林为研究对象 以机载激光雷达(LiDAR) 、 Landsat8 OLI两种遥感数据源结合55块地面调查数据。采用偏最小二乘算法优化筛选变量 再以线性多元逐步回归和快速迭代特征选择的最近邻算法(KNN-FIFS)构建模型 在两种数据源的不同组合方式下进行森林地上生物量反演。
2.1 研究区概况
研究区位于内蒙古根河市大兴安岭森林生态系统国家野外科学观测研究站(121°30’~121°31'E 50°49'~50°51'N)。面积为102 k㎡ 高程范围为810~1 116 m 为我国目前纬度最高的森林生态系统野外科学观测站。研究区属寒温带大陆季风气候 年均气温-5.3 ℃ 气温年较差47.4 ℃ 为高纬度多年冻土 寒温带森林生态系统的典型区域。该生态站森林植被覆盖度达75%以上 优势树种有兴安落叶松(Larix gmelinii)、樟子松(Pinus sylvestris var. mongolica )、阔叶树白桦(Betula platyphylla)和山杨(Populus davidiana)等。研究区地理位置见图1。
▲图1 研究区地理位置及样地分布
▲大兴安岭森林生态系统国家野外科学观测研究站
2.2 研究区数据获取
2.2.1 机载LiDAR数据获取
本研究使用的机载LiDAR数据以“运-5”为机载平台 载有Leica机载雷达系统 获取时间为2012年8—9月 平均飞行高度2700 m 共 32个航带 激光脉冲发射频率为100~200 kHz 扫射角度为±35°。传感器记录了首次和末次激光返回信息 记录点云数据的三维坐标信息﹑高程值、强度信息以及返回类型等信息。
2.2.2 Landsat8 OLI数据获取
本研究使用的多光谱数据为Landsat8 OLI 数据中的B1—B7波段 从地理空间数据云官方平台获取。考虑到2013年8—9月研究区光学遥感影像云层覆盖比较严重 另选取成像时间为2013年10月19日 影像无云层覆盖 航带号为123/24 的一景数据。具体参数见表1。
▼表1 Landsat8 OLI陆地成像仪参数
2.2.3 样地调查数据获取
研究区样地调查数据分别获取于2012年37块30 m×30 m固定样地和2013年18块45 m×45 m 临时样地 共55块。样地位置采用差分GPS定位 精度控制在1 m以内。样地进行每木调查 因子为胸径、树高、枝下高、冠幅﹑相对坐标 同时记录样地林分特征 灌木、草本的种类以及高度等参数。样地优势树种包括兴安落叶松和白桦两种 样地内两类树单木生物量的计算采用式(1)和式(2)得到 样地生物量采用陈传国等的幂指数异数生长方程式(3)得到。
式中:W为森林生物量,BBH为实测胸径。
2.3 研究方法
2.3.1 遥感数据处理
2.3.1.1 LiDAR数据预处理
LiDAR数据处理前期部分由数据供应商完成转换、拼接及质量检测;后期部分主要借助于数字绿土LiDAR360软件。主要包括以下步骤:点云数据定义坐标系、点云去噪、提取地面点、提取植被点﹑提取DEM 以及点云归一化。归一化后得到的冠层高度即去除地形高度影响得到的真实树高 最后将点云特征提取到样地尺度上。
2.3.1.2 Landsat8OLI数据预处理
本研究获取的Landsat8 OLI数据已完成地形的几何校正 因此在预处理影像时不用做几何校正。使用ENVI5.3软件进行辐射定标和大气校正,通过辐射定标可以实现DN值与辐射亮度、反射率值等物理量之间的转化;大气校正消除大气和光照等因素对地物反射的影响从而获取其真实的地表反射率。
2.3.2 遥感影像特征提取
机载LiDAR第1次回波信息鲁棒性较强 将第1次脉冲回波形成的参数应用在森林AGB反演结果中效果较好。
Landsat8 OLI影像提取4类变量因子 分别为单波段因子、植被指数、主成分分析因子、纹理因子。单波段因子包括B1—B7 植被指数包括归一化植被指数(INDVI)、差值植被指数(IDVI)、比值植被指数(IRVI)、土壤调节植被指数(ISAVI)、增强植被指数(IEVI)、有效叶面积指数(ISLAVI)、地表反照率(RAlbedo)、B4/RAlbedo、B547、B65、B74等变量。主成分分子因子提取了前3个波段(PCa1—PCa3);纹理因子提取了B1—B7波段的8种纹理信息 包括:均值(Me)、方差(variance,Var)、对比度(contrast Con)、信息嫡(entropy En)、协同性(homogeneity 、Homo)、相异性(dissimilarity 、Dis)、二阶矩(secondorder moment Sec)、相关性(correlation,Cor) 。LiDAR和Landsat8 OLI变量含义及公式见表2。
▼表2 LiDAR和Landsat8 OLI特征变量汇总
2.3.3 变量筛选和建模分析
2.3.3.1 偏最小二乘法及变量投影重要性分析
偏最小二乘回归是对多元线性回归模型的一种扩展 是在普通多元回归的基础上增加主成分分析、典型相关分析的思想,很好地解决了只用一个线性模型来描述独立变量Y与预测变量组X之间的关系。
变量投影重要性(VIP)是基于偏最小二乘法基础上进行变量筛选的过程 用来判断单个自变量在解释因变量的重要性 如果自变量对因变量的重要性越大 则VIP值越大;如果各自变量对y的解释作用一样 所有的VIP值均为1 ; Wold建议用0.8作为临界值作为区分重要变量与不重要变量 其计算公式为:
式中:k为自变量个数 ch为相关自变量提取的主成分 r(y ch)为因变量和主成分的相关系数 表示主成分对y的解释能力 Whj为自变量在主成分上的权重。
2.3.3.2 线性多元逐步回归
线性多元逐步回归是一种线性多元回归模型 进行变量筛选的算法,其回归模型为:
式中:Y是生物量的值;x1、x2……、xm是预测变量,β0为常数项,β1、β2……βm为回归方程的系数;ε是随机误差值。
2.3.3.3 KNN-FIFS方法
本研究采用韩宗涛提出的KNN-FIFS方法 是在k-NN方法的基础上进行特征因子优化组合 提高森林参数反演效率。KNN-FIFS组合优化基本原理如下:
1)设样地数为n 特征数为m 由样地数据和遥感特征提取训练数据 即样地对应特征所在像元的值;
2)初始化最优特征子集为空集 因此最优模型均方根误差理论上为最大值;基于k-NN 法,依次利用特征建立森林AGB反演模型 得到最优特征子集个数的k-NN反演模型及每个模型对应的均方根误差(RMSE) ;
3)得到的最优RMSE,即 RMSE最小值,设该值为σ(RMSEb),将研究区 RMSE最大值设为RMSE。[σ(RMSE)]。若σ(RMSEb)<σ(RMSE0)则将σ(RMSEEb)赋给aσ( RMSE0),并将RMSEb对应的特征子集赋给特征子集 反之迭代结束。
KNN-FIFS 算法在迭代运行中 当距离度量标准确定时,K值将影响反演结果 而K值则受样地信息以及参数等因素影响。其中K值默认为1~11 光谱特征信息提取窗口为1~11。
2.3.3.4 精度验证评价方法
反演精度评价采用决定系数(R²)和均方根误差[RMSE 式中记为σ(RMSE) ] 以及相对均方根误差[ RMSEr 式中记为σ(RMSEr)]来检验 R²越接近1 代表着模型精度越高;精度验证采用留一交叉验证方法。RMSE值越低 说明回归模型更准确。计算公式如下:
式中:Yi代表实测生物量 Y-代表实测生物量均值 n为样本量 y^为估测森林生物量的平均值。
3结果
①基于线性多元逐步回归模型下的单一LiDAR数据反演精度决定系数(R²)为0.76 均方根误差(RMSE)为21.78t/h㎡;单一Landsat8 OLI数据的反演精度R²为0.24 RMSE为39.27 t/h㎡ ;L.iDAR&Landsat8 OLI联合反演精度为0.84 RMSE为18.16 t/h㎡;②基于KNN-FIFS模型下的单一LiDAR数据反演精度R²为0.74 RMSE为23.83 t/h㎡;单一Landsat8 OLI数据的反演精度R²为0.60 RMSE为29.63 t/h㎡; LiDAR&Landsat8 OLl联合反演精度R²为0.80 RMSE为21.15 t/h㎡。
本研究先采用偏最小二乘法对不同的遥感数据源组合方式提取的参数进行信息重要性排序,再依据其重要性排序确定最优参数组合 最后使用线性多元逐步回归和KNN-FIFS 算法构建森林AGB反演模型。
3.1 遥感影像参数优选
采用偏最小二乘法回归算法进行参数优选 依据变量投影的重要性(VIP)做变量筛选 选择0.8以上的变量后续分析建模。将 LiDAR和Landsat8 OLI所提取的参数作为自变量输入SIMCA 14.1中进行偏最小二乘法回归算法的建模和VIP值排序,筛选VIP>0.8的影像参数进行后续森林AGB反演模型构建。单一LiDAR遥感数据时筛选得出18个参数;单一Landsat8 OLI遥感数据时筛选得出38个参数;LiDAR 、Landsat8 OLI两种遥感数据组合时筛选得出33个参数(图2)。
▲图2 筛选变量的VIP值
3.2 森林AGB反演模型构建
将在单一 LiDAR、单一 Landsat8 OLI及LiDAR&Landsat8 OLI联合遥感数据3种组合形式下的优选参数 及地面实测样地数据 分别作为自变量和因变量输入线性多元逐步回归和KNN-FIFS模型 使用R²和RMSE分析各模型反演的结果 并分析各模型精度和适宜性。
3.2.1 线性多元逐步回归模型建立
在多源遥感数据分别是单一LiDAR、单一Landat8 OLI、LiDAR&Landat8 OLI 3种组合时 将使用偏最小二乘法筛选而得的18、38、33个参数输人线性多元逐步回归模型 最后进一步筛选得出以下特征和形成最优模型。模型结果及最优参数见表3和图3。
▼表3 多元逐步回归参数方程
▲图3 多元逐步回归模型参数对应结果
3.2.2 KNN-FIFS模型建立
在两种遥感数据源及3种组合方式下 以述偏最小二乘算法筛选出的参数输入KNN-FIFS模型。KNN-FIFS算法的最佳模型参数见表4 进一步特征筛选结果见表4和图4。在单一Landat8 OLI、LiDAR&Landat8 OLI两种数据组合方式下 均筛选得出B65参数。说明该参数对于森林AGB相关性较大且较为敏感 这是因为植被在红光波段有着很强的吸收特性 同时在近红外波段有着很强的反射特性 故选择近红外和红光波段进行植被遥感监测效果最佳。另在两种数据组合最后筛选参数中分别包含了冠层密度和高度百分参数 说明这两种体现森林水平和垂直结构因子的参数 在反演森林AGB中发挥着关键性的作用。
▼表4 KNN-FIFS 特征组合
▲图4 KNN-FIFS 模型参数的对应结果
3.3 森林地上生物量反演结果对比
由模型评价结构(表5)可知模型反演精度如下:①单一LiDAR数据的线性多元逐步回归模型和 KNN-FIFS模型反演精度相差不大 R²、RMSE以及RMSEr仅相差0.02、2.05 t/h㎡和1.57% 总体上线性多元回归模型的精度更好、对于数据的适宜性更好。②单一Landsat8 OLI数据的线性多元逐步回归模型和KNN-FIFS模型反演精度相差较大,R²、RMSE以及RMSEr已相差0.36、9.64 t/h㎡以及15.42% KNN-FIFS模型明显具有较高的精度及对Landsat8 OLI 数据的适宜性。③LiDAR&Landsat8 OLI 数据组合的两种模型反演精度均较高 分别为线性多元逐步回归模型和KNN-FIFS模型在各种数据组合方式的最高。两种模型的反演精度也相差较小 R²、RMSE和 RMSEr相差只有0.04、2.99 t/ h㎡和2.36%。
通过以上反演结果分析表明:①采用LiDAR和Landsat8 OLI两种数据相结合 构建线性多元逐步回归和 KNN-FIFS模型均可达到最高的反演精度 机载激光雷达和多光谱遥感数据的多源数据结合可发挥各自数据优势 能表征森林水平和垂直结构 最大程度反演森林的三维结构 进而提高森林AGB反演精度和准确度。②采用参数优选技术可有效提高森林ACB反演精度。首先采用偏最小二乘算法对两种数据源3种组合方式时总体参数筛选 后又在两种模型构建的同时进行了特征优选,两次的参数优选过程去除了和森林AGB相关性低、敏感性差的参数。③在单一LiDAR和LiDAR&Landsat8 OLI两种组合下 针对该研究区典型寒温带落叶松林森林AGB 使用两种模型的反演精度几乎相差不大 说明模型在该数据组合及森林类型模型适宜性相似。而在单一 Landsat8OLI时 KNN-FIFS反演精度明显高于线性多元回归模型 KNN-FIFS模型的适宜性更强。
▼表5 模型评价结果
由散点图(图5)分析可知两种模型在两种数据源的3种组合方式下的预估值均出现不同程度的高估和低估现象 其中单一LiDAR数据源时 两种模型反演的结果均出现明显的低估现象 而LiDAR&Landsat8 OLI组合下高估与低估现象却不明显。关于预估值与实测值的线性拟合性上 森林AGB值约80 t/h㎡以下时 两种模型在两种数据3种组合方式下总体上均表现出较好的线性拟合性,实测值与预测值之间相关性较高;但随着森林AGB数值的增加 拟合性表现得较为离散;这是因为机载LiDAR对森林的穿透能力 能够提供准确的树高和直观的冠层垂直结构信息 结合反应森林水平结构的光谱信息 表现得在单一机载LiDAR数据和两种数据结合反演森林AGB中精度为较高 线性拟合性较好。而在单一Landsat8 OLI 数据时 整体拟合性均低于LiDAR拟合结果 尤其在线性多元逐步回归模型反演时表现最差 低于KNN-FIFS反演效果。这是因为在KNN-FIFS拟合方法中 估测参数只与相邻的k个样本有关 因此样地点的加权求值可以减少样本不平衡问题 能更好描述各参数与影像之间的非线性关系。对于整体拟合结果较差 这与多光谱数据具有丰富的光谱特征及植被指数 但穿透性差 难以获取对森林垂直结构特征参数 对森林AGB反演具有较大的结构性局限性有关。
▲图5 多元逐步回归与KNN-FIFS反演森林的AGB交叉验证结果
3.4 森林地上生物量空间分布
基于3种数据源采用线性多元逐步回归算法和KNN-FIFS算法进行单一反演以及联合反演得到的航飞区森林地上生物量制图(图6)。
▲图6 多元逐步回归与KNN-FIFS森林AGB分布图
从图 6a—6c可以看出 基于多元逐步回归算法的LiDAR 数据的制图结果中 生物量分布<40、≥40~70以及≥160 ~200 t/h㎡的森林区域各占30% 其余占10%;采用Landsat8 OLI 数据的制图结果中生物量≥40~70 t/h㎡的区域约占研究区的40% ≥100~130 t/h㎡的区域约占研究区的40%,<40 t/h㎡的区域约占研究区的20%;采用融合LiDAR&Landsat8 OLI数据的制图结果生物量≥40~70 t/ h㎡的区域约占研究区的50% ≥130~160 t/h㎡的区域约占研究区的30% <40 t/h㎡的区域约占研究区的20%。另外结合实际土地利用现状可(图6b)发现Landsat8 OLI数据的森林地上生物量结果中的高值区出现在了林区主干道附近,有明显的错估现象。
从图6d—6f 中可以看出 基于KNN-FIFS算法的LiDAR数据的制图结果中 生物量分布<40t/h㎡、≥40~70 t/h㎡的区域各占研究区的40% 其余占20% ;采用Landsat8 OLI 数据的制图结果中生物量≥40~70 t/h㎡的区域占50% <40 h㎡的区域约占研究区的20% ≥ 130 ~160 t/h㎡约占30% ;采用融合数据的制图结果生物量≥40~70t/h㎡约占研究区的50% <40 t/h㎡约占研究区的30% 其余占20%。结合地面调查信息来看 基于KNN-FIFS算法反演出的生物量制图与调查信息基本相符 <40 t/h㎡的区域和≥40~70 t/h㎡的区域占比较大。另外结合根河生态站航飞区森林地上生物量高值区主要分布在航飞区北部以及山脊线附近 低值区主要分布在海拔较地的林区主干道。航飞区域森林地上生物量的空间分布趋势与实际的地貌特征相符。航飞区北部处于山坡的阴坡处,可以较好的存留水分 因此森林地上生物量较高;在航飞区域的林区主干道附近 由于这种修建主干道这种工程可以改变土层结构以及条件 因此类似这种人为干扰的破坏植被活动会导致森林地上生物量偏低。
4结论
①特征优选支持下的3种组合方式中 LiDAR和Iandsat8 OLI两种数据的组合在两种模型中反演精度均最高 其中线性多元逐步回归模型的反演精度最高 R²为0.84 RMSE为18.16 t/h㎡。说明LiDAR和Landsat8 OLI数据组合 激光雷达与光学数据优势特征互补 协同反演可有效提高森林地上生物量的反演精度;②单一数据源反演森林地上生物量精度中 LiDAR数据比Landsat8 OLI数据在两种模型反演精度中均较高 这与LiDAR数据空间分辨高、可获得垂直结构特征参数有关。
关注我们,更多精彩