摘要
为充分利用历史样点数据获取更可靠的土壤-环境知识,进而获取更高精度的土壤预测推理图,采用样本代表性修正方法获取更高的知识精度,利用样本空间与总体空间环境协变量的空间相似度关系,以核密度估计为基础,采用3种不同算法对每个土壤采样点探寻最优权重,并以土壤表层有机质含量预测制图为例验证方法的科学性和有效性。结果显示,该修正方法最高可将多元线性回归制图的RMSE和MAE分别降低10.30%和12.74%,证实了该方法的可行性与有效性。
土壤采样是数字土壤制图研究的重要内容,从采样点获取数据的准确性直接影响土壤制图的精确度,如何从已存在的历史样点获取更可靠的土壤-环境知识已成为土壤制图中的重要科学问题。野外采样点是数字土壤制图研究过程中的重要数据,并且在很多情况下成为数字土壤制图可靠的数据
空间偏差修正在多个领域都有所发展,如统计学、机器学习、预测制图等领域,研究结果表明,通过合理的空间偏差修正可提高所需结果的可靠
地形信息和遥感数据等作为环境协变量不仅可以用于辅助采样设计,而且可以用于直接或间接制图,两者均被证明是可行且精度较高
江夏区位于湖北省武汉市南部,地处114°01′~114°35′E、29°58′~30°32′N,属于江汉平原向鄂南丘陵过渡地段,东临梁子湖,中部由107国道贯穿南北,西靠长江,丘陵地形主要呈条带状分布在区境北部。全区属中亚热带过渡的湿润季风气候,地面高程20~40 m,年总降水量889.2~1 862.6 mm。江夏区北部拢冈平原以黄棕壤和潮土为主,中部低丘拢冈平原皆为红壤,西部平原以潮土为主,其面积占比大小分别是水稻土>红壤>黄棕壤>潮土,全区的六大主导产业包括“菜、瓜、莲、鱼、畜、林”等。
研究区环境协变量数据包括高程数据和遥感数据。数字高程数据来源于地理空间数据云(https://www.gscloud.cn/),遥感数据来源于欧洲航天局官网(https://scihub.copernicus.eu/dhus/#/home),经过对比不同时期的遥感影像,选取2021年12月10日哨兵二号10 m×10 m分辨率的MSIL1C遥感数据产品,其云量覆盖度较低、植被覆盖度适中、地物特征明显,经处理后得到最终遥感数据。
本研究在江夏区行政区划图(江夏区自然资源和规划局2021年土地调查与变更数据)的基础上,依据GB/T 33469—2016《耕地质量等级》耕地地力评价规范,兼顾土壤类型与土地利用类型获取研究区92个土壤采样点,测定土壤有机质含量,根据随机抽样原则将92个采样点中的60个点作为样本点,32个点作为验证点,其中将样本点平均分为A、B两组各30个点进行代表性修正研究和制图,并均用验证点进行精度检验,研究区验证点位置分布图如

图 1 研究区验证点位置分布图
Fig.1 Verification point location distribution map in the study area
1)基础数据。由于研究区面积范围较小,气候和母质较为单一,所以在进行有机质含量制图时,选取DEM、坡度、坡向、地形湿度指数(TWI)、平面曲率、剖面曲率、归一化植被指数(NDVI)等较为合理的地形因子和遥感因子进行制图研

图 2 样本空间(A)和总体空间(B)的采样点分布
Fig.2 Sample points distribution in sample space(A) and population space(B)
2)样本空间和总体空间。多维环境协变量数据存在冗余性或可能的相关性,本研究将7个协变量数据分别提取到总体样点,并根据拉依达准则剔除异常

图 3 第一(A)、二(B)、三(C)主成分协变量图层
Fig.3 First(A), second(B), and third(C) principal component covariate layers
1)核密度估计。核密度估计(kernel density estimation,KDE)是一种非参数统计方法,基本思想是将每个观测值周围一定范围内的数据计算权重后加权平均,形成估计的概率密度函
分组Group | PC1 | PC2 | PC3 |
---|---|---|---|
样本空间A Sample space A | 2.595 0 | 4.328 8 | 4.534 9 |
样本空间B Sample space B | 6.280 3 | 6.579 3 | 2.595 0 |
总体空间 Global space | 5.779 7 | 2.729 2 | 2.374 3 |
核密度估计使用Scikit-learn包的Neighbors模块实现,通过将每个数据点周围的概率密度权重化估计该点附近的密度,从而模拟样本空间和总体空间的概率密度分布。在数据处理阶段将主成分分析的特征值范围缩放到[0,100],主成分分析的特征值指的是每个主成分坐标轴对应的主成分变量能解释多少原始数据中的变异(方差)。在[0,100]范围等距生成10 000个观测点用于拟合函数曲线,拟合的函数曲线如

图 4 每个协变量组分样本空间和总体空间的概率密度曲线
Fig.4 Probability density curves of sample space and population space for each covariate component
A-C:样本空间A Sample space A;D-E:样本空间B Sample space B.A,D:PC1;B,E:PC2;C,F:PC3.
2)样本代表性计算。数字土壤制图中可以选用总体的子集-样本来代替总体进行制图,但是选取的样本往往要具有代表
(1) |
(2) |
其中,A
概率密度函数的积分是概率分布函数,其曲线下与x轴构成的面积为1,将
通过上述方法计算样本空间A、B组代表性值分别为0.813 8和0.866 0。绘制样本空间A、B组分别与总体空间的总概率密度曲线,如

图 5 样本空间和总体空间的总概率密度曲线
Fig.5 Total probability density curve of sample space and population space
A:样本空间 A Sample space A;B:样本空间 B Sample space B.
1)样本权重处理。样本代表性的修正是通过计算1组基于每个样本点的最优权重,并将其加权于样本空间的概率密度分布,使样本的代表性最大化来实现的。在样本空间估计的概率密度函数中,每个样本点均具有1个标准化权重,且与核函数相乘。在初始的核密度估计中,每个样本的标准化权重是相等的,且和为1,而在最优权重确定时,是通过优化算法进行加权来寻找总相似度最大值,代表性较高的样点得到较小的权重,代表性较低的样点得到较大的权重,每个样点均有1个权重值,且权重和为1。
在样本代表性修正时,将权重值范围从[0,1]更改为[1,10],主要原因有以下三点:①更换后的数值范围可以保证每个样本都对训练预测模型有贡献,即保证每个样本的权重最少为1,避免排除掉权值为0的样本,这可以更加充分的利用数据。②更换后的数值范围可以更方便地计算2个样本之间的相对重要性之比,若是采用[0,1]的权值范围,则样本的相对重要性之比可以无限大。③更换后的权值范围可以使探寻最优权重的启发式算法在计算时更加灵活。但是,在利用加权样本预测模型时可以将其进行归一化处理。本研究将计算总相似度的函数体作为待优化对象,在计算中通过更新样本权重数组进行代表性的修正。
2)启发式算法优化权重。启发式算法是通过模拟自然界中的进化、遗传、群体智能等现象来搜索优化问题的最优解,其可以模拟人的逻辑思维能力和学习能
在PyCharm中对3种启发式算法均设置每代搜索次数为100,迭代次数为200,解空间范围为[1,10],3种算法通过设置参数得到对应的最优解时获取最优权重。最终,得到样本空间A、B两组样本代表性修正的最优加权曲线结果如

图 6 遗传算法、差分进化算法、粒子群优化算法样本代表性修正的最优曲线
Fig.6 Optimal curve of sample representativeness correction of genetic algorithm,differential evolution algorithm,particle swarm optimization algorithm
A-C:样本空间A Sample space A;D-E:样本空间B Sample space B;A,D:遗传算法Genetic algorithm;B,E:差分进化算法 Differential evolution algorithm;C,F:粒子群优化算法 Particle swarm optimization.
对于修正结果,不同算法得到的最优权重如

图 7 基于不同算法的最优权重点地理分布
Fig.7 Optimal weight distribution based on different algorithms
A-C:样本空间A Sample space A;D-E:样本空间B Sample space B;A,D:遗传算法Genetic algorithm;B,E:差分进化算法Differential evolution algorithm;C,F:粒子群优化算法 Particle swarm optimization.
3种算法的相似度演化如

图 8 不同算法迭代200代相似度演化
Fig.8 Iterative similarity evolution based on different algorithms for 200 generations
A:样本空间A Sample space A;B:样本空间B Sample space B.
本研究通过多元线性回归法中的最小二乘法对研究区表层土壤有机质含量进行预测制图,将协变量空间的前3个主成分作为自变量,预测位置的土壤表层有机质含量作为因变量,通过多元线性回归建立土壤有机质与环境协变量之间的关系模型,将

图 9 加权与未加权的土壤有机质含量预测制图
Fig.9 Mapping of soil organic matter content prediction based on initial weight and optimal weight
A-D:样本空间A Sample space A;E-H:样本空间B Sample space B;A,E:未加权Unweight;B,F:遗传算法Genetic algorithm;C,G:差分进化算法Differential evolution algorithm;D,H:粒子群优化算法 Particle swarm optimization.
从
运用采样得到的32个验证点对不同的制图结果进行验证,不同分组算法下最优相似度和预测精度如
组 Group | 加权方式 Weighting mode | 相似度 SIM | 相似度提升/% Similarity enhancement | 均方根 误差RMSE | 精度提升/% Accuracy enhancement | 平均绝对误差MAE | 精度提升/% Accuracy enhancement |
---|---|---|---|---|---|---|---|
A | 未加权 Unweight | 0.813 8 | - | 8.050 8 | - | 6.227 9 | - |
GA | 0.888 1 | 9.13 | 7.706 9 | 4.27 | 5.737 6 | 7.87 | |
DE | 0.887 4 | 9.04 | 7.788 0 | 3.26 | 5.930 7 | 4.77 | |
PSO | 0.874 3 | 7.43 | 7.913 7 | 1.70 | 6.102 5 | 2.01 | |
B | 未加权 Unweight | 0.866 0 | - | 9.013 9 | - | 6.541 6 | - |
GA | 0.934 5 | 7.91 | 8.086 0 | 10.30 | 5.708 5 | 12.74 | |
DE | 0.935 2 | 7.99 | 8.249 4 | 8.48 | 5.772 8 | 11.75 | |
PSO | 0.945 6 | 9.19 | 8.452 4 | 6.23 | 5.854 5 | 10.50 |
注Note:A:样本空间A Sample space A;B:样本空间B Sample space B.下同 The same as below.
为了验证利用算法迭代为样本空间寻最优权重进而使其达到与总体空间最相似的这种修正制图方法的有效性,将不同算法迭代200代的预测制图误差和其每代对应的相似度,利用线性回归的方法拟合为一次函数,拟合后函数的相关参数如
项目 Item | 组 Group | 加权方式 Weighting mode | 斜率 Slope | 截距 Intercept | R | P | 标准差 Standard deviation | |
---|---|---|---|---|---|---|---|---|
RMSE | GA | -1.722 4 | 9.301 9 | -0.339 7 |
8.62×1 | 0.338 9 | ||
A | DE | -0.772 9 | 8.982 8 | -0.073 8 | 0.299 1 | 0.742 4 | ||
PSO | -0.295 5 | 8.164 1 | -0.049 7 | 0.484 2 | 0.421 5 | |||
GA | -12.745 2 | 20.063 7 | -0.905 3 |
1.55×1 | 0.425 1 | |||
B | DE | -9.504 3 | 17.516 4 | -0.810 7 |
6.53×1 | 0.487 8 | ||
PSO | -2.969 3 | 11.325 5 | -0.349 7 |
3.87×1 | 0.565 3 | |||
MAE | GA | -5.463 3 | 10.715 2 | -0.614 0 |
4.09×1 | 0.499 0 | ||
A | DE | -0.981 0 | 6.676 9 | -0.073 4 | 0.301 8 | 0.947 7 | ||
PSO | -2.354 6 | 8.157 7 | -0.354 6 |
2.57×1 | 0.441 1 | |||
GA | -11.154 6 | 16.179 6 | -0.918 8 |
7.36×1 | 0.340 6 | |||
B | DE | -8.016 0 | 13.481 3 | -0.758 9 |
9.84×1 | 0.488 8 | ||
PSO | -3.101 3 | 8.838 5 | -0.385 5 |
1.73×1 | 0.527 5 |
对于不同算法,样本空间A、B组中GA算法相关系数R的绝对值均为同组最大,P值也均小于0.05,且结合
本研究以充分利用已采集样点数据为导向,围绕现有样本空间偏差修正问题,基于核密度估计,利用3种启发式算法迭代优化样本空间的概率密度分布,计算样本点数据的最优权重,最终通过土壤表层有机质含量制图来验证此方法的有效性及可行性。制图结果显示,3种不同的启发式算法对土壤表层有机质含量制图的精度均有提升(最高可将RMSE和MAE分别降低10.30%、12.74%),GA在修正样本代表性的性能和稳定性上更优,且此方法对于初始样本代表性高的样本制图精度提升更多,产生这种问题的原因可能是在低相似度下样点复杂程度导致了加权模式的随机性,因此,不能很好地在整体分布中拟合样本代表性。
主成分分析可以将复杂的数据降维,并且得到的新变量之间是相互正交的。因此,本研究使用主成分分析的原因主要有两方面,一方面在进行样本优化权重时,平均1种算法优化的时间大概在6~10 h,对数据降维能够进一步缩短优化时间(如果使用并行计算改进代码可能会降低运行时间);另一方面,主成分分析可以降低变量之间的相关性,如果变量之间存在相关性,它们可能会具有相似的特征从而使算法陷入局部最优解。
基于重要性加权的偏差修正方法和本研究的方法具有一定的相似性,其最优加权函数为测试数据特征与训练数据特征的概率密度函数之比,Mathelin
参考文献References
张淑杰,朱阿兴,刘京,等.基于样点的数字土壤属性制图方法及样点设计综述[J].土壤,2012,44(6):917-923.ZHANG S J,ZHU A X,LIU J,et al.Sample-based digital soil mapping methods and related sampling schemes[J].Soils,2012,44(6):917-923(in Chinese with English abstract). [百度学术]
AN Y M,YANG L,ZHU A X,et al.Identification of representative samples from existing samples for digital soil mapping[J].Geoderma,2018,311:109-119. [百度学术]
黄思华,濮励杰,解雪峰,等.面向数字土壤制图的土壤采样设计研究进展与展望[J].土壤学报,2020,57(2):259-272.HUANG S H,PU L J,XIE X F,et al.Review and outlook of designing of soil sampling for digital soil mapping[J].Acta pedologica sinica,2020,57(2):259-272(in Chinese with English abstract). [百度学术]
STERBA S K.Alternative model-based and design-based frameworks for inference from samples to populations:from polarization to integration[J].Multivariate behavioral research,2009,44(6):711-740. [百度学术]
黄亚捷,李菊梅,马义兵.土壤重金属调查采样数目的确定方法研究进展[J].农业工程学报,2019,35(24):235-245.HUANG Y J,LI J M,MA Y B.Research progress of methods for determining sampling numbers of soil heavy metals survey[J].Transactions of the CSAE,2019,35(24):235-245(in Chinese with English abstract). [百度学术]
QIN C Z,AN Y M,LIANG P,et al.Soil property mapping by combining spatial distance information into the soil land inference model (SoLIM)[J].Pedosphere,2021,31(4):638-644. [百度学术]
张河川.基于样点代表性等级与道路网信息的采样设计研究[D].武汉:华中农业大学,2018.ZHANG H C.Research on sampling design based on representative grade of sample points and road network information[D].Wuhan:Huazhong Agricultural University,2018(in Chinese with English abstract). [百度学术]
黄魏,许伟,汪善勤,等.基于不确定性模型的土壤:环境关系知识获取方法的研究[J].土壤学报,2018,55(1):54-63.HUANG W,XU W,WANG S Q,et al.Extraction of knowledge about soil-environment relationship based on an uncertainty model[J].Acta pedologica sinica,2018,55(1):54-63(in Chinese with English abstract). [百度学术]
巫振富,赵彦锋,程道全,等.样点数量与空间分布对县域尺度土壤属性空间预测效果的影响[J].土壤学报,2019,56(6):1321-1335.WU Z F,ZHAO Y F,CHENG D Q,et al.Influences of sample size and spatial distribution on accuracy of predictive soil mapping on a county scale[J].Acta pedologica sinica,2019,56(6):1321-1335(in Chinese with English abstract). [百度学术]
BETHLEHEM J.Using response probabilities for assessing representativity[M].Netherlands: Statistics Netherlands,2012. [百度学术]
PASSOW C,DONNER R V.Regression-based distribution mapping for bias correction of climate model outputs using linear quantile regression[J].Stochastic environmental research and risk assessment,2020,34(1):87-102. [百度学术]
ZHANG G M,ZHU A X.Sample size and spatial configuration of volunteered geographic information affect effectiveness of spatial bias mitigation[J].Transactions in GIS,2020,24(5):1315-1340. [百度学术]
GOODCHILD M F.Citizens as sensors:the world of volunteered geography[J].GeoJournal,2007,69(4):211-221. [百度学术]
FINK D,DAMOULAS T,DAVE J.Adaptive spatio-temporal exploratory models:hemisphere-wide species distributions from massively crowdsourced eBird data[J].Proceedings of the AAAI conference on artificial intelligence,2013,27(1):1284-1290. [百度学术]
VARELA S,ANDERSON R P,GARCÍA-VALDÉS R,et al.Environmental filters reduce the effects of sampling bias and improve predictions of ecological niche models[J].Ecography,2014,37(11):1084-1091. [百度学术]
ZHU A X,ZHANG G M,WANG W,et al.A citizen data-based approach to predictive mapping of spatial variation of natural phenomena[J].International journal of geographical information science,2015,29(10):1864-1886. [百度学术]
ZHANG G M,ZHU A X,HUANG Q Y.A GPU-accelerated adaptive kernel density estimation approach for efficient point pattern analysis on spatial big data[J].International journal of geographical information science,2017,31(10):2068-2097. [百度学术]
韩宗伟,黄魏,张春弟,等.基于土壤养分-景观关系的土壤采样布局合理性研究[J].华中农业大学学报,2014,33(1):56-61.HAN Z W,HUANG W,ZHANG C D,et al.Rationality of sampling strategies based on soil-landscape relationships[J].Journal of Huazhong Agricultural University,2014,33(1):56-61(in Chinese with English abstract). [百度学术]
周紫燕,黄魏,许伟,等.基于随机森林算法的原始土壤图更新研究[J].华中农业大学学报,2019,38(3):53-59.ZHOU Z Y,HUANG W,XU W,et al.Updating traditional soil maps based on random forest algorithm[J].Journal of Huazhong Agricultural University,2019,38(3):53-59(in Chinese with English abstract). [百度学术]
XIONG X,GRUNWALD S,MYERS D B,et al.Holistic environmental soil-landscape modeling of soil organic carbon[J].Environmental modelling & software,2014,57:202-215. [百度学术]
王小凯,朱小文.计量检定中3种判别和剔除异常值的统计方法[J].中国测试,2018,44(S1):41-44.WANG X K,ZHU X W.Three statistical methods for distinguishing andeliminating outliers in metrological verification[J].China measurement &test,2018,44(S1):41-44(in Chinese with English abstract). [百度学术]
SILVERMAN B W.Density estimation for statistics and data analysis[M].London:Chapman and Hall,1986. [百度学术]
刘晓金,陈文武,王庆锋.基于优化核函数带宽SVDD的机械振动预警模型[J].机电工程,2023,40(11):1641-1654.LIU X J,CHEN W W,WANG Q F.Mechanical vibration warning model based on optimized kernel bandwidth SVDD[J].Journal of mechanical & electrical engineering,2023,40(11):1641-1654(in Chinese with English abstract). [百度学术]
ZHANG G M,ZHU A X.The representativeness and spatial bias of volunteered geographic information:a review[J].Annals of GIS,2018,24(3):151-162. [百度学术]
ZHU A X.A personal construct-based knowledge acquisition process for natural resource mapping[J].International journal of geographical information science,1999,13(2):119-141. [百度学术]
盛亮,包磊,吴鹏飞.启发式方法在机器人路径规划优化中的应用综述[J].电光与控制,2018,25(9):58-64.SHENG L,BAO L,WU P F.Application of heuristic approaches in the robot path planning and optimization:a review[J].Electronics optics & control,2018,25(9):58-64(in Chinese with English abstract). [百度学术]
李腾辉,周德强,何冯光,等.基于遗传算法优化模糊PID的甘蔗收获机切割器控制系统[J].华中农业大学学报,2023,42(2):243-250.LI T H,ZHOU D Q,HE F G,et al.Control system of sugarcane harvester cutter based on fuzzy PID optimized by genetic algorithm[J].Journal of Huazhong Agricultural University,2023,42(2):243-250(in Chinese with English abstract). [百度学术]
STORN R,PRICE K.Differential evolution:a simple and efficient heuristic for global optimization over continuous spaces[J].Journal of global optimization,1997,11(4):341-359. [百度学术]
刘振超,苑迎春,王克俭,等.融合特征权重与改进粒子群优化的特征选择算法[J].计算机工程与科学,2024,46(2):282-291.LIU Z C,YUAN Y C,WANG K J,et al.Feature selection algorithm based on feature weights and improved particle swarm optimization[J].Computer engineering & science,2024,46(2):282-291(in Chinese with English abstract). [百度学术]
PEDREGOSA F,VAROQUAUX G,GRAMFORT A,et al.Scikit-learn:machine learning in python[J].Journal of machine learning research,2011,12:2825-2830. [百度学术]
BOUASRIA A,IBNONAMR K,RAHIMI A,et al.Evaluation of Landsat 8 image pansharpening in estimating soil organic matter using multiple linear regression and artificial neural networks[J].Geo-spatial information science,2022,25(3):353-364. [百度学术]
文鑫,王艺惠,钟聪,等.贵州表层土壤有机质空间变异特征及其影响因素分析[J].水土保持学报,2023,37(3):218-224.WEN X,WANG Y H,ZHONG C,et al.Spatial variation of surface soil organic matter and its influencing factors in Guizhou Province[J].Journal of soil and water conservation,2023,37(3):218-224(in Chinese with English abstract). [百度学术]
DE MATHELIN A,DEHEEGER F,MOUGEOT M,et al.Fast and accurate importance weighting for correcting sample bias[C]//AMINI M R,CANU S,FISCHER A,et al.Joint European Conference on Machine Learning and Knowledge Discovery in Databases.Cham:Springer,2023:659-674. [百度学术]