(2: 湖北省生态环境监测中心站, 武汉 430071)
(2: Ecological Environment Monitoring Center Station of Hubei Province, Wuhan 430071, P. R. China)
浮游藻类大量繁殖并形成较大面积藻类漂浮物,是水体富营养化的典型特征之一[1]。浮游藻类在发生水华和微生物降解的过程中产生毒素或引发水体缺氧,直接导致水生生物中毒与死亡,并通过食物链传递逐渐富集积累[2]。湖泊水库是地表重要的水资源,为流域工农业发展和人类生活提供了稳定清洁的水源,然而,农业和工业等人类生产活动对水域生态产生负面反馈[3],导致水体富营养化,甚至引起水华暴发[4]。水体富营养化造成的水华现象已成为全球范围内的重大环境问题[5]。湖泊和水库中藻类大量增殖对流域生态环境和饮用水安全构成重大威胁,因此,实现湖库藻类增殖的监测和风险预测对于掌握水域生态环境动态演变过程和维持生态系统平衡具有重要意义[6]。
人类活动和气象条件均会对藻类增殖产生影响[7]。农业肥料残余物质污染和废水排放等是导致水体富营养化以及水华现象日益严重的重要因素[8]。气象条件对藻类生长也具有重要影响,相关研究表明气温升高、降水模式的改变及水动力变化会加速水体富营养化进程[9-10];藻类增殖和水华的形成通常不会立刻响应环境变化,而是存在一定的滞后效应,因此,量化分析水华与环境因素之间的时间滞后效应对水华暴发的模拟和预测具有重要作用[11]。
环境因素对藻类增殖的影响机制具有复杂性,准确模拟和预测其变化过程存在较大困难[12]。相关研究建立了多种模型解释藻类增殖过程,经验统计模型通过对复杂环境中的环境变量进行统计分析以研究关键因素对藻类生长的影响机制[13];生态系统模型在整体中分析浮游植物与生态环境间的关系,模拟不同环境中藻类的发展运动过程[14]。基于长期观测结果的数据驱动模型从大量历史数据中分析规律,实现对未来事件的预测,在生态领域得到了广泛应用,并由时间序列回归分析方法逐步向机器学习方面发展[15-16]。机器学习预测模型能够较好地应对生态系统复杂的非线性现象,在藻类增殖和水华预测方面得到了较多应用[17]。机器学习预测模型的性能很大程度取决于由观测数据与环境因子构建的训练数据集[18],Park等[19]和Liu等[20]使用密集的环境数据集构建了预测模型,实现对淡水水库水华的短期预测并得到较好的预测精度。水华的形成和发展在空间和时间维度上具有高动态性,对预测模型训练数据集的时空分辨率提出了更高的要求[21-22],相对于传统的地面观测手段,卫星遥感因其速度快、范围广、监测周期短,能够为预测模型提供高时空分辨率的历史数据[23]。Mu等[24]利用长时序遥感监测和朴素贝叶斯算法在像元尺度上实现了对滇池短期水华暴发概率的预测并取得了较好的效果,表明结合长时序遥感监测与机器学习算法预测藻类增殖风险和水华暴发空间分布具有可行性。地理位置与气候条件的不同使得藻类增殖的主导因素与时滞效应存在差异,选择合适的机器学习算法和环境驱动因素是提高预测模型可迁移性和结果精度的关键[25-26]。但当前研究较少涉及到对比分析不同机器学习算法在藻类增殖风险时空变化预测中的性能表现和预测结果差异性。
丹江口水库是中国南水北调中线工程的水源地,库区存在较多闭合型库湾,营养物质的累积导致水库支流库湾区营养化程度较高并使丹江口水库水华呈现出位置分散和面积较小的特点,对库区水体藻类监测提出了更高的要求。多源遥感数据既能够满足对精细化水体中藻类信息提取的要求,又可以缩短监测间隔,发现短期时空变化特征。另一方面,浮游藻类增殖高时空动态性要求预测模型能够准确预测藻类增殖高风险区域的地理位置。因此,本研究针对丹江口水库藻类增殖的特点选择合适的多源遥感数据进行长时序遥感监测,并分析藻类增殖与环境驱动因子间的时滞效应,在此基础上利用机器学习算法实现对丹江口水库藻类增殖风险时空变化情况的预测。本研究的具体目标是:(1)利用多源遥感数据提取水体藻类含量动态信息;(2)量化分析气象条件与藻类增殖之间的时间滞后效应;(3)选择关键气象变量,利用支持向量机(SVM)、随机森林(RF)和朴素贝叶斯(NB)3种机器学习算法预测藻类增殖风险;(4)使用ROC曲线与混淆矩阵评估模型性能和预测精度。
1 研究区与数据集 1.1 研究区概况丹江口水库(32°36′~33°48′N,110°59′~111°49′E)(图 1)主要位于湖北省十堰市和河南省淅川县,由汉江库区和丹江库区组成,正常水位条件下(170 m)水面面积约为1050 km2,水库总体流域面积为9.5万km2。地处亚热带季风气候区,年平均气温为7.7~16℃,降水量为800~1000 mm,5—10月为水库丰水期,11月-次年4月为枯水期。雨热同期的气候条件促进了库区浮游藻类植物的生长繁殖,水利工程的兴建改变了水库岸线的自然状态以及流域内的生态平衡,使得水库水生态环境安全面临挑战。
本研究使用2000—2020年Landsat及MODIS数据用于丹江口水库水域面积和藻类含量信息提取(图 2)。Landsat-5 TM/Landsat-8 OLI地表反射率产品数据来源于美国地质调查局(https://earthexplorer.usgs.gov),空间分辨率为30 m,重返周期为16天;MODIS数据来源于美国宇航局(http://oceancolor.gsfc.nasa.gov),获取MOD13Q1归一化植被指数与MOD09GQ地表反射率两种数据产品,MOD13Q1为归一化植被指数16天合成产品数据,空间分辨率为250 m;MOD09GQ产品提供了250 m红外与近红外波段的每日地表反射率数据,较高的时间分辨率可以实现密集时间序列遥感监测分析其长短期变化特征。为提高数据处理效率,所有遥感数据的获取及处理基于Google Earth Engine遥感云平台实现,并排除了受云层覆盖较为严重的影像。
气象数据来源于中国气象数据网(http://data.cma.cng1),获取2000—2020年丹江口气象站点日尺度气象数据,包括平均气温、风速、大气压力、相对湿度和日照时数。叶绿素a浓度实测数据来源于湖北省环境监测站。
2 方法 2.1 藻类信息提取 2.1.1 遥感指数浮游藻类指数(FAI)是由Hu[27]于2009年提出的,最早用于监测开阔海域的赤潮暴发现象,FAI利用蓝藻水华与水体之间的光谱特征差异反映表层水体浮游藻类浓度,被广泛应用于内陆水体的水华监测[28-30],其公式为:
$ F A I=R_{\text {nir }}-R_{\text {nir }}^{\prime} $ | (1) |
$ R_{\text {nir }}^{\prime}=R_{\text {swir }}+\left(R_{\text {swir }}-R_{\text {red }}\right) \times\left(\lambda_{\text {nir }}-\lambda_{\text {red }}\right)/\left(\lambda_{\text {swir }}-\lambda_{\text {red }}\right) $ | (2) |
式中,Rred、Rnir、Rswir分别对应红光、近红、短波红外的反射率,λred、λnir、λswir分别为红光、近红外、短波红外波段的中心波长;R′nir为插值反射率,即在近红外和短波红外波段之间采用线性内插得到近红外波段处的发射率信息。
归一化植被指数(NDVI)常被用来评估植被覆盖度或植被生长情况等[31],由于藻类水华在近红外波段具有和植被类似的“陡坡效应”[32]。NDVI可作为监测水华分布状况的有效指标[33]。
2.1.2 高风险判定本文使用Hu等[34]提出的最大梯度阈值法确定正常水体与藻类增殖高风险区域的像元阈值。由于光谱特征的不同,高藻类浓度或水华水体与纯净水体的FAI值存在较大差异,合适的分割阈值介于二者之间。使用FAI值 <-0.01与FAI值>0.02排除纯净水体与高藻类浓度水体的干扰,最大梯度值对应的FAI像元值作为判断单景影像藻类增殖风险的阈值,大于此阈值的水体像元判定为高风险。NDVI确定提取阈值的方法与FAI相同。为减小误差以提高准确率,采用研究时段内所有影像的平均阈值减去两倍标准差作为确定高风险像元的阈值,以保证整个研究时段内的阈值保持一致[35]。
2.2 预测模型构建 2.2.1 数据集气温、气压和日照时间等气象条件与氮、磷等营养物质是驱动浮游藻类增殖的主要环境因素[36]。评估藻类增殖情况是否发生应考虑两类参数,一类是影响藻类增殖的主要气象变量,通过将多种气象因子与高风险区占比变化进行相关性分析以确定关键气象变量。另一类则是表征水体中营养物质浓度的水质变量,考虑到实测水质数据难以获取且无法从空间上表达水体营养物质的差异,而FAI量化表达了浮游藻类浓度。当水体中藻类浓度达到较高的水平时,合适的天气条件将促进水华的出现和发展,因此,FAI与天气条件结合可以预测藻类增殖风险时空变化。将由Landsat遥感影像计算得到的FAI与未来1~7天的关键气象变量、MOD09GQ每日地表反射率数据提取的藻类增殖风险分布相结合构建长时间序列的预测样本数据集,将数据划分为两个时间段:2000—2015年的数据作为训练集,2016—2020年的数据作为测试集。
2.2.2 机器学习算法NB是基于贝叶斯理论与特征条件独立假设的分类方法,通过对训练数据集进行联合概率分布计算,以概率形式对结果进行预测[37]。
SVM是一套用于分类、回归和异常值检测的机器学习算法[38]。如果有一组线性可分离的数据,则分离训练数据集的线称为分离超平面。在二维中,它是一条直线;在高维的情况下,它被称为超平面。支持向量机的目的是寻找具有最大间隔的分界线或超平面。
RF是一种集成机器学习算法,利用多棵决策树对样本进行训练并用于解决分类和回归预测问题[39]。在训练样本的基础上,通过选取不同特征构建出多个决策树,将每个样本数据分别输入到每个决策树中,集成所有决策树的结果来确定最终预测结果。RF算法具有对异常和噪声数据容忍度高、预测能力稳定且精度高、泛化能力强等优点[40]。
2.2.3 模型性能评估受试者工作特征(ROC)曲线通常用于评估二元分类方法的性能。对于概率分类模型,通过改变概率阈值T得到一系列的特异度与灵敏度,并分别作为x、y轴坐标绘制出ROC曲线[41]。灵敏度是正类别被预测为正的比例,也叫真阳性率(TPR)。特异度是负类别被预测为正的比例,也叫做假阳性率(FPR)。ROC曲线下面积(AUC)可视为总体模型精度的度量,AUC值在1.0(完美预测)与0.5(失败预测)之间,AUC值越高意味着模型的预测能力越好[42]。为进一步评估模型分类性能,基于混淆矩阵计算准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1分数衡量模型预测精度[43-44]。
3 结果 3.1 提取结果验证叶绿素a(Chl.a)浓度可以作为测量浮游植物或藻类生物量的指标,其值大小反映了湖泊河流的水体富营养化程度。将2020年实测叶绿素a数据与藻类增殖高风险区进行相关性分析,以检验提取结果的准确性。结果表明(图 3),藻类增殖高风险区域占比与实测叶绿素a数据具有显著的相关性(r=0.709,P < 0.005)。尽管存在变化不一致的情况,但总体的一致性证实了藻类增殖风险结果较为准确。
以Landsat与MODIS遥感数据作为数据源,分别使用FAI与NDVI两种方法提取了20年间丹江口水库的藻类增殖高风险区。由于不同遥感数据空间分辨率及提取方法不同,结果表现出不同程度的差异。因此,在分析时空变化前需要对两种提取结果进行一致性和差异检验。两种方法提取的面积比例存在较好的相关性且结果并无显著性差异(R2=0.74, P=0.05722, 图 4)。不同的空间分辨率是导致FAI与NDVI提取结果存在差异的重要原因。基于Landsat遥感影像的FAI的藻类信息提取得益于较高空间分辨率,不仅可以较好地提取浓度较高、集中分布的水华,也可以捕捉水体中藻类含量的细节差异。相比之下,MODIS卫星的数据空间分辨率相对较低,对于呈现出细小分散特点的蓝藻水华,这些细节在较低分辨率的数据中可能会被模糊或难以识别。
为了解水华年际变化趋势,基于长时序遥感影像数据提取了2000—2020年丹江口水库藻类增殖动态信息,并对20年间的藻类增殖高风险区占比进行统计分析(图 5)。结果表明,丹江口水库藻类增殖存在明显的季节性周期变化特征,春末夏初是藻类快速增殖时期,从3月份开始,藻类增殖速度加快,高风险区域占比逐渐扩大,在7月份达到最高值;2000—2014年间,高风险区域占比呈增加趋势,在2014年达到峰值,2014—2020年,整体呈下降趋势。
为了更详细地了解藻类增殖风险的空间分布模式及区域差异,对Landsat遥感影像得到的FAI结果进行叠加,得到丹江口水库20年间的藻类增殖风险分布(图 6)。结果显示藻类增殖风险空间分布特征差异显著,水库岸线周围和库湾处一直是藻类增殖高风险区域,整体呈现出库区边缘高、中心低的空间分布特征。水库整体具有良好的水质条件,库湾、支流处的狭窄水面具有较高的藻类增殖风险,是需要重点关注的区域;距离城区较近的水域易出现蓝藻水华,这是支流水体水流不畅且流经城市建成区,从而携带大量营养物质进入水库所致。
在水体富营养化的前提下,藻类快速增殖主要受气温、日照和风速等关键气象因素影响。由于藻类细胞生长繁殖需要时间过程积累,藻类增殖与气象条件之间存在一定的滞后响应时间。因此,本文从丹江口水库地域气候条件出发,选择气温、风速、气压、相对湿度和累计日照时数作为影响藻类增殖的主要气象因素并分析其相互作用关系。
首先,对2000—2020年藻类增殖高风险区域提取结果与气象数据进行相关性分析,确定各气象变量与藻类增殖之间的相关性(图 7)。结果显示,藻类增殖与气象条件密切相关,平均气压与藻类增殖高风险面积变化呈显著负相关关系(r=-0.836);平均气温、日照时间、平均相对湿度和平均风速则呈显著正相关关系(r=0.798、0.417、0.169、0.235)。考虑到藻类增殖相对于气象条件的滞后性,计算丹江口水库2020年每日藻类增殖风险情况与当天及前1~6天气象条件的相关性(图 8),结果显示,除风速外,同一日的气象条件对藻类增殖影响最大,因此,本文将预测日当天的气象因子作为藻类增殖风险预测模型的气象变量。
基于长时间序列气象变量与藻类增殖风险监测结果,使用NB、SVM和RF 3种机器学习方法预测了2016—2020年14个时间点的藻类增殖风险时空变化情况。
通过对3种机器学习算法在藻类增殖风险预测中的应用进行比较分析发现,3种算法的高风险区域预测结果呈现出整体上的一致性。在图 9中展示的以2020年6月30日为起始日期的未来1~7天藻类增殖风险遥感监测结果和预测情况对比中,预测高风险区主要集中在水库库湾区和支流处,而库区中心几乎不出现高风险区,这与水华遥感监测分布情况一致。但3种算法在预测结果的细节上仍表现出一定的差异,其中NB和SVM的预测结果较为相似,与遥感数据提取的结果相比,存在误将水体像元预测为高风险区的情况。相比之下RF算法的预测结果中高风险区相对较少。
在藻类增殖风险预测模型中,结合由Landsat遥感影像计算得到的浮游藻类指数与天气条件变化,以逐像素的方式在空间尺度上判断未来1~7天藻类增殖风险变化的情况。在图 10、11中显示了2016、2018年夏季预测起始日期FAI及利用SVM模型得到的预测结果,从分析中可以得出,FAI指数所反映的表层水体浮游藻类浓度对预测结果产生了显著影响。在图 10中,2016年夏季未来3天的预测结果呈现出高度相似性,高风险区主要分布在丹江库区两侧的库湾以及汉江库区的浪河、神定河等支流区域。2018年9月29日的FAI空间分布图显示,在丹江库区内部出现了较大面积的异常高值,而未来第1天和第6天的预测结果同样呈现出这种空间分布情况。总体来看,研究结果表明丹江口水库藻类增殖风险预测模型能够相对准确地预测藻类增殖高风险区,但在细节的准确性以及不同算法之间的一致性方面存在差异。
ROC曲线解释了分类模型随不同阈值变化的表现,它要求分类结果是可以使用阈值进行区分的正类别概率估计、置信度或目标分数。NB通过逐像元计算得到的后验概率表达该像元为高风险的可能性,并进一步将研究区内全部像元划分为无风险与高风险。SVM与RF不直接提供概率估计,前者使用五倍交叉验证来计算概率值,RF则由随机森林中全部决策树结果计算得到。使用ROC曲线评估3种机器学习算法在预测方面的性能。从整体上看,SVM的性能最佳,AUC值为0.779,略高于NB的0.773,RF算法性能略差,AUC值为0.753,3种算法均能有效应用于藻类增殖风险预测。
为进一步分析预测性能,结合遥感监测情况,构建混淆矩阵并计算Accuracy、Precision、Recall和F1分数评价预测精度。样本点的选取是预测模型精度评价的前提,当正负样本数据不平衡时,分类模型会偏向于多数类,尽管模型预测准确度很高,次要类的正确规范率也会受到影响。所以在进行精度评价之前需要通过重采样平衡正负样本,SMOTE过采样是应用最广泛的重采样方法,能够保证正负样本点数据均衡。考虑到丹江口水库藻类增殖无风险与高风险的不平衡特征,使用SMOTE过采样方法构建预测结果验证数据集,以避免正负样本不均衡造成的偏差。
对3种机器学习算法预测结果进行精度评价。结果(图 12)显示,SVM算法的预测精度最高,平均准确率为0.714;NB次之,平均准确率为0.709;RF最低,平均准确率为0.672。3种预测算法的精度没有表现出较大的差异,SVM与NB算法的预测正确率基本可以保持在0.7以上,RF正确率接近0.7,但RF相较于SVM与NB具有构建简单、计算量小和预测速度较快的优势。此外,3种算法的精度整体波动较小,在第4、5天各项精度值较高,第2、7天的精度值较低且波动较大,提前4和5天作为未来藻类增殖风险预测时间具有较好的预测效果。
已有的相关研究表明,丹江口水库的浮游植物群落具有明显的季节差异,并且以蓝藻、硅藻、绿藻和隐藻为优势种群,在不同季节中,浮游植物密度表现为秋季>夏季>春季>冬季。特别是在夏秋季节,蓝藻大量繁殖,是造成丹江口水库出现水华的主要藻类[45-46]。水库浮游植物群落受水文和理化因子的共同影响,其中气象条件和营养盐是决定浮游植物群落结构的主要驱动因素[47-48]。
研究发现丹江口水库藻类增殖长期变化过程与气象因素交替变化的周期性特征高度相关。对于位于热带或暖温带的湖泊,温度升高会导致水华发生时间提前,持续时间延长[49-50]。不同的地理环境导致蓝藻对气压表现出不同的敏感程度与反馈效应,丹江口水库平均气压为999.94 hPa,表现出明显的季节变化,与藻类增殖趋势呈现明显的负相关关系。日照时间也是蓝藻生长的必要因素[51],库区日照时数与藻类变化之间表现出一定的相关性。相关研究通常认为低风速条件下蓝藻上升运动更易形成水华,较大的风速会使水柱中藻水混合均匀,不利于水华形成[52]。库区2000—2020年间日平均风速为1.54 m/s,最大风速为6.3 m/s。与其他相关区域相比,风速对丹江口水库水华的影响并不显著,这可能是由多种原因导致的,库区整体范围较大,具有复杂的地理环境,受到山地复杂地形的影响,风速并不是均匀分布的,使用气象站点的风速数据无法准确表达微小地形下风速的变化情况。丹江口水库水华呈现出位置分散和面积较小的特点,这些地区的微小地形和水流特性可能对藻类增殖产生更显著的影响。关于相对湿度和藻类增殖的直接响应关系的研究较少,有研究认为相对湿度在一定程度上可以代表降水对藻类增殖的影响[23],库区相对湿度与藻类增殖变化趋势基本相似。气候条件是影响丹江口水库水华发生的主要驱动因素,依据气候变化进行藻类增殖风险预测具有可行性[53-54]。
对丹江口水库藻类增殖进行长时序遥感监测(图 6),发现藻类增殖风险程度在空间上呈现出明显的差异,特别是库湾区和支流处的狭窄水面,藻类增殖情况严重,这一现象表明除了气象条件以外,局部地理环境同样影响藻类增殖和水华暴发。水利工程的建设使丹江口水库形成了漫长的破碎岸线和数量众多的库湾,这些库湾是水库水质演变过程中最初始和最敏感的区域,更容易发生富营养化并暴发蓝藻水华[55]。丹江口水库库湾水质与流域景观之间具有特定的响应关系,流域水文联通性、景观格局与叶绿素a等水质因子之间存在显著的间接影响[56-57]。相关研究认为蓄水导致的水动力改变是诱发支流库湾藻类增殖的主要原因[58],而支流沿岸城市点源污染和农业面源污染也会协同加剧支流水质污染,特别是汛期降水驱动了面源污染的增加[59]。
4.2 模型构建和精度评估基于关键环境变量进行水华预测对于水华防控及水环境安全管理至关重要。由于藻类增殖的环境影响因素具有复杂性,构建可靠的模型准确预测水华风险仍然是一个挑战。基于物理和机械过程建立模型相对困难,机器学习算法是一种替代方法,目前已广泛用于生态和环境建模研究,已被证明是分析复杂环境系统的有效方法[60-61]。训练数据集的构建与机器学习算法的选择直接影响预测模型的性能。传统的水质监测方法难以完整表达水域营养物质或浮游植物的空间分布差异且获得的数据量有限,遥感数据能够适应藻类增殖在时间和空间上的高动态性,为预测模型提供密集的时空数据集[22]。浮游藻类指数FAI在空间上表达了水体中蓝藻生物的含量,结合气象条件和监测结果,构建出长时间序列的预测样本数据集,以实现对丹江口水库藻类增殖风险时空变化的预测。相关研究表明在训练样本足够的条件下,机器学习算法能够充分挖掘藻类增殖与驱动因素之间的关系,是一种可靠的预测方法[15]。本文使用了3种机器学习算法预测藻类增殖高风险区域,在使用相同的训练数据集的前提下,SVM和NB算法的性能表现优于RF,SVM表现出了最好的效果,但在训练与预测过程需要更多的时间。长时序遥感监测为NB算法提供了先验概率信息,在机制不明确的情况下提高了预测的准确性[23]。
藻类增殖受多种驱动力的影响,其中包括营养盐富集和气候变化。在这些影响因素中,水体养分水平对促进蓝藻生长起着至关重要的作用,并对人类干预相对敏感[62]。长期尺度上,营养盐(特别是氮和磷)是蓝藻生长的主要限制因子,来自农业化肥和工业的营养盐输入导致水体富营养化,为其生长提供丰富的养分,使水华现象成为常态而非偶发现象[63]。相关研究表明降水及径流过程会带来更多的流域污染物质,导致水体中营养盐浓度产生短期变化,但营养盐的污染程度仍取决于流域环境的优劣。因此在预测模型中认为短期内水体中营养物质浓度基本保持稳定,藻类增殖和水华发生情况主要受天气变化影响[64]。通过天气预报可以提前获取未来短期时间的天气数据,将其输入预测模型以实现藻类增殖风险时空变化的预测。
本研究中选择1~7天作为藻类增殖风险空间变化预测的时间窗口,图 12显示出3种机器学习算法在对未来4和5天的预测中表现出了较高的精度和稳定性,这一现象可能是由多种原因共同导致的。首先,研究表明训练数据集的样本数量将直接影响预测模型的性能[21]。遥感影像样本的可用性受到多种因素影响,如云层遮盖等,不同时间点可用的样本数量可能存在差异。通过统计1~7天训练样本的数量发现第2天样本数量最少,为60个时间点,第1天最多,为83个时间点,这是造成第2天预测精度明显较低的原因。其次,不同研究中短期预测的最佳时间存在差异,这取决于所涉及的输入和输出变量类型、地理环境特征以及水体中藻类种类等因素[62],天气条件的时间滞后效应对最佳预测时间存在一定的影响[63]。
4.3 优势与不足藻类增殖受各种环境因素及协同效应影响,其时空分布及变化趋势具有连续性和多尺度特征[65]。基于长时序遥感数据分析藻类信息时空变化规律,有助于在其所处环境变化中把握更多时空细节,更好地理解藻类增殖与环境影响因素之间的响应机制。随着机器学习方法在生态学领域的发展,其方法体系已被证明适用于处理具有复杂性、不确定性和非线性动态变化的数据集,在解决复杂的时间序列数据和预测研究方面表现出了强大性能[66]。本文基于长时序遥感监测结果及气象变量构建藻类增殖风险预测模型,预测结果准确识别了藻类增殖的高风险区域,有助于根据藻类增殖风险严重程度及规模大小采取相应的防控管理措施,降低藻类增殖对水域生态系统造成的危害。
由于不同区域自然地理条件复杂,气候变化及景观格局差异引起的藻类增殖与环境因素之间的响应机制也各不相同[55],为简化模型构建的复杂程度,本研究仅考虑了长期历史藻类增殖风险时空分布及影响藻类增殖的主要气象因素,未进一步研究水动力条件及环境因素协同效应的影响。藻类增殖对天气变化存在滞后效应,由于时滞间隔并没有统一标准,本文未考虑更长时间尺度下的时滞效应,不合理的时滞分析可能引入更大的误差,本文使用的气象监测站数据不能完全准确表达库区众多库湾和支流的天气细节差异,降低了预测结果的精度。因此,在后续研究中,将深入分析环境因素的交互作用及其引起的时滞效应对水华暴发机制的影响,探索更有效的时频分析技术和更先进的机器学习算法,进一步提高预测模型的稳定性和准确性。
5 结论考虑丹江口水库极其重要的生态地位及藻类增殖对水域生态系统造成的危害,本研究基于遥感数据获取了丹江口水库藻类信息长时序时空演变信息,探索了藻类增殖与主要气象因素之间的响应关系。在此基础上,利用NB、SVM和RF 3种机器学习算法对藻类增殖风险时空变化进行预测,并对3种算法在预测方面的性能进行了评价和对比。主要结论如下:
1) 丹江口水库藻类增殖呈现出明显的周期性变化,与气象因素变化高度相关,浮游藻类更易在高气温、强日照、低气压和低风速的环境下生长繁殖。藻类增殖高风险区在空间分布上呈现出明显的差异,主要集中在库湾和支流处的狭窄水面,并表现出位置分散、面积较小的特点。
2) 基于长时序遥感监测结果及关键气象因素构建的藻类增殖风险预测模型能够准确地确定藻类增殖高风险区位置及反映短期内的变化情况,3种算法的预测结果呈现出整体上的一致性,其中SVM和NB算法表现出了更高的预测精度,提前4和5天是最佳预测时间。
[1] |
Xia R, Wang GS, Zhang Y et al. River algal blooms are well predicted by antecedent environmental conditions. Water Research, 2020, 185: 116221. DOI:10.1016/j.watres.2020.116221 |
[2] |
Huo D, Gan NQ, Geng RZ et al. Cyanobacterial blooms in China: Diversity, distribution, and cyanotoxins. Harmful Algae, 2021, 109: 102106. DOI:10.1016/j.hal.2021.102106 |
[3] |
Ma JG, Loiselle S, Cao ZG et al. Unbalanced impacts of nature and nurture factors on the phenology, area and intensity of algal blooms in global large lakes: MODIS observations. Science of the Total Environment, 2023, 880: 163376. DOI:10.1016/j.scitotenv.2023.163376 |
[4] |
Yan XC, Xu XG, Wang MY et al. Climate warming and cyanobacteria blooms: Looks at their relationships from a new perspective. Water Research, 2017, 125: 449-457. DOI:10.1016/j.watres.2017.09.008 |
[5] |
Hou XJ, Feng L, Dai YH et al. Global mapping reveals increase in lacustrine algal blooms over the past decade. Nature Geoscience, 2022, 15(2): 130-134. DOI:10.1038/s41561-021-00887-x |
[6] |
Shi K, Zhang YL, Qin BQ et al. Remote sensing of cyanobacterial blooms in inland waters: Present knowledge and future challenges. Science Bulletin, 2019, 64(20): 1540-1556. DOI:10.1016/j.scib.2019.07.002 |
[7] |
Walls JT, Wyatt KH, Doll JC et al. Hot and toxic: Temperature regulates microcystin release from cyanobacteria. Science of the Total Environment, 2018, 610/611: 786-795. DOI:10.1016/j.scitotenv.2017.08.149 |
[8] |
Khan RM, Salehi B, Mahdianpari M et al. A meta-analysis on harmful algal bloom (HAB) detection and monitoring: A remote sensing perspective. Remote Sensing, 2021, 13(21): 4347. DOI:10.3390/rs13214347 |
[9] |
Burford MA, Carey CC, Hamilton DP et al. Perspective: Advancing the research agenda for improving understanding of cyanobacteria in a future of global change. Harmful Algae, 2020, 91: 101601. DOI:10.1016/j.hal.2019.04.004 |
[10] |
Wells ML, Trainer VL, Smayda TJ et al. Harmful algal blooms and climate change: Learning from the past and present to forecast the future. Harmful Algae, 2015, 49: 68-93. DOI:10.1016/j.hal.2015.07.009 |
[11] |
Wang Q, Sun L, Zhu Y et al. Hysteresis effects of meteorological variation-induced algal blooms: A case study based on satellite-observed data from Dianchi Lake, China (1988-2020). Science of the Total Environment, 2022, 812: 152558. DOI:10.1016/j.scitotenv.2021.152558 |
[12] |
Guan WB, Bao M, Lou XL et al. Monitoring, modeling and projection of harmful algal blooms in China. Harmful Algae, 2022, 111: 102164. DOI:10.1016/j.hal.2021.102164 |
[13] |
Ralston DK, Moore SK. Modeling harmful algal blooms in a changing climate. Harmful Algae, 2020, 91: 101729. DOI:10.1016/j.hal.2019.101729 |
[14] |
Shu C, Geng BX, Fang WW et al. Parameter analysis and optimization using genetic algorithm in a marine ecosystem model of the northern South China Sea. Journal of Tropical Oceanography, 2020, 39(2): 98-106. [舒婵, 耿兵绪, 房巍巍等. 南海北部海洋生态模型的参数分析及遗传算法优化. 热带海洋学报, 2020, 39(2): 98-106. DOI:10.11978/2019054] |
[15] |
Huang JC, Zhang YJ, Arhonditsis GB et al. The magnitude and drivers of harmful algal blooms in China's lakes and reservoirs: A national-scale characterization. Water Research, 2020, 181: 115902. DOI:10.1016/j.watres.2020.115902 |
[16] |
Qi GH, Ma XS, He SY et al. Long-term spatiotemporal variation analysis and probability prediction of algal blooms in Lake Chaohu (2009-2018) based on multi-source remote sensing data. J Lake Sci, 2021, 33(2): 414-427. [祁国华, 马晓双, 何诗瑜等. 基于多源遥感数据的巢湖水华长时序时空变化(2009—2018年)分析与发生概率预测. 湖泊科学, 2021, 33(2): 414-427. DOI:10.18307/2021.0204] |
[17] |
Huettmann F, Craig EH, Herrick KA et al. Use of machine learning (ML) for predicting and analyzing ecological and 'presence only' data: An overview of applications and a good outlook. Machine learning for ecology and sustainable natural resource management. Cham: Springer, 2018: 27-61.10.1007/978-3-319-96978-7_2.
|
[18] |
Yu PX, Gao R, Zhang DZ et al. Predicting coastal algal blooms with environmental factors by machine learning methods. Ecological Indicators, 2021, 123: 107334. DOI:10.1016/j.ecolind.2020.107334 |
[19] |
Park Y, Lee HK, Shin JK et al. A machine learning approach for early warning of cyanobacterial bloom outbreaks in a freshwater reservoir. Journal of Environmental Management, 2021, 288: 112415. DOI:10.1016/j.jenvman.2021.112415 |
[20] |
Liu MY, He JY, Huang YZ et al. Algal bloom forecasting with time-frequency analysis: A hybrid deep learning approach. Water Research, 2022, 219: 118591. DOI:10.1016/j.watres.2022.118591 |
[21] |
Izadi M, Sultan M, El Kadiri R et al. A remote sensing and machine learning-based approach to forecast the onset of harmful algal bloom. Remote Sensing, 2021, 13(19): 3863. DOI:10.3390/rs13193863 |
[22] |
Hu CM, Qi L, Hu LB et al. Mapping Ulva prolifera green tides from space: A revisit on algorithm design and data products. International Journal of Applied Earth Observation and Geoinformation, 2023, 116: 103173. DOI:10.1016/j.jag.2022.103173 |
[23] |
Luo JH, Ni GG, Zhang YL et al. A new technique for quantifying algal bloom, floating/emergent and submerged vegetation in eutrophic shallow lakes using Landsat imagery. Remote Sensing of Environment, 2023, 287: 113480. DOI:10.1016/j.rse.2023.113480 |
[24] |
Mu M, Li YM, Bi S et al. Prediction of algal bloom occurrence based on the naive Bayesian model considering satellite image pixel differences. Ecological Indicators, 2021, 124: 107416. DOI:10.1016/j.ecolind.2021.107416 |
[25] |
Ananias PHM, Negri RG, Dias MA et al. A fully unsupervised machine learning framework for algal bloom forecasting in inland waters using MODIS time series and climatic products. Remote Sensing, 2022, 14(17): 4283. DOI:10.3390/rs14174283 |
[26] |
Tian J, Guo SL, Wang J et al. Preemptive warning and control strategies for algal blooms in the downstream of Han River, China. Ecological Indicators, 2022, 142: 109190. DOI:10.1016/j.ecolind.2022.109190 |
[27] |
Hu CM. A novel ocean color index to detect floating algae in the global oceans. Remote Sensing of Environment, 2009, 113(10): 2118-2129. DOI:10.1016/j.rse.2009.05.012 |
[28] |
Zhou T, Li Y, Jiang B et al. Tracking spatio-temporal dynamics of harmful algal blooms using long-term MODIS observations of Chaohu Lake in China from 2000 to 2021. Ecological Indicators, 2023, 146: 109842. DOI:10.1016/j.ecolind.2022.109842 |
[29] |
Duan HT, Tao M, Loiselle SA et al. MODIS observations of cyanobacterial risks in a eutrophic lake: Implications for long-term safety evaluation in drinking-water source. Water Research, 2017, 122: 455-470. DOI:10.1016/j.watres.2017.06.022 |
[30] |
Ma JG, He F, Qi TC et al. Thirty-four-year record (1987-2021) of the spatiotemporal dynamics of algal blooms in Lake Dianchi from multi-source remote sensing insights. Remote Sensing, 2022, 14(16): 4000. DOI:10.3390/rs14164000 |
[31] |
Lin XN, Niu JZ, Berndtsson R et al. NDVI dynamics and its response to climate change and reforestation in northern China. Remote Sensing, 2020, 12(24): 4138. DOI:10.3390/rs12244138 |
[32] |
Liu S, Glamore W, Tamburic B et al. Remote sensing to detect harmful algal blooms in inland waterbodies. Science of the Total Environment, 2022, 851: 158096. DOI:10.1016/j.scitotenv.2022.158096 |
[33] |
Ma JY, Jin SG, Li JA et al. Spatio-temporal variations and driving forces of harmful algal blooms in Chaohu Lake: A multi-source remote sensing approach. Remote Sensing, 2021, 13(3): 427. DOI:10.3390/rs13030427 |
[34] |
Hu CM, Lee ZP, Ma RH et al. Moderate Resolution Imaging Spectroradiometer (MODIS) observations of cyanobacteria blooms in Taihu Lake, China. Journal of Geophysical Research: Oceans, 2010, 115(C4). DOI:10.1029/2009JC005511 |
[35] |
Yuan J, Cao ZG, Ma JG et al. Remote sensed analysis of spatial and temporal variation in phenology of algal blooms in Lake Chaohu since 1980s. J Lake Sci, 2023, 35(1): 57-72. [袁俊, 曹志刚, 马金戈等. 1980s以来巢湖藻华物候时空变化遥感分析. 湖泊科学, 2023, 35(1): 57-72. DOI:10.18307/2023.0103] |
[36] |
Wang JH, Yang C, He LQS et al. Meteorological factors and water quality changes of Plateau Lake Dianchi in China (1990-2015) and their joint influences on cyanobacterial blooms. Science of the Total Environment, 2019, 665: 406-418. DOI:10.1016/j.scitotenv.2019.02.010 |
[37] |
Scavia D, Wang YC, Obenour DR. Advancing freshwater ecological forecasts: Harmful algal blooms in Lake Erie. Science of the Total Environment, 2023, 856: 158959. DOI:10.1016/j.scitotenv.2022.158959 |
[38] |
Pradhan B. A comparative study on the predictive ability of the decision tree, support vector machine and neuro-fuzzy models in landslide susceptibility mapping using GIS. Computers & Geosciences, 2013, 51: 350-365. DOI:10.1016/j.cageo.2012.08.023 |
[39] |
Belgiu M, Drǎguţ L. Random forest in remote sensing: A review of applications and future directions. ISPRS Journal of Photogrammetry and Remote Sensing, 2016, 114: 24-31. DOI:10.1016/j.isprsjprs.2016.01.011 |
[40] |
Cracknell MJ, Reading AM. Geological mapping using remote sensing data: A comparison of five machine learning algorithms, their response to variations in the spatial distribution of training data and the use of explicit spatial information. Computers & Geosciences, 2014, 63: 22-33. DOI:10.1016/j.cageo.2013.10.008 |
[41] |
Li GY, Wu XF, Han JC et al. Flood risk assessment by using an interpretative structural modeling based Bayesian network approach (ISM-BN): An urban-level analysis of Shenzhen, China. Journal of Environmental Management, 2023, 329: 117040. DOI:10.1016/j.jenvman.2022.117040 |
[42] |
Yang TB, Ying YM. AUC maximization in the era of big data and AI: A survey. ACM Computing Surveys, 2022, 55(8): 1-37. DOI:10.1145/3554729 |
[43] |
Kumar PD, Das S, Townley S. Hyperparameter optimized classification pipeline for handling unbalanced urban and rural energy consumption patterns. Expert Systems With Applications, 2023, 214: 119127. DOI:10.1016/j.eswa.2022.119127 |
[44] |
Gorsevski PV. A free web-based approach for rainfall-induced landslide susceptibility modeling: Case study of Clearwater National Forest, Idaho, USA. Environmental Modelling & Software, 2023, 161: 105632. DOI:10.1016/j.envsoft.2023.105632 |
[45] |
Xiao YN, Cheng JH, Mo XC et al. Spatio-temporal variation of phytoplankton community and its relationship with environ mental factors in Danjiangkou Reservoir. J Lake Sci, 2023, 35(3): 821-832. [肖玉娜, 程靖华, 莫晓聪等. 丹江口水库浮游植物群落时空变化及其与环境因子的关系. 湖泊科学, 2023, 35(3): 821-832. DOI:10.18307/2023.0306] |
[46] |
Hu YX, Peng Y, Li RW et al. Plankton diversity and community characteristics in Danjiangkou Reservoir based on environmental DNA metabarcoding. J Lake Sci, 2021, 33(6): 1650-1659. [胡愈炘, 彭玉, 李瑞雯等. 基于环境DNA宏条形码的丹江口水库浮游生物多样性及群落特征. 湖泊科学, 2021, 33(6): 1650-1659. DOI:10.18307/2021.0604] |
[47] |
Yan XY, Zhang Y, Li YY et al. Hydrologic and physicochemical factors co-drive seasonal changes of phytoplankton during dynamic water diversion processes in the Danjiangkou Reservoir. J Lake Sci, 2021, 33(5): 1350-1363. [闫雪燕, 张鋆, 李玉英等. 动态调水过程水文和理化因子共同驱动丹江口水库库湾浮游植物季节变化. 湖泊科学, 2021, 33(5): 1350-1363. DOI:10.18307/2021.0505] |
[48] |
He YX, Mai SJ, Ren YF et al. Characteristics of eukaryotic phytoplankton community structure and its relationship with environmental factors in Danjiangkou Reservoir. Environmental Science, 2022, 43(11): 5096-5105. [贺玉晓, 买思婕, 任玉芬等. 丹江口水库真核浮游植物群落分布特征及其与环境因子的关系. 环境科学, 2022, 43(11): 5096-5105. DOI:10.13227/j.hjkx.202112135] |
[49] |
Kosten S, Huszar VLM, Bécares E et al. Warmer climates boost cyanobacterial dominance in shallow lakes. Global Change Biology, 2012, 18(1): 118-126. DOI:10.1111/j.1365-2486.2011.02488.x |
[50] |
Duan HT, Ma RH, Xu XF et al. Two-decade reconstruction of algal blooms in China's Lake Taihu. Environmental Science & Technology, 2009, 43(10): 3522-3528. DOI:10.1021/es8031852 |
[51] |
Chen JQ, Wang J, Wang QW et al. Common fate of sister lakes in Hulunbuir Grassland: Long-term harmful algal bloom crisis from multi-source remote sensing insights. Journal of Hydrology, 2021, 594: 125970. DOI:10.1016/j.jhydrol.2021.125970 |
[52] |
Wu TF, Qin BQ, Brookes JD et al. The influence of changes in wind patterns on the areal extension of surface cyanobacterial blooms in a large shallow lake in China. Science of the Total Environment, 2015, 518/519: 24-30. DOI:10.1016/j.scitotenv.2015.02.090 |
[53] |
Chen LB, Yang ZF, Liu HF. Assessing the eutrophication risk of the Danjiangkou Reservoir based on the EFDC model. Ecological Engineering, 2016, 96: 117-127. DOI:10.1016/j.ecoleng.2016.02.021 |
[54] |
Gobler CJ. Climate change and harmful algal blooms: Insights and perspective. Harmful Algae, 2020, 91: 101731. DOI:10.1016/j.hal.2019.101731 |
[55] |
Li NX, Wang J, Yin W et al. Linking water environmental factors and the local watershed landscape to the chlorophyll a concentration in reservoir bays. Science of the Total Environment, 2021, 758: 143617. DOI:10.1016/j.scitotenv.2020.143617 |
[56] |
Li NX, Xu JF, Yin W et al. Effect of local watershed landscapes on the nitrogen and phosphorus concentrations in the waterbodies of reservoir bays. Science of the Total Environment, 2020, 716: 137132. DOI:10.1016/j.scitotenv.2020.137132 |
[57] |
Wang J, Yin W, Wang LX et al. Unraveling the effects of hydrological connectivity and landscape characteristics on reservoir water quality. Journal of Hydrology, 2022, 613: 128410. DOI:10.1016/j.jhydrol.2022.128410 |
[58] |
Liu DF, Yang ZJ, Ji DB et al. A review on the mechanism and its controlling methods of the algal blooms in the tributaries of Three Gorges Reservoir. Journal of Hydraulic Engineering, 2016, 47(3): 443-454. [刘德富, 杨正健, 纪道斌等. 三峡水库支流水华机理及其调控技术研究进展. 水利学报, 2016, 47(3): 443-454.] |
[59] |
Long LH, Huang YB, Xu H et al. Research on hydrodynamic characteristics and its water eco-environment effects in Three Gorges Reservoir in recent 20 years: Review and prospect. J Lake Sci, 2023, 35(2): 383-399. [龙良红, 黄宇擘, 徐慧等. 近20年来三峡水库水动力特性及其水环境效应研究: 回顾与展望. 湖泊科学, 2023, 35(2): 383-399. DOI:10.18307/2023.0202] |
[60] |
Tahmasebi P, Kamrava S, Bai T et al. Machine learning in geo- and environmental sciences: From small to large scale. Advances in Water Resources, 2020, 142: 103619. DOI:10.1016/j.advwatres.2020.103619 |
[61] |
Reichstein M, Camps-Valls G, Stevens B et al. Deep learning and process understanding for data-driven Earth system science. Nature, 2019, 566(7743): 195-204. DOI:10.1038/s41586-019-0912-1 |
[62] |
Yang SB, Chen XL, Lu JZ et al. Impacts of agricultural topdressing practices on cyanobacterial bloom phenology in an early eutrophic Plateau Lake, China. Journal of Hydrology, 2021, 594: 125952. DOI:10.1016/j.jhydrol.2020.125952 |
[63] |
Huang JC, Zhang YJ, Huang Q et al. When and where to reduce nutrient for controlling harmful algal blooms in large eutrophic Lake Chaohu, China?. Ecological Indicators, 2018, 89: 808-817. DOI:10.1016/j.ecolind.2018.01.056 |
[64] |
Shi PC, Zhu MY, You RF et al. Rainstorm events trigger algal blooms in a large oligotrophic reservoir. Journal of Hydrology, 2023, 622: 129711. DOI:10.1016/j.jhydrol.2023.129711 |
[65] |
Park YG, Park KH, Park J et al. Development of early-warning protocol for predicting chlorophyll-a concentration using machine learning models in freshwater and estuarine reservoirs, Korea. Science of the Total Environment, 2015, 502: 31-41. DOI:10.1016/j.scitotenv.2014.09.005 |
[66] |
Li YR, Zhou QC, Zhang Y et al. Research trends in the remote sensing of phytoplankton blooms: Results from bibliometrics. Remote Sensing, 2021, 13(21): 4414. DOI:10.3390/rs13214414 |