摘要
随着梯级水库的持续开发,大坝泄流产生的过饱和总溶解气体在河道内难以消散,这将导致鱼类患气泡病甚至死亡,因此开发大坝下游总溶解气体预测模型对保护生物多样性具有重要意义。本文收集美国哥伦比亚河上3个大坝监测站点的日监测数据(水温、气压、流量、大坝溢流以及总溶解气体饱和度),在此基础上利用BP神经网络、随机森林以及提升树3种机器学习算法预测总溶解气体饱和度,并对3种算法的预测性能进行评价和对比。研究发现,随着具有显著性相关性的输入变量个数增加,各模型预测性能呈上升趋势,且不同模型受输入因子的影响不同。在最佳输入变量方案下,随机森林(平均绝对误差(MAE) =1.273%,均方根误差(RMSE)=1.775%, R2=0.952)和提升树(MAE=1.268%, RMSE=1.622%, R2=0.960)的预测性能最佳。在模型验证阶段,提升树模型可以将预测值与实测值的平均相对误差控制在2.4%以内。本研究所构建的模型能够快速准确地预测大坝泄流期间下游河道内总溶解气体饱和度,有助于提前评估过饱和风险,及时调整排放调度方案,对于局部鱼类保护区提前采取防护措施,从而减少总溶解气体对水生生态的影响。研究结果可为深入开展基于机器学习的总溶解气体预测模型提供一定的参考价值。
Abstract
The ongoing advancement of cascade reservoirs has resulted in the formation of supersaturated total dissolved gases, which are challenging to disperse in riverine environments. This phenomenon has the potential to precipitate the onset of gas bubble disease and, in extreme cases, may even result in fish mortality. Therefore, the development of a predictive model for total dissolved gases downstream of dams is important for biodiversity conservation. This paper collected data from three dam monitoring stations on the Columbia River in the United States, comprising measurements of water temperature, barometric pressure, flow, dam overflow, and total dissolved gas saturation. These data were used to train three machine learning algorithms, namely, BP neural networks, random forests, and boosting trees, which were then employed to predict total dissolved gas saturation. The performance of the three algorithms was evaluated and compared. It found that as the number of significantly correlated input variables increases, the predictive performance of each model showed an upward trend, and different models were affected differently by input factors. Random forest (MAE=1.273%, RMSE=1.775%, R2=0.952) and boosting tree (MAE=1.268%, RMSE=1.622%, R2=0.960) had the best prediction performance under the optimal input variable scheme. In the model validation phase, boosting tree and random forest showed higher accuracy, with average relative errors of 2.3% and 2.6% between their predicted and measured values. In the model validation phase, the boosting tree model can control the average relative error between the predicted and measured values within 2.4%. The model constructed in this study can rapidly and accurately predict total dissolved gas (TDG) saturation in the downstream channel during dam releases. This enables the risk of TDG saturation to be assessed in advance, thereby facilitating the timely adjustment of the discharge scheduling scheme. Protective measures are taken in advance for localized fish sanctuaries, thus reducing the impact of TDG on aquatic ecology. The results of the study can provide some reference value for in-depth machine learning-based total dissolved gas prediction modeling.
大坝泄流往往会产生总溶解气体(total dissolved gas,TDG)过饱和现象,其产生原理是高坝泄水具有高水头高流速的特点,下泄水流与大量空气接触,在高压、强掺气的环境下,大量气体溶于水中产生总溶解气体过饱和现象[1]。所谓总溶解气体是指氧气、氮气、二氧化碳、水蒸气等,不同气体在对应的温度及压强下有着不同的溶解度,亦有着对应的平衡状态,但在某些特殊情况下,水中各种气体的浓度高于平衡状态时的浓度,此时的水体被称为总溶解气体过饱和水体[2]。早在20世纪60年代,美国科学家就在哥伦比亚河首次发现由于大坝泄流产生的TDG过饱和水体导致大马哈鱼、虹鳟鱼死亡的现象[3-4]。我国葛洲坝电站、新安江水库和三峡大坝运行初期初也曾观测到由于水中TDG过饱和而导致鱼类患气泡病甚至死亡的现象[5-6]。
已有研究发现,下游河道内有些鱼类可以利用补偿深度躲避TDG的危害[7-9],即鱼类通过寻求TDG低饱和度的庇护区,以避免TDG的威胁。不仅如此,高饱和度与低饱和度TDG河流的交汇处往往更适合鱼类躲避TDG的危害[10-11],Shen等[12]提出在交汇处通过河床开挖或者增加一些阻力障碍来扩大适合鱼类栖息的低饱和度TDG区域。近年来,不少学者提出通过合理的水库调度也能有效降低过饱和TDG的生成[13],优化后的调度措施能够减缓大坝高流量泄水时间,从而在一定程度上减轻TDG的累计水平。且随着梯级水库的持续开发,其对TDG的累积效应日益突出[14]。Ma等[15]通过数值模拟大坝下游TDG的产生及耗散过程,提出一种能够降低TDG的梯级水库调度方案。基于此,快速准确地预测大坝泄流期间下游河道内TDG饱和度,有助于提前评估过饱和风险,及时调整排放调度方案,对于局部鱼类保护区提前采取防护措施,从而减少TDG对水生生态的影响。
目前关于TDG预测模型的建立,主要基于气液界面传质理论和流体动力学等通过室内实验以及数值模拟得出[13,16]。Politano等[17]建立了一个三维两相流TDG预测模型,通过模型预测提出将大部分泄洪流量集中在一个海湾,促进气泡向自由表面输移,从而降低TDG的生成。Ma等[18]建立了一维非常定TDG模型,预测不同流量模式下高坝下游过饱和TDG的运移和耗散,并建议大坝采取不连续排放模式。Feng等[19]采用非定常三维两相流计算流体力学模型预测了TDG的分布。Wan等[20]开发了一个具有洪水脉冲流量模式的动态多目标过饱和TDG管理模型。与传统的实验或者数值模拟方法建立的TDG预测模型相比,机器学习算法不需要复杂的数学模型,只是通过对众多数据的挖掘,来寻找出数与数之间的映射关系。对于刚修建的大坝可能不太适合用机器学习算法建立TDG预测模型,但随着科技的发展,越来越多的大坝已经累计了庞大的数据库,在建立TDG预测模型方面,机器学习算法则是高效而省时的一种选择。
随着人工智能的快速发展,机器学习算法已被广泛应用于各种领域,如经济贸易[21-22]、生物医学[23-25]、交通运输[26-27]、环境工程[28-29]等。Moon等[30]选择pH、水温等9种输入变量运用AdaBoost算法模型来预测溶解氧浓度。Adnan等[31]提出将集中机器学习方法相结合形成一种新的混合方法来预测巴基斯坦北部曼格拉流域的月径流预测,总结出混合模型比独立机器学习模型精度更高。近年来,TDG监测数据日益丰富,成为机器学习算法用于预测TDG的坚实基础。Heddam等[32-33]采用克里格插值法(KIM)、响应面法(RSM)以及广义回归神经网络(GRNN)等方法预测大坝下游TDG饱和度。不仅如此,支持向量回归(SVR)和极限学习机(ELM)两种机器学习方法也常被用于预测TDG[34-35]。由于机器学习算法种类众多,因此选择一种更高效、更精确的算法来预测TDG至关重要。
本文通过美国地质勘探局的网站,选取美国哥伦比亚河上邦纳维尔大坝、约翰戴大坝以及达尔斯大坝监测站点的日监测数据,包括水温(T)、气压(P)、流量(D)、大坝溢流(SFD)以及TDG饱和度。利用邦纳维尔大坝的日监测数据,通过BP神经网络(BP)、随机森林(RF)以及提升树(BT)3种机器学习算法建立TDG预测模型。为了对比3种模型的预测性能,采用平均绝对误差(MAE)、均方根误差(RMSE)、决定系数(R2)3种评价指标对模型的性能进行评价。并利用约翰戴大坝以及达尔斯大坝的日监测数据对所建模型进行检验。本文为机器学习算法在开发大坝下游TDG预测方向提供了一种新方法,对水电开发河段的水生态和水环境保护具有重要意义。
1 数据和方法
1.1 数据来源
本文所采用的原位观测数据均来源于美国地质勘探局的网站(https://waterdata.usgs.gov)。美国和加拿大境内的哥伦比亚河上梯级水电站开发建设最完善,故选取美国哥伦比亚河上3个连续大坝监测站点的日监测数据,包括水温(T)、气压(P)、流量(D)、大坝溢流(SFD)以及TDG饱和度。其中,邦纳维尔大坝(Bonneville Dam)位于华盛顿和俄勒冈交界的哥伦比亚河上,1938年6月6日投产,装机容量105万kW,大坝为混凝土重力坝,坝高约60 m,平均年泄流量5190.47 m3/s; 达尔斯大坝(The Dalles Dam)位于邦纳维尔大坝的上游,1957年5月13日投产,装机容量178万kW,大坝为座混凝土重力坝,坝高约61 m,平均年泄流量5037.56 m3/s; 约翰戴大坝(John Day Dam)位于达尔斯大坝的上游,1968年7月16日投产,装机容量21.6万kW,大坝为座混凝土重力坝,坝高约56 m,平均年泄流量4881.82 m3/s。
WRNO站点位于邦纳维尔大坝下游,获取的是2014—2023年的日监测数据,用于模型构建,去除无效数据后,总计收集3575条有效数据。JHAW站点和TDDO站点分别位于约翰戴大坝和达尔斯大坝的下游,收集了2023年一整年的日监测数据,用于对本文所建立模型的检验,去除无效数据,有效数据分别为349条和351条(表1)。对收集数据进行统计分析,绘制小提琴图,如图1所示。小提琴图中的中间原点表示中位数,中间的箱线盒表示下四分位点到上四分位点的数据,从其延伸的黑线代表1.5倍四分位距的数据,外部形状表示核密度估计量。从图中可以看出,对于不同的影响因素,3个站点数据集的小提琴分布类似,且数据不存在离群值或者离群值较少,说明数据集构建合理。
表13个监测站点的具体信息
Tab.1 Specific information of the three monitoring sites

1.2 模型构建方法
1.2.1 BP神经网络
BP(back propagation)神经网络由输入层、隐含层和输出层3层组成。BP神经网络的过程主要分为两个阶段,第一阶段是信号的正向传播,从输入层经过隐含层,最后到达输出层;第二阶段是误差的反向传播,从输出层到隐含层,最后到输入层,依次调节隐含层到输出层的权重和偏置,输入层到隐含层的权重和偏置。
1.2.2 随机森林
随机森林(random forest)是一种监督学习算法,是在决策树的基础上使用bagging方式集成的一种算法。其构建过程主要是将许多决策树并行起来对数据进行处理,且每棵树都是独立的,互不干扰,由于每棵树使用的样本都是随机的,故每棵树产生的结果也就不同。对于分类问题,按照多棵树分类器投票决定最终分类的结果;对于回归问题,由多棵树预测值的均值决定最终预测结果。
1.2.3 提升树
提升树(boosting tree)也是一种集成算法,由于单一的决策树难以解决某些复杂问题,因此通过集成算法将模型进行组合。提升树就是以决策树为基函数,使用Boosting方式集成的一种算法。与随机森林不同的是,这种方法是将多个决策树串联起来,首先第一棵树对数据进行训练,第二棵树再对第一棵树的不足进行改进,以此类推,最后一棵树则是把前面的树作为一个整体,再进行适当的改进。总的来说,后面加入的树模型只会比前面的树模型越来越强。提升树方法实际采用加法模型,其构建过程在于第一个回归树预测的效果可能一般,但是第二个回归树把第一个预测错的残差作为输入,也就是说,如果第一个点的值被预测错误,那么在下一个回归树里面模型的权值就会变大,相当于吸取前一个模型的经验,从而提高模型的效果。

图1原位观测数据集小提琴图
Fig.1Violin graph of in situ observation data set
2 模型构建
2.1 数据预处理
在模型构建时,若输入的计算因子与TDG饱和度相关性太弱,就会导致模型计算量大,降低计算精度,不利于模型的构建。故本文采取Spearman法分析各变量与TDG饱和度之间的相关性。Spearman系数为正时表示2种因子正相关,Spearman系数为负时表示2种因子负相关,当系数越接近1或者-1时,则表示相关性越强。如图2所示,SFD与TDG饱和度的相关性最高(r=0.90),其次相关性按大小排列依次是流量(r=0.54)、水温(r=0.46)、水压(r=-0.39),最终确定SFD、D、T、P 4种输入变量。同时为了研究不同输入变量对TDG预测性能的影响,按照相关性大小确定了4种输入变量组合方案,如图2所示。
由于收集的数据不同指标量纲不同,为避免梯度消失或梯度爆炸问题,把所有数据都进行最大、最小值归一化处理,即全都转换为0~1范围内的数据。利用WRNO站点十年的监测数据,随机抽取80%(n=2860)的数据作为模型的训练集,20%(n=715)的数据作为模型的测试集。
2.2 模型评价指标
为了评估3种模型的性能,选择平均绝对误差(MAE)、均方根误差(RMSE)和决定系数(R2)3种性能指标对所建模型进行评价。其中MAE表征预测值与真实值之间的偏离程度,可以准确反映出实际预测误差的大小,MAE越接近0,表示模型拟合较好。RMSE即误差平方和平均值的算术平方根,RMSE越接近0,表示模型拟合越好。R2表示预测值与实际值的拟合程度,R2的范围在0~1之间,R2接近1,则表示模型拟合程度好。
2.3 模型对比分析
为了对比不同机器学习算法和不同输入变量对TDG预测模型精度的影响,本文利用BP神经网络、随机森林、提升树3种机器学习算法各构建了4种不同组合输入变量模型,总计构建了12组TDG预测模型,各模型评价指标参数如图3所示。

图2TDG与其他参数的Spearman相关系数矩阵以及各模型输入变量方案
Fig.2Spearman's correlation coefficient matrix of TDG with other parametric indicators and schematic diagram of each model input variable

图34种输入组合下的测试集预测性能评估
Fig.3Performance evaluation of test set prediction under four input combinations
为确定输入变量对TDG预测模型的重要性,在输入组合1的基础上分析流量、水温、气压3种因子对各模型的影响。对于BP神经网络模型,流量、水温、气压分别使模型的RMSE降低了1.0%、3.4%、4.9%,说明气压的影响最大,流量的影响最小。对于随机森林模型,流量、水温、气压分别使模型的RMSE降低了8.5%、7.0%、13.2%,说明气压的影响最大,水温的影响最小。对于提升树模型,流量、水温、气压分别使模型的RMSE降低了12.5%、2.1%、5.1%,说明流量的影响最大,水温的影响最小。因此,不同模型受输入因子的影响各不相同。
随着输入因子的增加,3种模型的预测精度都有所提高(图3),在最佳输入变量组合下,模型预测精度从大到小分别为提升树(MAE=1.268%,RMSE=1.622%,R2=0.96)、随机森林(MAE=1.273%,RMSE=1.775%,R2=0.952)、BP神经网络模型(MAE=1.47%,RMSE=1.99%,R2=0.94)。当BP神经网络模型从输入组合1增加到输入组合4时,其模型的MAE和RMSE分别降低了10.8%和9.2%,R2增加了1.4%。当随机森林模型从输入组合1增加到输入组合4时,其模型的MAE和RMSE分别降低了26.5%和26.2%,R2则增加了4.5%。当提升树模型从输入组合1增加到输入组合4时,其模型的MAE和RMSE分别降低了11.9%和18.7%,R2增加了2.2%。说明随机森林模型受输入因子数的影响较大,即当更多的影响因子作为模型的输入变量时,它呈现出最好的改进,而BP神经网络模型受输入因子数的影响较小。
使用4个变量作为输入因子,3个模型都获得了最佳精度。图4是不同模型输入组合4时测试集实测值与预测值的散点图,可以明显看出,与其他2个模型相比,提升树模型的拟合线方程更接近精确线(y=x)。

图4输入组合4的各模型测试集线性拟合(粉色区域为y=x的95%置信区间)
Fig.4Linear fit to each model test set for input combination 4 (The pink area represents the95% confidence interval of y=x)
3 模型验证和结果分析
基于以上分析结果,得出提升树在预测TDG方面表现最佳,其次是随机森林和BP神经网络模型。为了验证所建立模型的适用性,将3个TDG预测模型用于预测哥伦比亚河邦纳维尔大坝上游的约翰戴和达尔斯大坝监测站点的TDG饱和度,收集JHAW站点和TDDO站点2023年一整年的日监测数据(T、P、D、SFD),经过同样的归一化处理,作为所建立模型的输入因子,从而预测出约翰戴大坝和达尔斯大坝下游的TDG饱和度,结果如图5所示。
图5展示了2个监测站点2023年TDG饱和度的实测值与预测值,其中,提升树与随机森林模型的预测值与实测值的拟合度较高,几乎所有预测值都在实测值的5%误差范围内,预测结果呈现出整体上的一致性。但从细节上仍然表现出一定的差异性,在TDG饱和度低于115%时,提升树与随机森林的预测结果较为一致,但当TDG饱和度高于115%时,随机森林模型的预测误差较大。相比之下,提升树的预测结果相对更接近实测值。两次验证阶段,BP神经网络预测值与实测值误差较大,原因分析认为,该模型在预测TDG饱和度时出现了“过拟合”现象。一般情况下,BP神经网络模型的训练能力与预测能力呈正比,但这种趋势不是固定的,而是有一个极限,当达到此极限时,随着训练能力的提高,预测能力反而会下降,即出现“过拟合”现象,或称为模型的泛化能力差。BP神经网络算法是一种基于经验风险最小化原则的神经网络方法,它对训练数据的拟合程度过于敏感,导致模型参数选择复杂、优化困难、泛化能力差和稳定性低。
为进一步分析预测性能,计算出3个模型在2个站点的预测值与实测值之间的平均相对误差来评价预测精度,结果如图6所示。对于JHAW站点的预测,提升树模型、随机森林模型以及BP神经网络模型的预测值与实测值之间的平均相对误差分别为2.34%、2.69%、7.08%;对于TDDO站点的预测,提升树模型、随机森林模型以及BP神经网络模型的预测值与实测值之间的平均相对误差分别为2.31%、2.64%、5.81%。分析可知,提升树的预测精度最高,其次是随机森林模型。总的来看,提升树与随机森林模型预测精度没有太大的差异,平均相对误差保持在2.7%以内,对于JHAW站点,随机森林预测精度波动较小,对于TDDO站点,提升树模型预测精度波动较小。本文皆在建立高精度的TDG饱和度预测模型,因此,从模型的建立到验证阶段,无论是输入因子数量、各种评价指标、预测值与实测值的对比及相对误差大小,提升树都表现出最好的预测结果。故与本文其他2种模型相比,提升树模型更适用于预测大坝下游TDG饱和度。

图5JHAW站点和TDDO站点不同模型预测值与实测值对比图(粉色区域代表实测值的5%误差范围)
Fig.5Comparison of predicted and measured values of different models at JHAW site and TDDO site (The pink area represents a5% error range of the measured value)

图6最佳输入变量组合下3种模型预测值与实测值的相对误差
Fig.6Relative error between predicted values and measured values of three models under the optimal combination of input variables
4 结论
本文采用哥伦比亚河上邦纳维尔大坝下游WRNO监测站点近十年的日监测数据,以水温、气压、流量、大坝溢流4个指标作为输入变量,建立了3种基于机器学习算法的TDG预测模型。并采用平均绝对误差、均方根误差和决定系数对其进行评估。此外,选择位于哥伦比亚河上约翰戴大坝和达尔斯大坝下游的JHAW站点和TDDO站点的数据对模型进行检验。主要结论如下:
1)随着输入变量的增加,3种模型的预测性能都有所提高。各模型对不同输入因子的影响各不相同,大坝溢流和气压对BP神经网络和随机森林模型影响最大,大坝溢流和流量对提升树模型的影响最大。
2)对比BP神经网络和随机森林算法,提升树算法在预测大坝下游TDG饱和度方面表现出了更高的预测精度。
基于各种精度评价及模型验证,提升树算法构建的TDG预测模型,可将TDG饱和度的平均相对误差控制在2.4%以内,实现了大坝下游河道TDG的快速精准预测,可为基于机器学习的TDG预测模型提供相关借鉴。由于目前大坝下游TDG以及其他影响因子的监测数据较少,机器学习模型的预测性能受到限制,未来还应开展具有更多参数指标的机器学习算法的研究,尝试选择更先进的机器学习方法,进一步提高TDG预测模型的稳定性和准确性。