2024年12月23日

星期一

科学技术
联系我们
江苏省钢铁行业协会
协会地址 : 南京市御道街58-2号 明御大厦703室
咨询热线 : 025-84490768、84487588
协会传真 : 025-84487588、84490768
多伦多大学 Chemosphere:利用机器学习回归预测焦化废水处理厂排放液中取代和未取代的多环芳烃的发生

2024-05-31 14:14:43

来源:人工智能与环境前沿

浏览546

「期刊」:Chemosphere

「原题」:Predicting the occurrence of substituted and unsubstituted, polycyclic aromatic compounds in coking wastewater treatment plant effluent using machine learning regression

「译题」:利用机器学习回归预测焦化废水处理厂排放液中取代和未取代的多环芳烃的发生

「DOI」:10.1016/j.chemosphere.2024.142476

图片摘要

成果简介

摘要

本研究提出了三种基于不同核函数的机器学习(ML)模型,用于预测焦化废水处理厂排放液中多环芳烃(PACs)及其衍生物(包括取代的杂环多环芳烃 HPACs 和烷基化 PACs)。通过使用常规测量的废水质量数据作为模型输入,我们预测了最终排放液中 14 种 HPACs 的发生,R² 达到了 0.83。基于支持向量机(SVR)的回归模型进一步的性能评估显示,对数误差(MALE)为 0.46,平方误差(RMSE)为 0.073 ng/L。相比之下,K-最近邻和随机森林模型在 HPAC 预测上的 R² 分别为 0.75 和 0.76。通过特征分析进一步探索模型,发现 SVR 模型的优越预测能力是基于其对溶解有机碳(DOC)和总氨(T-NH3)输入变量的更高权重(81%),这可能捕捉到在处理厂中可能发生的二次转化。

亮点

提出了三种「基于核的机器学习」模型,用于预测「焦化废水」中的「多环芳烃及其衍生物」。使用「常规废水质量数据」作为输入,实现了对 14 种 「HPACs」 的准确预测。通过「特征分析」揭示了 「SVR」 模型在预测中的优越性,特别是在处理厂中可能发生的二次转化。

关键词

多环芳烃(PACs),杂环多环芳烃(HPACs),机器学习,回归模型,焦化废水处理

引言

工业排放继续是水生和陆地环境中有机污染物的主要来源。多环芳烃(PACs)是一类由两个或更多融合苯环组成的有机污染物。PACs 在化石燃料如煤和石油中天然存在,并在焦化和气化过程中释放到大气中,最终进入水圈。尽管对未取代的 PAHs 有严格的监管,但工业废水中取代 PACs 如 HPACs 和 APACs 的监测和排放既不受监控也未被规范。预测焦化废水中 HPACs 以及 APACs 和 PAHs 的发生对于评估焦化废水对接受水体的环境风险至关重要。

图文导读

图 1:PAHs、HPACs 和 APACs 在焦化废水处理厂中的分布

「目的」:展示 PAHs(多环芳烃)、HPACs(杂环多环芳烃)和 APACs(烷基化多环芳烃)在焦化废水处理厂的初级进水、生物出水和最终出水样本中的浓度分布。「展示」:图中显示了不同种类的 PAHs、HPACs 和 APACs 在三个采样点的浓度变化,其中 NAP(萘)在初级进水中浓度远高于其他 PAHs,而经过生物处理和三级化学处理后,APACs 和 HPACs 的浓度有所降低,但 HPACs 的浓度在最终出水中仍然较高。「结论」:研究表明,HPACs 在最终出水中的浓度是其对应母体 PAHs 的近 70%以上,这可能是由于在废水处理过程中发生了二次转化。

图 2:生物出水和最终出水样本中常规水质参数的箱线图和 PCA 分析的双标图

「目的」:通过标准测试测量生物出水和最终出水样本中的水质参数,并通过主成分分析(PCA)来确定输入变量。「展示」:箱线图显示了不同水质参数的分布,PCA 双标图展示了生物出水和最终出水中主要变异轴和相关性。「结论」:PCA 分析表明,溶解有机碳(DOC)和总氨氮(NH3-T)与 HPACs 和 APACs 的浓度有强相关性,这些参数被选为回归模型的输入变量。

图 3:机器学习回归模型开发和分析工作流程示意图

「目的」:概述了本研究中使用的机器学习回归模型的开发和分析流程。「展示」:图中包括了数据集选择、特征选择、模型训练、交叉验证、模型评估和模型解释等步骤。「结论」:该图提供了研究方法的全面视图,说明了如何从实际废水数据中开发出有效的机器学习模型。

图 4:回归模型的交叉验证性能

「目的」:评估随机森林(RFR)、支持向量机回归(SVR)和核 k 最近邻(KkNN)三种回归模型的性能。「展示」:通过 5 折交叉验证的训练和验证误差来展示模型的性能,其中 SVR 模型在多个指标上表现最佳。「结论」:SVR 模型在预测 HPACs 方面显示出最高的 R² 值和最低的 MALE 误差,表明其在预测 HPACs 方面的优越性。

图 5:回归模型预测的 PAC 浓度与实际浓度的对数回归图

「目的」:比较三种回归模型在预测焦化废水中 PAC 浓度时的准确性。「展示」:图中显示了三种模型预测的 PAC 浓度与实际浓度的对数回归关系,以及预测值的毒性当量商(TEQ)。「结论」:所有模型都倾向于高估 PAC 的浓度,这在考虑到 PAC 的高毒性时是一个优势。SVR 模型在预测 HPACs 方面表现最佳。

图 6:回归模型的偏依赖图和输入变量的重要性

「目的」:解释回归模型中输入变量的影响力和重要性。「展示」:偏依赖图揭示了输入变量如 DOC 和 NH3-T 对 HPACs 浓度预测的影响,排列重要性图显示了各输入变量在模型中的权重。「结论」:SVR 模型在预测 HPACs 时,对 DOC 和 NH3-T 的权重分配较高,这与它们在模型预测结果中的重要性一致。

图 7:回归模型中输入变量的排列特征重要性树状图

「目的」:通过排列特征重要性来分析不同输入变量在回归模型中的作用。「展示」:树状图显示了不同输入变量在 RFR、SVR 和 KkNN 模型中的相对重要性和数值权重。「结论」:DOC 和 NH3-T 在所有模型中都被识别为最重要的输入变量,这进一步证实了它们在预测 HPACs 浓度中的关键作用。

小结

本研究的结论是,开发的机器学习模型能够准确预测焦化废水最终出水中 HPACs 的发生,尤其是 SVR 模型在预测低分子量 PAHs 和 HPACs 方面表现出色。未来工作方向包括进行长期采样以进一步验证模型,并提高预测准确性。此外,研究还建议通过控制焦化废水中的悬浮固体来减少 HPACs 在最终出水中的可能性。

AI 点评 ↓ ↓ ↓

焦化废水处理厂排放的 PACs 和 HPACs 的环境风险是什么?

焦化废水处理厂排放的多环芳烃(PACs)和杂环多环芳烃(HPACs)具有高环境风险,因为它们不仅能在废水中持久存在,而且在处理过程中可能转化为更具毒性和迁移性的取代杂环产品。这些化合物对受纳水体构成严重的环境威胁,尤其是硝化的 N-HPACs,由于其增加的极性和水溶性,比未取代的 PAHs 更容易被水生动物细胞吸收。此外,硫取代的 S-HPACs 虽然在自然条件下不易分解,但也表现出极高的抗降解性。因此,预测这些化合物的释放对于评估焦化废水对受纳水体的环境风险至关重要。

本研究提出的机器学习模型如何预测焦化废水中的 PACs 和 HPACs?

本研究提出了三种基于核的机器学习回归模型,用于预测焦化废水中的 PACs 和 HPACs。这些模型使用常规测量的废水质量数据作为输入,预测了最终出水中 14 种 HPACs 的发生情况。支持向量机回归(SVR)模型在预测 HPACs 方面表现最佳,R² 值为 0.83,对数误差(MALE)为 0.46,平方误差(RMSE)为 0.073 ng/L。通过特征分析和部分依赖图,研究发现 SVR 模型之所以预测性能优越,是因为它对溶解有机碳(DOC)和总氨氮(NH3-T)这两个输入变量赋予了较高的权重,这两个变量能够捕捉到处理厂中可能发生的潜在次级转化。

本研究的结论和未来工作方向是什么?

本研究的结论是,开发的机器学习模型能够准确预测焦化废水最终出水中 HPACs 的发生,尤其是 SVR 模型在预测低分子量 PAHs 和 HPACs 方面表现出色。未来工作方向包括进行长期采样以进一步验证模型,并提高预测准确性。此外,研究还建议通过控制焦化废水中的悬浮固体来减少 HPACs 在最终出水中的可能性。