本文是一篇软件工程论文,本文通过回归算法对CNT吸附有机污染物的吸附容量预测提出了对应的解决方案,并且通过符号回归提取了吸附数据中的吸附方程表达式。
第一章 绪论
1.1 研究背景和意义
机器学习是人工智能的一个子集,它利用统计技术向计算机提供了“学习”数据的能力,而不需要复杂的编程[1, 2],并且鼓励各种学科领域的各种自动化跨度和任务[3]。近年来,机器学习算法不断被研究人员运用到环境、物理、化学、生物、能源、材料和催化等领域。与涉及物理性质的研究相比,机器学习在环境领域中特别是吸附领域中仍处于初级阶段。 水体和土壤中的重金属离子、药物、染料和其它有机污染物因其固有的累积性和难降解性对环境造成了巨大的危害。
水体和土壤中的污染物还可以向植物、动物和人体传输,潜藏着巨大的健康风险[4]。吸附可以调节重金属离子和有机污染物的流动性和有效性,能够显著降低环境风险。特别是有机污染物吸附是减少排放的重要途径。一系列用于捕获有机污染物的多孔材料已被开发出来,包括沸石[5]、金属有机框架[6]、共价有机框架[7]、多孔碳[8]、离子液体[9]、高级溶剂[10]和膜[11]。近年来,能够高效去除废水中有机物污染物的CNT吸附剂引起了学者们的广泛关注[12, 13]。CNT于1991年被发现,目前是研究最广泛的碳纳米材料。因为其多孔结构和高比表面积,CNT的吸附性能十分优越。碳纳米管吸附剂可分为三种类型:单壁碳纳米管 (SWCNT)、多壁碳纳米管 (MWCNT)和功能化碳纳米管 (FCNT)。目前它们在吸附水体中的有机污染物方面发挥了重要作用[14]。例如,在去除废水中的甲基橙、偶氮化砷和甲基红方面,MWCNT比活性炭更有效[15]。目前确定CNT吸附性能的传统途径主要是批量实验,该方法既耗时又低效。另外一种方法是使用吸附等温线模型来评估吸附容量,比如常见的Langmuir和Freundlich吸附等温线模型[16]。但是在确定吸附等温线模型之前,必须先获得吸附容量,因此吸附等温线的适用范围较小。
.....................
1.2 国内外研究现状
1.2.1 机器学习在吸附领域的应用
近年来,机器学习在环境吸附领域的应用迅速增加[27-29]。Wu等人提出了吸附剂比表面积和微孔体积对有机物吸附容量的经验关系[30]。虽然这一关系可以用来预测有机分子的吸附,但不能进行准确的定量分析。Zhu等人创建了353个关于生物炭吸附重金属的吸附实验数据集,并且使用人工神经网络(ANN)和随机森林(RF)对六种重金属(Pb2+、Cd2+、Ni2+、As3+、Cu2+和Zn2+)在44种生物炭上的吸附进行建模[31]。结果表明RF模型显示出更好的准确性和吸附效率的预测性能。并且证明了生物炭特性对吸附效率最重要,其中生物炭的阳离子交换容量和pH的贡献占生物炭特性的66%,生物炭的表面积仅提供了2%的影响权重。此外,他们还利用机器学习算法对碳基材料在抗生素类有机污染物四环素和磺胺甲恶唑上的吸附进行探究[32],使用材料特性和吸附条件作为模型输入,例如温度、pH和吸附剂类型,RF模型可以准确预测碳基材料对抗生素的吸附能力。研究发现比表面积和pH是决定碳基材料吸附四环素和磺胺甲恶唑的主要因素。Ali等人构建了六个预测重金属吸附的机器学习模型,模拟了单组分和多组分溶液中Pb2+、Cu2+和Ni2+的吸附,通过制定多输入多输出模型,充分考虑关键因素相互作用的影响,同时预测了生物炭在单组分或者多组分重金属离子中的吸附能力,所构建的预测模型具有优异的拟合系数[33]。Yang[34]等从150篇文献中提取了4420个数据点,构建土壤吸附重金属离子数据集,数据集中包含Cd2+、Cr2+、Cu2+、Zn2+、Pb2+和Ni2+ 6种重金属离子,然后使用6种机器学习模型和4种集成模型用于对土壤吸附重金属进行预测。Bazoobandi等[35]采用ANN预测土壤中的Cd和Pb的含量,并且证明有机碳是最重要的预测因子。Zhu等[36]采用RF从原料特征和热解条件中成功预测了木质素生物质的生物炭产量。
..........................
第二章 相关理论
2.1 回归预测相关算法
本节介绍的回归预测算法分为2类:(1)单一回归算法,分别为线性回归(Linear Regression,LR)和决策树(Decision-Tree,DT);(2)集成回归算法,分别为基于Bagging的随机森林(Random Forest,RF)和基于Boosting的梯度提升树((Gradient Boosting Decision Tree,GBDT)。
2.1.1 单一回归模型
(1)LR是从统计学习中发展起来的,被用于理解输入和输出数值变量之间关系的模型[41]。当存在单个变量时,该方法被称为简单线性回归方程。当有多个输入变量时,通常将该方法称为多元线性回归。目前训练线性回归模型最常用的方法为最小二乘法,多元回归是最小二乘回归的扩展,涉及多个解释变量。
(2)DT是一种决策工具,它使用类似于流程图的树结构。决策树属于监督学习,适用于连续和分类输出变量。当目标变量取连续值时,决策树被称为回归树。回归树用于观察对象的特征并在树的结构中训练模型以预测未来的数据以产生有意义的连续输出。该回归树由分支(边)和节点组成,节点包括决策节点(条件)和结束节点(决策),分支表示语句的真假[42]。决策树可根据信息熵和Gini指数分为2种。本节主要介绍基于Gini指数的决策树CART。
2.1.2 集成回归模型
集成学习的基本概念是将多个基础学习器训练为集成成员,并将它们的预测组合成单个输出,该输出应该比任何其它在目标数据集上具有不相关误差的集成成员具有更好的性能[43]。本节主要介绍2种主流的同质集成学习器:以RF为代表的Bagging和以GBDT为代表的Boosting。Bagging是从不同的子样本中构建多个模型,使用的训练数据集通常是相同类型的[44]。在Bagging过程中,随机抽取样本集N次,并从这些子集中创建未修剪的决策树,然后整个数据集中的每个样本的输出由决策树中的多数投票决定。Boosting是构建多个模型,通常是相同模型,每个模型修复先前模型的预测错误,最终得到强学习器[45]。Boosting过程中样本的权重随时间变化,以允许系统通过考虑样本的结果与其对整体准确性的影响成比例来优化其策略。
.........................
2.2 符号回归相关算法
符号回归是相对于数值回归的,它能够搜索数学表达式以找到给定数据集最合适的模型[21]。符号回归的目的是发现变量之间的隐藏关系,并且将数据转化为明确的数学公式。符号回归的主流实现方式为遗传算法中的一个分支:基于树的遗传编程。遗传编程以Lisp或者Scheme计算机语言创建计算机程序作为解决方案。遗传编程过程分为4步[52]:(1)生成问题的函数和终端的随机组合的初始种群(计算机程序);(2)执行种群中的每个程序,并根据它解决问题的好坏为其分配一个适应度值;(3)创建一个新的计算机程序群体,复制最优的现有程序,通过变异创建新的计算机程序,通过交叉创建新的计算机程序;(4)任何一代中出现的最好的计算机程序,被指定为遗传编程的结果。
软件工程论文怎么写
..........................
第三章 基于机器学习回归的吸附容量预测............................. 18
3.1 引言....................................... 18
3.2 数据集........................................ 18
第四章 基于符号回归的吸附方程提取............................ 31
4.1 引言........................................ 31
4.2 数据集创建............................. 31
第五章 总结与展望....................................... 42
5.1 全文工作的总结................................ 42
5.2 未来工作展望................................ 42
第四章 基于符号回归的吸附方程提取
4.2 数据集创建
4.2.1 吸附等温线理论数据集T_Data
吸附方程式的提取和推导同吸附等温线息息相关。吸附等温线中的因变量和自变量分别为????????(????????∙????−1)和???????? (????????∙????−1),它们分别是在平衡状态下的吸附量和吸附浓度。????????和???????? 的选取必须遵循不同吸附模型的隐含规则,并且不同吸附方程中的系数或者常数项也应满足实际情况:(1)当????????=1时,Sips模型就变为Langmuir模型,当初始浓度较低时,Sips模型变为Freundlich模型。(3)Temkin等温线模型假设吸附是多层过程。液相中吸附质的极高和极低的浓度值会被忽略。如表4-1所示,在遵循吸附模型意义的条件下,确定了常数和数据点选择范围。为了更加贴近实际情况,部分数据选取参考了文献中的数据。本节创建的T_Data包括6个样本。
软件工程论文参考
..................................
第五章 总结与展望
5.1 全文工作的总结
本文首先介绍了机器学习在吸附预测和方程提取领域的研究背景和意义以及近些年机器学习回归算法在吸附领域中的应用和符号回归提取实验数据的隐藏方程的国内外研究现状,针对现有传统批量实验获取吸附容量效率低和吸附方程的发现依赖经验和直觉等问题。通过回归算法对CNT吸附有机污染物的吸附容量预测提出了对应的解决方案,并且通过符号回归提取了吸附数据中的吸附方程表达式。本文的工作可以归纳为以下两方面:
(1)为了解决传统批量实验获取吸附容量复杂且耗时等问题,创建了CNT吸附有机污染物的数据集CNT_AdsData。利用特征重要性和PCC分析出CNT吸附有机污染物多维度特征之间的关系以及对吸附能力的影响权重,结果表明CNT的Asurf、Amicro和Ameso是影响吸附容量的关键因素。通过单一回归和集成回归模型对CNT的吸附容量进行预测,结果表明预测模型均具有优异的预测性能,并且基于Boosting的GBDT预测模型的拟合系数可达96.7%,为今后的吸附预测研究提供了一定的启示。
(2)针对吸附理论方程的发现和发展依赖于科学家的经验和直觉的困境,创建了基于6种吸附方程的理论等温线数据集T_Data和不同吸附剂吸附不同吸附质的实验等温线数据集E_Data。利用基于树的遗传编程对吸附等温线中的数据点进行符号回归,最终提取了6种函数表达式。对该系列表达式进行缩放、变换等数学操作,得出简易美观的吸附方程表达式,与现存的6种吸附等温线模型高度一致。所提模型为吸附模型的发展和理论推进提供了一定的启示,吸附领域的理论发展具有重要意义。
参考文献(略)