分享

Cem. Concr. Compos.:通过缺失数据插补和可解释机器学习预测混凝土强度

 智慧土木 2022-07-09 发布于广东

文献精读

Cem. Concr. Compos.:通过缺失数据插补和可解释机器学习预测混凝土强度

背景介绍

混凝土被认为是世界上使用最广泛的建筑材料,准确预测混凝土强度有利于提高基础设施中材料使用的效率和结构安全。此外,低估混凝土强度可能导致水泥用量过多,从而导致二氧化碳排放量显著增加。基于机器学习(ML)的预测优于传统方法,尤其是在处理高度非线性问题时。虽然所有这些以前的模型都是使用完整的数据集进行训练的,但实际上,大多数数据都受到异常值、噪声或缺失值的污染,这对于具体应用来说是一个重大挑战。此外,传统ML模型由于其复杂性而缺乏可解释性。这些模型被视为黑匣子,因此无法深入了解输入和输出特性之间的实际关系。此外,许多输入特征在控制特定属性时可能具有某种相互依存性。这种相互依赖的性质也无法使用传统的ML方法进行研究。

研究出发点

基于机器学习的混凝土非线性成分-强度关系预测需要一个大型、完整且一致的数据集。然而,此类数据集的可用性受到限制,因为数据集往往因不同输入特征对应的缺失数据而存在不完整性,这使得基于机器学习(ML)的稳定预测模型的开发具有挑战性。此外,随着这些ML模型的复杂程度增加,结果的解释变得具有挑战性。然而,尚未尝试将任何数据解释算法与基于ML的模型集成。因此,需要将稳健的数据解释算法与基于ML的混凝土强度预测模型有效集成,以开发一种协同可解释的基于ML的预测工具。

全文速览

美国罗德岛大学Sumanta Das课题组实现了不同的数据插补方法,以增强数据集的完整性。利用输入的数据集,使用各种超参数优化ML方法预测混凝土的抗压强度和抗拉强度。采用了SHapley加法解释(SHAP)分析预测结果。通过实现数据插补方法、机器学习和数据解释的有效组合,本文开发了一种有效的方法来评估混凝土中的成分-强度关系。反过来,这项工作可以作为设计和开发各种性能增强和可持续混凝土的起点。相关论文以“Prediction of concrete strengths enabled by missing data imputation and interpretable machine learning”为题,于2022年发表在Cement and Concrete Composites上。

图文解析

(1)不同缺失数据插补技术的性能评估

图1 用数据插补法预测(a)混凝土抗压强度和(b)混凝土抗拉强度后,从优化ML模型获得的MSE值

在本节中,通过比较从各个ML模型计算的MSE值来评估插补方法的性能。本研究中采用的插补方法是:(1)完全去除缺失数据,表示为“数据消除”,(2)基于各特征非缺失值的平均值的缺失值插补,表示为“平均值”,(3)基于各特征非缺失值的中值的插补,表示为“中值”,(4)具有五个最近邻的k-NN,表示为k-NN(k=5),(5)具有十个最近邻的k-NN,表示为k-NN(k=10)和(6)“MICE”,其中通过一系列迭代预测模型多次插补缺失数据,直到收敛。图1(a)和(b)分别显示了用于预测混凝土抗压强度和抗拉强度的输入数据集上对应于不同ML技术的MSE值。应注意,图1中呈现的MSE值基于训练精度。

从图1可以很容易地观察到,XGBoost能够学习底层分布并提供较低的误差,并且在数据插补后性能显著增强。神经网络的情况也是如此,因为其结构复杂,并且能够学习输入和输出之间的非线性关系。然而,根据广泛观察,XGBoost和NN均显示MSE值较低。总的来说,从图1(a)和(b)可以推断,最佳ML方法的选择取决于所采用的缺失数据插补技术的类型。

(2)使用XGBoost树集成预测混凝土强度

图2 使用XGBoost树集成模型将(a)混凝土的预测抗压强度和(b)混凝土的预测抗拉强度与实验值进行比较

图2(a)显示了使用XGBoost预测混凝土抗压强度。所有集合都获得了类似的高R2值,这表明XGBoost树集合模型可以很好地利用看不见的数据进行插值,如图2(a)所示。拉伸强度预测的总体趋势类似,如图2(b)所示。然而,在高抗拉强度下,预测效率降低。这可能是因为用于训练相应高抗拉强度值的数据点较少。总的来说,实验强度和预测强度之间的良好相关性建立了缺失数据插补技术和本文考虑的ML模型的异常预测效率。

(3)ML模型的可解释性

图3 使用XGBoost获得的混凝土(a)抗压强度和(b)抗拉强度的SHAP汇总图

图4 SHAP图(a)抗压强度和(b)抗拉强度

图5 使用XGBoost模型绘制混凝土(a)抗压强度和(b)抗拉强度的SHAP流量图

XGBoost等ML模型具有高度复杂和非线性的体系结构,因此它们往往表现为黑匣子模型。虽然树模型是可以解释的,但由于其层次结构,这些模型的可视化可能不容易理解。

对于XGBoost,使用了一种特定于树的SHAP近似方法,即TreeExplainer。TreeExplainer利用基于树的模型的内部结构,将其总结为一组特定于树模型叶节点的计算,从而导致低阶多项式复杂性。图3(a)展示了与从XGBoost树模型获得的抗压强度预测的各种特征相对应的平均SHAP值。

据观察,对于抗压强度的预测,水灰比具有最大SHAP值。特征“养护龄期”排第二。总的来说,从XGBoost观察到,水灰比、水胶比和养护龄期是预测混凝土抗压强度的最主要特征。

图3(b)展示了与从XGBoos模型获得的拉伸强度预测的不同特征相对应的平均SHAP值。在这里,水灰比显示出最大的SHAP值,其次是养护龄期和水胶比。需要注意的是,由于数据集中粘合剂和混凝土的抗拉强度之间缺乏良好的相关性,SHAP分析降低了粘合剂抗拉强度在决定混凝土抗拉强度中的重要性,这需要进一步研究。

从图3(a)可以看出,石粉含量和砂率等特征对抗压强度预测的影响较小。为了评估其影响,构建了两个不同的模型。对于第一种情况,从模型中删除石粉含量,通过删除石粉含量和砂率来构建第二种模型。观察到,当仅去除石粉含量时,MSE值显著增加。另一方面,当从模型中删除石粉和砂的比例时,与仅删除砂粉含量的情况相比,MSE值会降低。然而,与具有所有特征的模型相比,MSE值仍然更高。由于XGBoost是一种基于树的集成方法,其中每个决策树都是基于数据集创建的,因此预计会出现这种趋势。

图4显示了用于使用XGBoost模型预测混凝土抗压强度和抗拉强度的每个特征的SHAP值的图谱。对于输入特征“水灰比”,SHAP值为20,表明低水灰比可以将抗压强度从平均值增加20 MPa。另一方面,抗拉强度的相应SHAP值(图4(b))为1.5 MPa。这些观察结果的主要解释是:(i)抗拉强度和抗压强度均随水灰比的增加而降低。这可以解释为高水灰比通常与高孔隙度有关,因为水化产物未填充大量孔隙,这反过来会降低混凝土的强度。(ii)由于水灰比的降低,抗压强度的增加几乎比抗拉强度的相应增加高一个数量级。这种解释使专家能够确保ML模型学习到的函数是合理的和物理上合理的。

从图4可以看出,水灰比、养护龄期和水胶比是影响抗拉强度和抗压强度预测的前三大特征。其中,养护龄期似乎对抗压强度和抗拉强度有积极影响,而水灰比和水胶比似乎有消极影响。应注意的是,这一观察结果与目前对养护后混凝土抗压强度和抗拉强度发展的理解非常一致。对于其他特征,SHAP值大多以零为中心。这些低值表示其对模型输出的重要性较低。需要注意的是,图3(a)和(b)显示了输入变量的全局重要性因子,这些全局重要性值是作为数据中每个特征的绝对SHAP值的平均值获得的。

图5(a)和(b)分别显示了使用XGBoost模型的混凝土抗压强度和抗拉强度的流量图。SHAP流量图中的每条线对应一个数据点。

线条颜色表示与给定数据点对应的特性值,红色与较高值相关,蓝色与较低值相关。换句话说,红线代表高抗压强度混凝土,蓝色代表低抗压强度混凝土。与每个特征对应的线相对于预期值的上升和下降显示了这些各自的特征如何控制最终特性值。特征按平均SHAP值从x轴的左侧到右侧的递增顺序排列。有趣的是,我们观察到养护龄期表现出混合效应,养护龄期似乎既增加又减少了模型预测。

总的来说,使用XGBoost预测抗压强度和抗拉强度时,发现不同特征的相对重要性相似。使用SHAP值生成的可视化为模型预测提供了可解释的分析。不同特征之间的相互作用揭示了这些因素的组合如何影响混凝土的抗压强度和抗拉强度。通过可解释ML对不同特征的相对重要性进行评估,可以提供有效的方法来优化材料的数量和质量,以达到预期的性能,同时还可以获得对材料行为的基本见解。

总结

本文介绍了使用各种ML方法进行混凝土强度预测的方法,包括PR、LASSO、SVM、RF、XGBoost和神经网络。本研究中使用的数据集对应于使用人造砂作为细骨料的混凝土混合物,这使其不同于传统的混凝土混合物。混凝土中成分的此类修改增加了其成分-性能关系的复杂性。此外,数据集包含的缺失数据程度显著较高,这使得获得良好的性能预测具有挑战性。使用ML技术,评估输入和输出之间的非线性关系,这被基于物理或化学的模型所忽略。基于MSE和R2评估了各种ML技术的模型性能。在所有训练模型中,当使用具有十个邻域(k=10)的kNN来插补缺失数据时,XGBoost和NN表现出良好的预测效果。此外,根据不同输入特征的相对重要性,利用基于SHAP的模型可解释性技术来解释预测结果。根据SHAP值,发现混凝土的抗压强度和抗拉强度主要受水灰比、水胶比和养护龄期的影响。此外,还报告了所有其他特征的相对重要性,如砂比、人造砂的细度模量、养护龄期、碎石的最大尺寸和粘结相的拉伸/压缩强度。对不同特征的相对重要性及其对混凝土强度的影响进行评估,将有可能使材料设计师和决策者就选择合适的原材料作出明智的决定,以获得所需的强度性能。此外,相对特征重要性的评估将有可能为新兴的可持续替代混凝土开发更好的基于物理和化学的预测模型。总的来说,本文的结果表明,机器学习是一种很有前途的工具,可以根据混凝土配合比的知识预测混凝土强度。未来,人们希望使用各种特征工程技术开发更通用的模型,通过省略冗余输入特征,可以为更有效的输入特征选择开辟各种有希望的途径,从而减少模型训练时间,同时不牺牲模型的准确性。

本期编者简介

翻译:

程博远             博士生         深圳大学

审核:

罗盛禹             硕士生         深圳大学

排版:

罗盛禹             硕士生         深圳大学

本期学术指导

艾    蠡          博士后       南卡罗来纳大学

何    闯          博士后       深圳大学

龙武剑          教    授       深圳大学

文献链接:

 https:///10.1016/j.cemconcomp.2022.104414

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多