分享

指标驱动,数据优先,工业数字化转型经验分享(中)

 zspzd 2020-05-01
导读:

03

工业互联网平台是未来工厂的核心架构

对于工业互联网平台,国内、国外都已经有了比较丰富的资料,也出现了多种版本的工业互联网平台架构,但总体来看大同小异,基本上都保持了从边缘端的接入、边缘计算,一直到工业数据的管理和分析,以及到工业数据的建模,再到工业应用的开发这个主题思路。上图是国外LNS给出的架构图。

国内工业互联网产业联盟发布的架构也遵循从下往上的主题思路,尤其大家可以看到架构对从接入到管理、分析与建模等全流程的数据能力很重视,此外敏捷、高效的应用和模型开发等也是架构的重点。

以上两种属于机构发布的通用架构,具体企业也会制定有不同侧重和理念的工业互联网平台以及各个环节的产品和服务。首先来看大家比较熟悉工业互联网先驱predix架构,相比来说其平台核心关注点可能更加的突出Digital Twin数字孪生的理念及其核心地位。

同时,我们也会在边缘端看到它数据接入、采集、转发等环节相应的软硬件具体产品。再通过后面几家工业互联网平台的对比,大家就会发现,目前的工业互联网平台虽然总体思路相差无几,但是落实到具体的产品上还是有比较大的差异。当然,像物联网网关、边缘计算等设备从无到有也在逐步的通用化。

我们再来看Predix的云端,同样大家也可以看到它的数据集成、处理、存储等模块,以及数据分析和建模,另外在应用开发方面predix着重强调了产品能力、可控两个方向,而支撑这些目标的是微服务、可视化的开发工具,同时大家也能看到对数据建模也是predix应用开发的重点。

在应用这个层面,predix构建的应用大致可以分为这么两类,一类APM,就是资产性能管理,包括可靠性管理、设备实时健康监测、设备可靠性管理、合规性管理和维护策略优化,另一类是运营性能管理,包括运营智能、过程和指标优化等。 

我们再来看西门子的MindSphere,通过其架构图我们已经可以看到该平台开始注重各个层面的横向沟通、集成。

国外还有C3.AI,它的架构也遵循工业互联网的主题思路,但在应用层面可能更多的在预测性维护、资产管理、风险欺诈管理等方面。由此可见,工业互联网平台的差异化不但体现在具体平台的形态,更会在服务和产品应用层面逐步的出现侧重分化。

我们再看看国外的uptake,它在平台层面针对不同的数据分析,提供相应的数据科学的目录和模型的管理,以及针对机器学习和AI的支持,体现了很强的平台的工具特性。

当然,寄云NeuSeer工业互联网平台也遵循通用的工业互联网平台框架,但同时寄云NeuSeer平台作为一个工业互联网平台的实例产品,也有很明显的自身特性和侧重点,从我们的架构图也能一窥一二。比如,它在平台层面提供工业应用微服务、工业模型服务、工业数据分析建模系统等,而在应用层面,寄云科技主要专注在设备的资产管理、运营效率的管理和生产经营决策这几类的应用场景。

寄云NeuSeer平台在边缘侧提供两款硬件产品分别是寄云NeuSeer工业物联网网关、寄云NeuSeer边缘计算网关,以及IoT-SDK、边缘计算应用等软件,实现对数据的采集、处理、分析,以及与云端平台的连接。

这里我们着重谈一下边缘计算,其实它是介于云计算和边缘端数据采集的一个中间形态,严格来说边缘设备需要和云端紧密协同,比如云端海量数据分析、向边缘端部署应用和模型,并能够提供数据处理、分析和一定的实时应用能力。现在有些服务商将数据采集网关称作“边缘计算设备”,所以这种情形是不恰当的。

在云端,需要提供三类数据:实时数据、结构化、非结构化数据的存储、处理和开放能力。寄云NeuSeer 平台通过数据湖、元数据管理系统、寄云NeuSeer时序数据库等平台产品和组件,实现IT和OT异构数据的融合、数据的统一服务、海量工业数据的专业高性能存取、数据模型和数据资产服务,为上层的数据分析和数字孪生应用打好基础。

在数据统一、高效存取的基础上,基于大数据、工业互联网的数据分析才有可能顺利展开,因为传统数据分析浪费了大部分时间在数据准备阶段。同时,要想实现数据分析场景的广泛化,数据分析工具的简化、数据分析相关应用的开箱即用等特性是当今数据分析的重任。在这方面寄云NeuSeer DAStudio数据分析与建模平台已经实现了无代码、低代码分析,通过拖放式、可视化实现各种统计分析、机器学习、人工智能等分析建模和评价。

针对常用的各类工业应用,如实时监控和组态,可以通过一些轻量级、无代码的开发工具实现;而针对复杂的工业应用,需要利用多种开发工具,结合基于微服务的云应用开发平台,实现快速的应用交付。

针对一些超大型工业企业,可以在平台基础上实现一部分能力开放,构建包括应用、数据、模型的能力开放平台,对接企业供应链、客户以及生态合作伙伴,构建持续连接的数字化生态。寄云云服务市场(BOSS系统)为这种生态平台提供用户运营、交易管理、平台对接、资源管理等服务,目前已经协同腾讯云落地多个地方工业互联网生态平台。

04

数据、数字孪生和智能应用

工业互联网的核心是数据,“数据是未来工厂的新石油”,充分的说明了这一点。

“未来工厂”的运营架构也是围绕数据的利用方式展开。从数据的角度看,它包括了四个不同的阶段:融合阶段、管理阶段、分析阶段、应用阶段。

融合不只是设备联网、BI、数仓等等,它更多在于全方位的数据融合。数据可能来自于L0~L2的自动化系统,L3的生产运营系统,L4的业务系统……企业内部系统都需要连接进来,还会涉及到一些企业外部数据,包括气象、电价、价格指数、检测报告等等。最终在平台上沉淀下来时序数据、结构化数据和非结构化数据三类数据。每种数据都需要专门的数据存储方式进行存储和使用。

数据统一管理其实更多是在建立一些标准,实现跨业务系统数据无障碍使用。标准包括但不限于资产定义、组织定义、人员定义、工艺定义、流程定义,只有建立这样的标准,才能够关联到相应的数据源,才能够实现跨系统的一致性的数据访问。标准还应该涉及数据的存放位置、数据关联关系、数据的权限以及数据更新等各个细节。传统烟囱式的工业系统在这方面可以说非常混乱,导致数据的跨系统使用很难实现。通过一致的、全生命周期的数据模型可以实现数据的统一跨系统访问。

举个例子,我们把复杂设备分成系统、子系统、零部件等多个层级,每个层级都关联到设计端数据、制造端的BOM、维护历史、故障模式等,实现生命周期的数据一致性,进而为PLM系统、EAM系统、预测性维护系统、生产管理系统提供统一的数据模型。

工业数据分析的价值非常高这一点行业已经没有异议,但大家对数据分析和大数据的认知还存在误解。首先数据分析不等同于大数据。大数据其实做的是一些基础层面的事情,提取、存储和标准化,特点就是海量、实时、多样性,它的适用场景很多是在于近实时、分布式、高可用场景。但是数据分析或者叫数据科学在大数据之前就已经存在了,工业数据分析就是根据不同的工业生产目标发现数据的一些规律或者关联关系,找到解决问题的方法。我们提到数据分析包含物理、统计、机器学习和人工智能等分析方法。

还有一点,工业数据必须是有意义的、基于上下文的数据,再结合数据分析才能产生巨大的价值。反之,再多的毫无意义的数据也没有利用的价值。

数据分析可以应用到企业的经营层面、决策层面、生产层面、设备运维层面等各种场景。据LNS报告显示,工业企业数据分析的主要场景有5类,分别是提高产品质量、预测生产产量、提高关键环节运营指标、实现过程的持续优化和提高产品的服务质量。

对于数据分析已经有多个机构将其过程、方法进性了定义,虽然不尽相同,但大致都会包含这几点:首先一定要有很清晰的目标,比方说良率提升,为了实现这个目标我们就需要对良率指标进性拆解,对数据做相应的准备,提取相应的特征。然后根据目标和数据之间的关系寻找分析方法,建立起分析模型,选择相应的算法,创建工作流,选取数据对模型进行训练,还要根据结果对模型进行评估。筛选出来的合适模型的应用,一般来说或者放在一个实时的生产环境里,应用于实时数据并获取结果;或者把分析结果放在数据库里支持相应的应用程序使用。

在工业互联网体系下,一般将数据分析部署在云端和边缘端。云端主要对海量的数据进行深入挖掘,发现一些潜在价值和趋势,边缘端主要应对实时要求比较高的场景。需要注意的是云端数据分析和边缘端数据分析存在数据量、实时性、分析深度、应用范围等多种差异,二者是相辅相成的,在架构上紧密关联。 

我们已经提到通用的数据分析方法大概有3种,物理的、统计的和机器学习的。现实中企业和机构在这方面还会有一些差异,比如贝克休斯把分析方法归结为三种模型能力,LNS将物理的分析方法称为第一原理的方法等等。

物理分析方法就是传统的物理的、可解释的过程模型。比如,PID就是一个简单的线性或者积分、微分的过程,公式和结果都比较明确。物理分析的优势是简单,不需要太大的计算工作量,也不需要很多的数据样本就可以完成。但是它的劣势也非常明显,首先它取决于有没有一个明确的可以测量的输入输出,但在工业里面其实有非常多的场景数据,没有办法直接测量到很多工况,比如炉子中心温度。第二是没有状态,跟历史无关,它就没有历史的数据保存。第三不能适应复杂的场景,比如说一个高度集成化的化工厂,就很难用单一或者组合的物理模型描述出来。因此,物理模型,比较适合简单独立、有明确输入输出关系、可解释的的子过程的分析场景。

三种分析方法中统计分析占比最高,大家见到的各种各样的统计报表、SPC、各种各样的分布图,这都属于统计分析范畴。它的特点也是简单明确,计算工作量比较少,也不需要太多的数据样本。但它的劣势也比较明显,它只能推断出历史数据范围以内的一个结果,这种通过局部推断整体的情况毕竟有着很大的局限性。第二统计分析属于事后分析,就是问题出现以后的分析,无法实现假设性判定。

机器学习其实有很多分类,首先简单的机器学习,就是一些聚、分类的数据挖掘,以及决策树、SVM这些的一些基本的方法。再深入一些,深度学习也被应用到越来越多的领域,比如神经网络、LSTM应用到输入和输出不确定的场景。更高级的机器学习还有强化学习,可以根据反馈改进训练参数、训练行为,实现更加精准的判决。

机器学习在工业领域的应用目前来说还处于早期阶段。它的优势是比较适合在一些大型复杂场景下,也就是那些没有办法用统计分析、物理模型的情况下,你只能借助于机器学习去寻求突破。比方对于密闭超大型的锅炉,很多数据没办法直接测量,在这种情况下,可以尝试用机器学习把很多的输入和输出放在一起去寻找一些规律。它的劣势,比方说需要大量的数据样本,同时要有非常精确的标注,否则会影响最终学习的质量。 

对于分析方法的各有优劣这一现实,人们很早就有认知,也提出了很多的解决对策,除了方法本身的优化,再就是方法的组合使用。比如,APC其实就涉及了物理和统计两种分析方法组合使用,取得了非常显著的效果,但是这种组合也有很大的一个局限性,它取决物理模型和数据样本之间的一个匹配关系。

同样的,人们也在尝试把物理、统计和机器学习组合在一起。图中是贝克休斯基于统计模型、物理模型再加上机器学习,以求取得更好的预测结果。

机器学习方法需要大量的样本,但是结合统计和物理方法再去做一些预测分析,你可能就不需要太多的历史数据样本,就可以实现一个比较精确的预测。可以说,这种方法的组合发挥了各方法本身的优势,也规避了各方法的一些弊端,也是最经济有效的手段。

上图是GE提出的电厂性能的预测,把环境变量的一些参数输入到神经网络里,实现精确的性能预测,同时把输出的预测结果和改进的决策建议和控制参数结合,实现优化并反馈控制,提升电厂燃烧效率,一些结果已经能够验证。这个案例也可以看作是数字孪生的一个典型案例。

所以,综合来看,无论哪种分析方法、无论哪种应用场景,其最终还是要实现价值应用。另外,基于工业互联网的数据分析,与传统的数据分析不同之处在于,实时性、数字孪生以及智能。其实,我们提到的4个数据分析的特点,也是数据分析的4个应用方向。从GE电厂的案例中我们可以发现工业互联网数据分析实现了从(描述)实时监测,到(诊断)关联分析,到(预测)指标预测,再到(决策)优化反馈的闭环。

关于数字孪生,大家可以参考我之前写的《一文读懂数字孪生的应用及意义》,也可以去网上搜一下相关观点。个人认为数字孪生跟CPS区别不是特别大,更多是在于怎么用数字化的方式结合数据分析去构建起一个人可以理解的一个方式去解释物理资产过程里面潜在的不可感知的一些问题。 

对数字孪生的定义其实有很多种,大家可以大致了解一下Gartner、LNS以及GE提出的观点。其中GE提出的资产模型、数据分析、行业知识三位一体的观点,比较形象直观,给实际的业务应用能够带来指导。

所以,数字孪生在范围上并没有很严格的限制,它可以存在于生产过程、供应链、产品生命周期……以及一些指标监控、指标预测,其实都可以看成数字孪生的实例。大家没有必要把数字孪生看得太死,其实它可以有很多种存在形式、可以存在各种系统里面以及场景中。

同时,我们还要警惕不可以把数字孪生看成简单的3D可视化。因为有些人将之视为AR/VR之类的事物,其实那只是最基础的展示型数字孪生(DT)。根据智能程度的不同,我们可以把DT的应用划分为四个层级:展示型、描述型、预测型、自治型。描述型DT实现了直接、间接和虚拟指标的展示;预测型DT实现基于指标分析的趋势预测、What-If预测、组合模拟等;随着数据和经验的积累,自治型DT将能够达到自动学习、知识沉淀、自我优化。

我们再细看一下数字孪生的三个关键部分,资产模型、数据分析、行业知识。资产模型其实就是各类资产数据模型、层次模型、关系模型,实现数字化、全生命周期、统一的描述。这此基础上,运用相应的行业知识(包括控制模型、维护策略、历史经验),结合数据分析手段发现价值。

我们举个数字化阀门的例子,它涵盖了工程模型、数字模型,以及各种实时数据、历史数据,包括维护数据、各种指标(流速、压力、温度),还有相应的物理规则,这时候它已经是一个具备一定智能层次的数字孪生实例了,不再是简单展示。

当然最终数字孪生还应该落地成实际的应用,这时候再让我们回头看一看基于数据的智能应用这张图,就会发现数据智能应用都是基于数字孪生的。

我们再举几个数据智能应用的例子,第一个是企业制造智能(EMI)。EMI其实是一个标准的制造行业术语,但在国内知道的人可能并不是特别多。传统企业尤其是离散制造类,或多或少的都会存在生产指标没有实现实时获取的情形,这样的过程、子过程数据一般通过手工填报统计获得,造成生产指标统计滞后或者失真,也无法支持实时决策。与之相反的是,数字化程度高尤其流程类制造企业,已经实现了从生产系统(DCS, PLC)中直接提取实时数据,并结合实时指标计算,产生实时的生产指标,并支持实时决策,这种其实都可以归为EMI的范畴。

第二个例子是库存的预测。早期库存受到多方面输入因素影响和多种约束条件限制,比如市场需求、客户订单、供应链,以及生产中的残次品、非计划停机等等,造成无法精确预测产能以及对应的库存需求,也就很难形成既能满足客户需求、又能兼顾库存成本要求的最优方案。现在,已经有人在尝试通过神经网络可以将多种历史数据中的输入因素和限制条件进行训练,构建多种组合分析的可能性,并对结果进行模拟,给出推荐建议,可以获得最优动态库存策略。

第三个例子是SPC,就是统计过程控制。SPC其实并不是一个新概念,但是一直以来它仅仅被应用在固定门限的检测和过程稳定性能力的离线评估上,无法应用到实时的产线异常监测和预测,更无法应对不同参数的变化。比如说质量控制,人们可以用SPC检测相关的过程能力指标,但是却无法把这些检测到的指标直接反馈到产线的实时运转过程中去。现在,人们开始把数据的检测、指标的计算等提升到实时的水平,同时,基于指标的历史数据进行训练,不断动态修正判决门限,实现动态检测;对预期结果进行残差的SPC监测。

第4个例子是虚拟量测。虚拟量测是半导体行业提出来的概念,因为半导体制造流程复杂、精密,上游制造流程和下游制造品之间存在一个比较长的时间差,比方说一套工艺开始生产到出品可能有几天的时间,等质检人员对下游出品进行检测发现质量问题时,如果这个问题是上游制造环节产生的,因为有几天的时间差,那么其实不但被检测的这一批产品有问题,后续几天的出品也会无可挽回的出现相同问题。基于机器学习建立一个跨时间、空间维度的预测模型,通过大量的工艺参数、批次检测等数据,寻找规律,使得上游工艺参数发生变化时,人们就能预测到这个变化会带来什么品质的下游产品,避免低良率、高残次品情况的出现,这就是虚拟量测。

第5个例子是Google数据中心能耗的优化。如何降低数据中心能耗是一个世界性的难题,它涉及到的环节非常多,需要改进的参数也非常多(可能成千上万个),同时动态负载变化又非常快。除了物理改进措施,Google也在利用神经网络去解决数据中心的耗能问题。大量的参数被输入到神经网络中,通过增强学习寻找最优的优化组合,据说实现了40%的提升。

第6个例子是美国智慧建筑VERDIGRIS的能耗管理。常规思路对各种设备的能耗实时测量需要在被监测设备上部署仪表或者传感器,VERDIGRIS通过监测电力线路,再借助神经网络学习、拆解设备能耗模式,实现了建筑内各种用电设备能耗的监控。

第7个例子是基于机器学习的预测性维护。传统设备维护一般基于固定的告警规则、维护策略,成本高、能效低,尤其对设备故障造成的非计划停机缺乏低成本、有效的对策。预测性维护通过海量实时和历史数据,监测、学习设备的运转模式,发现设备故障早期的特征,以及设备故障的发展趋势,并能够将这种经验、知识广泛的应用到同类设备的监测上,在故障发生之前及早提醒工作人员采取应对措施,以免发生严重故障,造成非计划停机。

(欢迎大家加入数据工匠知识星球获取更多资讯。)

联系我们

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多