一种用于流程工业的多智能体系统任务调度方法及系统

新用户30775772 2025-01-31

展开全文

一种用于流程工业的多智能体系统任务调度方法及系统

(57)摘要

本公开提供了一种用于流程工业的多智能体系统任务调度方法及系统，所述方案根据流程工业制造过程特点，基于MAS技术，构建了一个集成多个生产单元的任务调度模型，同时，提出了一种TS_Qlearning算法应用于此模型，形成了一种应用于流程工业的任务控制系统，所述方案能够准确完成复杂的生产任务，实现制造过程的资源优化，从而推动传统的流程工业向智能制造转型。

1.一种用于流程工业的多智能体系统任务调度方法，其特征在于，包括：

构建面向全过程的智能协同控制模型，该模型由系统Agent通过总线连接各个生产阶段的Agent组成；

获取任务的初始作业序列，以及完成每个作业所需要的现场Agent和执行每个作业所述各个现场Agent所需要的处理时间；

利用TS_QLearning算法求解现场Agent总空闲时间最短的作业序列；

所述智能协同控制模型根据所述作业序列进行任务调度。

2.如权利要求1所述的一种用于流程工业的多智能体系统任务调度方法，其特征在于，所述智能系统控制模型为分层结构，上层的系统Agent用于统一资源调度及任务分配，下层的每个车间Agent包括车间控制Agent和若干现场Agent，所述系统Agent通过总线下发任务，每个车间之间相互配合实现任务分解，每个车间通过车间控制Agent将任务分配给现场Agent，现场Agent相互协作完成任务。

3.如权利要求1所述的一种用于流程工业的多智能体系统任务调度方法，其特征在于，所述任务调度方法通过最小化所有现场Agent空闲时间的总和，寻找最优的作业序列。

4.如权利要求1所述的一种用于流程工业的多智能体系统任务调度方法，其特征在于，所述调度方法需要遵循如下约束：

每个现场Agent一次只能执行一项操作；每项任务的操作一次只能由一个现场Agent执行；一旦在机器上开始操作，就不能中断；在没有完成之前的操作之前，不能执行其他的任务操作；只能由同种类型的机器执行任务操作，并且每个现场Agent的处理时间和可利用的现场Agent的数量是已知的。

5.如权利要求1所述的一种用于流程工业的多智能体系统任务调度方法，其特征在于，所述任务包含若干作业，所述作业需要利用若干现场Agent进行处理。

6.如权利要求1所述的一种用于流程工业的多智能体系统任务调度方法，其特征在于，所述TS_QLearning算法是禁忌搜索算法和Q学习算法的结合，通过禁忌搜索算法获得预设数量的作业序列的初始解，并存储于禁忌表中；基于禁忌表中的初始解，通过QLearning算法进行优化求解，获得最优的作业序列。

7.如权利要求1所述的一种用于流程工业的多智能体系统任务调度方法，其特征在于，所述TS_QLearning算法优化过程中，利用空闲时间作为反馈信号，经过迭代计算获得完整的作业序列及对应的总的空闲时间。

8.一种用于流程工业的多智能体系统任务调度系统，其特征在于，包括：

模型构建模块，其用于构建面向全过程的智能协同控制模型，该模型由系统Agent通过总线连接各个生产阶段的Agent组成；

数据获取模块，其用于获取不同任务所需要的Agent及各个Agent所需要的处理时间数据；

最优作业序列获取模块，其用于利用TS_QLearning算法求解最优的作业序列，所述智能协同控制模型根据所述作业序列进行任务调度。

9.一种电子设备，包括存储器、处理器及存储在存储器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述的一种用于流程工业的多智能体系统任务调度方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器

执行时实现如权利要求1-7任一项所述的一种用于流程工业的多智能体系统任务调度方法。

一种用于流程工业的多智能体系统任务调度方法及系统

技术领域

[0001] 本公开涉及流程工业控制技术领域，尤其涉及一种用于流程工业的多智能体系统任务调度方法及系统。

背景技术

[0002] 本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

[0003] 现代工业越来越依靠数据，同时工业生产中的数据量也开始进入PB级别，这使得工业数据与以往的生产数据对比发生了质的改变。近年来，对多Agent人工智能的研究表明，多Agent人工智能中的多智能体系统理论为智能制造系统的实现提供了可行的技术支持，它也成为制造领域的研究热点之一。

[0004] 一方面，目前，流程工业制造过程中的多Agent控制模型分为三种类型：集中式，分层式和分布式。发明人发现，集中式存在低容错性且可能容易导致安全问题，一旦中央控制计算机发生故障，它将导致整个系统崩溃；分层式中上层和下层是从属关系，上层和下层有强烈依赖；与集中式和分层式系统相比，分布式系统相对独立，每个子系统都可以实现每个子系统的局部优化,然而，难以实现整个系统的整体优化以，且需要更高的网络和计算能力的需求。

[0005] 另一方面，任务调度也是多Agent系统的重要内容之一，合理的生产任务调度方案对于提高企业的生产效率的重要作用。Job shop作为生产任务调度问题，它是一个强NP- hard问题，发明人发现，许多研究者将启发式算法应用于求解此类NP-hard难题，但是此类方法存在缺陷，如Q学习算法在求解大规模任务调度时候容易出现陷入局部最优、计算效率低等缺点。

发明内容

[0006] 本公开为了解决上述问题，提供一种用于流程工业的多智能体系统任务调度方法及系统；所述方案通过将改进的Q学习算法应用于流程工业中的多智能体系统任务调度中，可以获得更优秀的作业序列，从而使多智能体系统的资源得到更合理的调度，降低多智能体的空闲时间。

[0007] 根据本公开实施例的第一个方面，提供了一种用于流程工业的多智能体系统任务调度方法，包括：

[0008] 构建面向全过程的智能协同控制模型，该模型由系统Agent通过总线连接各个生产阶段的Agent组成；

[0009] 获取任务的初始作业序列，以及完成每个作业所需要的现场Agent和执行每个作业所述各个现场Agent所需要的处理时间；

[0010] 利用TS_QLearning算法求解现场Agent总空闲时间最短的作业序列；

[0011] 所述智能协同控制模型根据所述作业序列进行任务调度。

[0012] 进一步的，所述智能系统控制模型为分层结构，上层的系统Agent用于统一资源调

度及任务分配，下层的每个车间Agent包括车间控制Agent和若干现场Agent，所述系统 Agent通过总线下发任务，每个车间之间相互配合实现任务分解，每个车间通过车间控制 Agent将任务分配给现场Agent，现场Agent相互协作完成任务。

[0013] 进一步的，所述任务调度方法通过最小化所有现场Agent空闲时间的总和，寻找最优的作业序列。

[0014] 进一步的，所述调度方法需要遵循如下约束：

[0015] 每个现场Agent一次只能执行一项操作；每项任务的操作一次只能由一个现场 Agent执行；一旦在机器上开始操作，就不能中断；在没有完成之前的操作之前，不能执行其他的任务操作；只能由同种类型的机器执行任务操作，并且每个现场Agent的处理时间和可利用的现场Agent的数量是已知的。

[0016] 进一步的，所述任务包含若干作业，所述作业需要利用若干现场Agent进行处理。 [0017] 进一步的，所述TS_QLearning算法是禁忌搜索算法和Q学习算法的结合，通过禁忌搜索算法获得预设数量的作业序列的初始解，并存储于禁忌表中；基于禁忌表中的初始解，通过QLearning算法进行优化求解，获得最优的作业序列。

[0018] 进一步的，所述TS_QLearning算法优化过程中，利用空闲时间作为反馈信号，经过迭代计算获得完整的作业序列及对应的总的空闲时间。

[0019] 根据本公开实施例的第二个方面，提供了一种用于流程工业的多智能体系统任务调度系统，包括：

[0020] 模型构建模块，其用于构建面向全过程的智能协同控制模型，该模型由系统Agent 通过总线连接各个生产阶段的Agent组成；

[0021] 数据获取模块，其用于获取不同任务所需要的Agent及各个Agent所需要的处理时间数据；

[0022] 最优作业序列获取模块，其用于利用TS_QLearning算法求解最优的作业序列，所述智能协同控制模型根据所述作业序列进行任务调度。

[0023] 根据本公开实施例的第三个方面，提供了一种电子设备，包括存储器、处理器及存储在存储器上运行的计算机程序，所述处理器执行所述程序时实现所述的一种用于流程工业的多智能体系统任务调度方法。

[0024] 根据本公开实施例的第四个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述的一种用于流程工业的多智能体系统任务调度方法。

[0025] 与现有技术相比，本公开的有益效果是：

[0026] (1)根据仿真实验的结果表明，对于任务调度问题，TS_Q learn ing算法比

Qlearning算法有明显的优势，可以获得更优秀的作业序列，从而使多智能体系统的资源得到更合理的调度。

[0027] (2)由于禁忌搜索算法优秀的收敛速度，并且可以在Qlearning训练前完成并不会消耗太多的时间，而禁忌表可以当成一个初解的记忆表反复使用。从而解决Qlearning算法在训练前期由于环境陌生造成结果较差的问题。

[0028] (3)在实际生产过程中，总会有一些紧急的任务，Qlearning算法对于紧急任务的

处理可操作性较差。而TS_Qlearning可以通过设置特赦准则，调整禁忌表的长度，从而可以实现快速处理紧急任务。

附图说明

[0029] 构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示

意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。 [0030] 图1为本公开实施例一中所述的流程工业多Agent分层控制模型； [0031] 图2为本公开实施例一中所述的任务调度甘特图示例；

[0032] 图3为本公开实施例一中所述的TS_Qlearning算法流程图。

具体实施方式

[0033] 下面结合附图与实施例对本公开作进一步说明。

[0034] 应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

[0035] 需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

[0036] 流程工业是国民经济发展的重要支柱。现代流程工业集成制造系统是提高工艺企业竞争力的重要竞争技术之一。选择合适的模型实现生产过程的智能优化控制一直是人们研究的重点。

[0037] 在工业4 .0时代，人工智能的快速发展也加速了流程工业的智能化水平。在工业 4.0中，从智能材料进入智能工厂到智能产品，智能工厂的信息物理生产系统是这一转型的核心。它是一种动态配置的生产方法。工作站可以通过网络访问实时网络。所有相关信息根据信息内容，自主切换生产方式和更换生产材料，从而调整成为最匹配的生产操作模式。 [0038] 针对工业4.0的特点，目前的多智能体控制模型很难实现全局优化。找到合适的算法来实现Agent之间的合作也是一个主要问题。本公开提出了一种面向全过程的智能协同控制模型，该模型由系统agent和各个生产阶段的agent组成。该模型的结构是分层的，上层的系统agent主要用于统一资源调度，任务分配，而每一个使用多agent生产步骤的车间相当于一个小型的控制系统，多个agent之间相互合作完成任务；每个Agent可以相互通信。其中多Agent控制的可以相互合作完成任务(如图一所示)；调度控制Agent调度的任务用于实现智能制造过程的全局协同控制；对于这样的全局优化模型，如何实现多智能体系统的任务调度是必须要解决的问题。

[0039] 实施例一：

[0040] 本实施例的目的是提供一种用于流程工业的多智能体系统任务调度方法。

[0041] 制造过程的任务调度是指在满足工艺要求和现有的生产设备要求的条件下，对多种生产任务在空间上、时间和资源上的规划、调度和安排；由于流程工业生产产品或者同一产品的多道工序需要共享资源和设备，因此必须通过算法合理规划生产；生产任务调度的

目的就是合理规划和配置资源，确定产品在不同设备的加工时间和顺序，提高生产的效率；

流程工业制造过程任务调度可以描述为n个作业在m台机器上处理；每个作业包含若干生产操作，这些操作必须在不同的机器上执行。所有作业在通过机器时具有相同的处理顺序；不同作业的操作之间没有优先级约束；操作不能中断，并且每台机器在时间；所有机器，每个零件都有相同的加工路径；工作顺序是任意的；其目标是找到一个适当的操作序列，来最小化机器空闲时间的总和，并考虑以下限制条件和假设：

[0042] (1)每台机器一次只能执行一项操作

[0043] (2)作业的操作一次只能由一台机器执行

[0044] (3)一旦在机器上开始操作，就不能中断它

[0045] (4)在没有完成之前的操作之前，不能执行其他的作业操作

[0046] (5)没有备用路线，即只能由一种类型的机器执行作业操作，并且操作处理时间和可操作机器的数量是预先已知的。

[0047] 基于上述约束，本实施例提出一种用于流程工业的多智能体系统任务调度方法，包括：

[0048] 构建面向全过程的智能协同控制模型，该模型由系统Agent通过总线连接各个生产阶段的Agent组成；

[0049] 获取任务的初始作业序列，以及完成每个作业所需要的现场Agent和执行每个作业所述各个现场Agent所需要的处理时间；

[0050] 利用TS_QLearning算法求解现场Agent总空闲时间最短的作业序列；

[0051] 所述智能协同控制模型根据所述作业序列进行任务调度。

[0052] 进一步的，所述智能系统控制模型为分层结构，上层的系统Agent用于统一资源调度及任务分配，下层的每个车间Agent包括车间控制Agent和若干现场Agent，所述系统 Agent通过总线下发任务，每个车间之间相互配合实现任务分解，每个车间通过车间控制 Agent将任务分配给现场Agent，现场Agent相互协作完成任务。

[0053] 进一步的，所述任务包含若干作业，所述作业需要利用若干现场Agent进行处理。 [0054] 进一步的，需要说明的是，所述现场Agent在本实施例中表示执行作业的机器；假设有4个作业，每个作业必须在3个无关机器上进行处理，假设得到的作业序列是{JA ,JB ,JC , JD}。

[0055] 通过Jimj表示作业i需要在机器j上花费的时间；如图2所示，展示了该作业序列情况下的甘特图。

[0056] 在图2中，xi (i＝ {1 ,2 ,3 ,4})表示在作业过程中不同机器的空闲时间，通过

表示三机调度任务的总空闲时间；任务调度的优化目标则是找到一个最小化X的作业序列，本公开中，将甘特图之外的空闲时间定义为“外部机器空闲时间”，例如x1 ,x2。其他定义为“内部机器空闲时间”，例如，x3 ,x4。

[0057] 此外，为了反映序列实际完成所有作业所需的时间，需要计算作业实际完成需要的最大完成时间makespan或Cmax来反映结果的合理性；如果最终结果减少了机器空闲时间的值，但实际上需要更多的时间来完成这个任务序列，这个结果显然也是不合理的；一般的任务调度问题表示为n/m/Cmax，涉及n个工作，每个工作都需要在m台机器上进行操作；在

Python中，我们定义n维矩阵p和C，其行数目为N且列数目为M；我们可以通过数据集和作业

序列{J1 ,J2 ,...,Jn}来获得机器m上的作业i的处理时间p(i,j)，然后计算C(Ji ,j)的完成时间，如下所示：

[0058] C(J1 ,m1)＝p(J1 ,m1)

[0059] C(Ji ,m1)＝C(Ji-1 ,m1)+p(Ji ,m1)

[0060] C(J1,mj)＝C(J1 ,mj-1)+p(J1 ,mj)

[0061] C(Ji ,mj)＝max{C(Ji-1 ,mj) ,C(Ji ,mj-1)}+p(i,mj)

[0062] Cmax＝C(Jn ,mm)

[0063] 其中，i＝2,...,n；j＝2,...,m。

[0064] 因此，当作业排列为{J1 ,J2 ,...,Jn}时，Cmax是作业Jn的最后一次操作完成的时间；由于任务调度问题是NP-hard问题，会消耗大量资源；我们仅将通过Qlearning算法或TS_ Qlearning算法训练得到的最终作业序列代入上述公式中，即可得到Cmax。

[0065] 假设需要在m个不相关的机器上执行n个作业，并且通过算法的训练，获得了最优的作业序列；同样，假定Jk是获得的最优作业序列中的第一个作业；然后，Jkml表示作业Jk需要在机器ml上花费的时间；实际上，Jk是该算法获得的初始解；通过该初始解Jk，可以获得 “外部空闲时间”的值，而"内部空闲时间"的计算需要一个完整的解。

[0066] 我们将空闲时间定义为T，将外部空闲时间定义为Te，将内部空闲时间定义为Ti。显然，总空闲时间T等于Te和Ti之和，并且Te可以根据以下公式获得：

[0067] Te＝(m-1)Jkm1+(m-2)Jkm2+ …+Jkmm-1

[0068] 根据这个公式，我们可以得出结论，外部空闲时间仅与初始解有关，并且机器数量越多，对总体的影响就越大。

[0069] 基于Q学习算法存在的以下缺点，即不知道在隐形状态下应该采取什么动作，换句话说，Q学习代理无法评估未知状态；这很可能在培训的早期阶段发生。为了解决这个问题，本公开提出了一种结合TS算法和Q学习算法的新型TS_QLearning算法；在该算法中，通过禁忌表记录了一些比较好的初始解；需要强调的是，所述TS_QLearning算法并非通过TS算法获得最佳的初始解，而是将禁忌表视为记忆表，用于排除一些非常差的初始解，这些初始解往往会导致非常大的外部空闲时间。

[0070] 其中，禁忌搜索是Glover(1986)开发的一种元启发式方法；在每次迭代中，禁忌搜索从一个解移动到当前解附近的一个改进解，一个禁忌表可以用来防止一些旧的解决方案在新解决方案的迭代中出现某些特征，因此，TS算法的收敛速度非常快。

[0071] 由于Jkm1在外部空闲时间函数中的系数最大，因此Jkm1对外部空闲时间的影响最大；首先，候选解定义为{J1m1 ,J2m1 ,… ,Jkm1 ,…Jnm1}，将候选解中较小(即外部空闲时间较小)的任务放入禁忌表中，直到禁忌列表已满；此处设置禁忌表的长度为任务数的1/3，所述禁忌表的长度可以根据实际需求进行调整，以控制初始解决方案的范围。

[0072] 同样，在jobshop调度训练中，机器时间和加工成本作为输入参数，作业序列作为可变参数。目标是找到一个合适的工作顺序，以尽量减少空闲时间。

[0073] 为了适应强化学习方法，可以合理地将状态定义为作业序列，或者更准确地定义为作业优先级关系。状态更改(或操作)定义为作业优先级关系中的更改。与Q-学习不同， TS_QLearning的初始解是从禁忌列表中随机获得的。值得注意的是，TS_QLearning选择了

一个初始解，这也相当于执行一个动作；同样，在执行完动作之后，也会得到奖励(即下一个

状态和更新的Q表)；在解决调度问题时，可以使用不同的反馈信号，本公开所述方案中采用空闲时间作为奖励信号，具体技术构思是空闲时间越短，表明该动作越优异。

[0074] 进一步的，所述TS_QLearning算法，在训练前就可以得到所需的禁忌列表，随着训练的进行，偏好会不断更新，进而影响行为选择策略收敛到所找到的准最优作业序列；当训练完成后，获得最终的作业序列及总空闲时间，然后根据前述的Cmax计算公式得到Cmax 。 [0075] 进一步的，为了展示本公开所述方案的优越性，在本实施例中，使用OR-Library中可用的基本调度基准实例对本公开所述方法和现有的Q学习算法的任务调度结果进行了验证。

[0076] 其中所述OR-Library是针对各种运筹学(OR)问题的测试数据集的集合；有n个作业需要在m台不相关的机器上执行；在这种情况下，每个作业由m个不可抢占的操作组成，业的每个操作在给定的时间内使用不同的机器，可以在被处理之前等待，度实例提供了三种类型的实例，些数据集介绍了每个作业所需要的机器以及每台机器中所有作业的处理时间。

[0077] 为了评估不同算法的质量，随机选择了不同的案例，分别对本公开所述方法以及Q 学习算法进行了10次运算以获得平均值。Tailard数据集中有很多实例，每个实例的大小

(作业x机器)分别为20x5、20x10、4x 20x15、20x20。我们利用Python上实现了Q-Learning算法和算法，并运行在具有CPU i7和16GB RAM的设备上。

[0078] 为了使实验更加合理，本实施例中将q学习算法设置为具有与本公开所述的TS- QLearning设置相同的episodes(max_episodes＝10,000)，学习率(α＝0.1)和折扣因子(γ ＝0.8)，以确保两种算法在相同的条件下运行；对于TS_QLearning算法，本实施例中将禁忌列表的长度设置为作业数量的三分之一；TS_QLearning算法的初始解是从禁忌列表中获得的；通过上述两种方法分别得到算法训练得到的最终序列，再根据这个最终序列来计算Cmax 的值。

[0079] 在实验中，针对每个Taillard问题执行了10,000次Q学习算法和TS_QLearing算法的迭代，运行10次后，将实验结果的平均值记录在表1中。如表1所示，显示了选择适合不同复杂性问题的实例进行的实验结果(具体包括16个Taillard实例的结果)

[0080] 表1:Q-Learning和TS_Q-learning算法的实验结果

[0081]

[0082] 整体上结果表明，在任何数据集中，通过TS_Q学习算法获得的空闲时间都优于通过Q学习算法获得的空闲时间。对于Cmax的值，我们在TS_Q学习算法中得到的结果也优于Q学习算法。因此,我们的算法在解决任务调度问题上比Q学习算法更具优势。

[0083] 进一步的，如图3所述，展示了TS_QLearning算法的流程图，所述TS_QLearning算法的具体步骤如下：

[0084] 步骤1：初始化禁忌表，Q表,最佳空闲时间best。

[0085] 步骤2：设定禁忌表长度，禁忌搜索迭代的最大次数，以及特赦准则。通过禁忌搜索，将比较好的候选解存到禁忌表中，直到达到禁忌搜索最大的迭代次数。

[0086] 步骤3：对于每一个训练周期如果还有任务没有完成调度，开始迭代。初始化状态 s,任务序列job_seq。

[0087] 步骤4：判断是否获得初解；如果没有获得初解，则从禁忌表中随机选择一个初解，并且观察执行完后的状态s',r。并根据Q(s,a)←(1-α)Q(s,a)+α[r+γmaxa 'Q(s',a ')],s← s ',job_seq←job_seq+s '更新Q表,状态s ,和任务序列job_seq；如果已经获得了初解则根据Q(ε-greed)的策略来选择动作，并且观察执行完后的状态s ',r。并根据Q(s ,a)←(1-α)Q (s ,a)+α[r+γmaxa 'Q(s ',a ')] ,s←s ',job_seq←job_seq+s '更新Q表,状态s ,和任务序列