【友情转载】美军装备试验鉴定：知行合一

周自力 2016-03-11

展开全文

美军装备试验鉴定：知行合一

作者：贝贝侠战略管理与评估公众号特约学者

一

引言

“知行合一”的本源属于道德教化的范畴，也是心学创始人王阳明大师提出的主要哲学思想。“知”是人的良知；“行”是人的行为；“知行合一”就是希望人们能够遵循与生俱来的道德感和判断力，不受欲望和诱惑的干扰，做到本心良知和行为道德的一致统一。王阳明也正是因为龙场悟道“知行合一”等一系列哲学思想，做到了立德、立功、立言，达到了“内圣外王”的圣人境界。

当然，贝贝侠一不是想和大家讨论如何做圣人，二要承认做了回标题党，只是借用“知行合一”这一宏观概念，从装备发展全寿命周期角度重新进行如下定义：“知”是战略思想和理论技术，“行”是操作执行和工程实践，“知行合一”是贝贝侠想从美军发布的一系列装备试验鉴定指令、指示和指南文件中，讨论其体现出来的战略思想、理论技术和工程实践的高度统一。以下将从基于能力的战略如何落实、建模仿真的重视、科学的试验设计与统计分析技术运用这三个方面进行介绍。

二

将基于能力的战略落到实处

试验鉴定（Test & Evaluation，T&E）是一个专有名词，更确切的译法应是试验与评价。随着现代战争理念越来越强调作战任务驱动和军事能力导向，而不是单一的技术性能指标越高越好，试验鉴定同样也需要从单纯的考核装备技术性能是否达标，转向考核装备的作战性能是否能够满足能力需求，作战效能是否能够可靠地的完成作战任务。因此，美军提出基于能力的战略（Capability Based Strategy, CBS）贯穿于武器装备需求论证、规划计划、研制开发和生产部署等各个阶段。CBS作为一种开放的、发展的顶层设计理念，已经深入存在于美军装备发展规划的机构制度和流程规范中，装备试验鉴定这块军方职能重点区域自然也不例外。从美国空军的指导性文件《AFI 99-103 基于能力的试验鉴定》中就可以窥见一斑。

1、定量化指标描述能力需求-技术-性能-适用性-效能的闭环

首先，美军不管是在研制决策、技术开发、工程制造、生产部署等装备发展的各阶段，都会在其里程碑决策点前形成能力需求CRD、能力研制CDD和能力生产CPD等一系列标准化的能力文件，以此指引装备能够严格以解决作战问题、完成作战任务和满足能力需求为目的进行发展，从而避免装备交付部队后出现“不好用、不管用、不顶用和不实用”的尴尬境地。

其次，这些能力文件并不是一纸空文，而是有明确的格式模板和内容要求，并且明确指定哪些能力类型文件由美国军方的研制局（Development Agency）、作战试验鉴定局（Operational T&E Agency）等相关机构完成，哪些部分内容需要承包商协助完成，哪些能力文件由各个利益相关者构建面向装备项目的工作层面集成产品团队（Working-Level Integrated Product Team, WIPT），包括系统工程、研制试验鉴定、作战试验鉴定和面向实际应用的领域专家。

最后，美国军方明确要求基于能力的战略出发，形成作战问题牵引能力需求，能力需求牵引技术开发，技术开发映射装备关键性能参数、接口形式和系统关键属性，由此支撑装备性能测度、适用性测度和效能测度，通过装备试验这三类测度，形成作战评估报告（Operational Assessment Report, OAR）,鉴定、考核和检验所发展装备能否解决美军面临的作战问题，从而形成完整闭环，如图1所示。

图1 能力需求-技术-性能-适用性-效能的试验鉴定闭环示意图

2、构建评估架构矩阵关联装备各类指标

有了图1所示的作战问题到能力，能力到效能的装备试验鉴定闭环后，美军还进一步提出采用定性与定量集成的系统工程方法论，构建评估架构矩阵（Evaluation Framework Matrix，EFM）来关联和映射装备发展各个阶段的试验评估指标。美军给出了EFM的明确定义：试验与鉴定中要求的一个表格，用来显示关键作战能力COI，关键性能参数KPP，关键系统属性KSA，关键技术参数CTP，效能测度MOE，适用性测度MOS、规划的试验方法以及试验资源、设施或基础设置需求之间的相互关系。

美军在其试验鉴定指令文件中明确指出：研制试验鉴定专业人员帮助系统工程师拟定关键的系统特性（即关键技术参数CTP）；当达到这些系统特性时，可以达到作战性能要求。作战试验方为作战试验目的而确定关键作战问题、效能测度、适用性测度。其目标是确保所有的措施都可以追踪到关键的系统需求和体系结构，并可以与关键性能参数和关键系统属性相关联。确保完全覆盖所有内容并相互关联的最佳方法是按照评估架构矩阵列出这些措施，该矩阵将成为第一稿试验鉴定总方案的一部分。美军在其2013版主管作战试验鉴定总方案指导书（DOT&E TEMP Guidebook 2.0）中给出了一个示意模板。

表1 评估架构矩阵的表格形式

3、利益相关者之间形成统一的规范化术语

利益相关者（Stakeholder）是指的与装备试验鉴定相关的美军军方试验鉴定局、作战试验评估中心、承包商、装备使用部队和技术专家等机构及其人员。对于利益相关者在装备试验鉴定过程使用统一的规范化术语进行交流，美国军方也是尤其重视，因为只有初始作战能力、能力需求开发、能力研制、能力生产和后续作战能力开发，以及如图1所示的各种英文概念和术语都有明确的定义、内涵和外延，并且使得所有利益相关者有共同的认知，才能做到基于能力的试验鉴定不走样、不跑调，使得各类利益相关者能够无缝交流合作，共同完成试验鉴定各个阶段的能力文件和定量指标映射文件。

三

强调建模&仿真在试验鉴定中的运用

对于现代战争包含的武器装备种类越来越多，规模越来越大，装备之间的交联关系越来复杂，美军仍然不遗余力将建模仿真推进至复杂系统和体系层级的，同时采用多分辨率建模仿真的思想，面向不同作战任务需求对应不同粒度仿真。美军从试验鉴定模式、装备仿真模型库建设和建模仿真资源的具体使用要求三个方面，将建模仿真知识和资源落实到试验鉴定的具体装备项目上。

1、“建模仿真-执行试验-结果对比”的试验鉴定模式

美军将基于建模仿真的虚拟装备试验鉴定作为一条常态化流程，与实装试验鉴定同步展开，通过基于物理原理和先验数据驱动的建模仿真结果与实际的试验鉴定结果进行对比，如果结果一致，则说明装备通过试验鉴定，达到作战能力要求；如果两类试验不一致，则通过综合评估判断，一方面校核和修正仿真模型，优化试验方案和计划，补充和扩展试验试验仿真策略模型，另一方面如果仿真确实没有错误，则能够形成作战评估报告（Operational Assessment Report, OAR）,指出装备缺陷和提出改进建议，如下图所示。

图2 美军“建模仿真-执行试验-结果对比”的试验鉴定模式示意图

2、构建美军统一的装备仿真模型库

美军在国防部层面和各军兵种层面多年一直不断建设建模仿真资源库（Modeling and Simulation Resource Repository, MSRR），并且注重装备试验鉴定中使用的统一的装备仿真模型。为了避免模型的重复开发和不一致使用，美军明确在构建新的仿真模型前，应该首先确认是否已存在所需的经过验证、确认和鉴定的，并可重复使用的建模仿真工具和数字化系统模型。并且美军进一步明确建模与仿真及分析，是实装和外场试验与鉴定程序中不可缺少的部分，因为对所有威胁场景、装备编配策略与战场环境的可能组合，进行全数遍历试验是及其昂贵和不现实的。

以美国空军为例，专门建立的官方空军建模与仿真官方网站，对于美军空军自身军种试验鉴定项目，其项目经历应该在建模仿真支撑计划（Modeling and Simulation Support Plan， MSSP）和试验鉴定总方案中（Test and Evaluation Master Plan，TEMP）中详细记录建模仿真如何支持研制和作战一体化试验鉴定。具体举例来说，在美国空军关于F-22猛禽战斗机的初始作战试验鉴定（Initial Operational T&E， IOT&E）中，通过建模仿真和试验大纲优化，将原计划的IOT&E试验次数从700多试飞架次缩减到200多试飞架次，在保证试验鉴定结果的同时，大大节约的试验鉴定资源。

3、建模仿真资源的全程使用

在明确包含建模仿真的试验鉴定模式和积极建设建模仿真资源库后，美军接下来明确建模仿真为重要资源，并要求在武器装备全寿命周期内尽可能使用数字化、虚拟化建模仿真资源完成各阶段的试验鉴定任务，而且建模仿真也是装备全寿命周期各个阶段都唯一的一类主要试验鉴定资源和手段，如表2所示。

表2 空军试验鉴定资源在各个阶段使用情况

四

重视科学的试验设计与数据分析技术

1、由来已久的历史传统

重视科学的试验设计与数据分析技术在装备发展论证、试验鉴定，乃至作战使用中的灵活运用，是美军由来已久的传统。早在上世纪四十年代二战期间，美军便招贤纳士，囊括了大批由于德国纳粹党人种罪行，从欧洲大陆逃难至美国的大量科学家，并邀请其中的数学家和统计学家，加入美军的正式组织——数理运用小组，帮助美军解决装备生产和实际作战问题。

一段经典的佳话就是著名统计学家Abraham Wald为美国空军决策战斗机加固部位选择提供科学建议。二战美军战斗机容易受到火炮/攻击而丧失战斗能力甚至坠毁，因此美军希望加固飞机提高生存力，但是受到载荷和速度限制，只能选择加固机身或机翼。美军通过观察发现参加作战回来的飞机均是机翼不满大量弹孔，因此认为应该加固机翼。

图3 美国统计学家Abraham Wald

然而，Wald教授提出了不同意见，他从统计学的角度认为样本的选择不应该是飞回来的飞机，而是坠毁的飞机，虽然坠毁飞机无法观察弹孔分布，但是可以认为飞机受火炮攻击产生的弹孔分布是服从均匀分布的随机事件，回来的飞机弹孔基本分布在机翼，那么坠毁的飞机肯定基本分布在机身，为了真正提高生存力，应该加固机身。当时的美军将领虽然不懂什么是样本，什么是随机事件，但是听从了Wald教授的建议，果然飞机战毁率大幅降低。

而且，也正是Wald教授提出了“序贯试验设计”方法，解决了美国作为二战最大军火生产国，每年生产的飞机坦克多达几十万辆，如果试验鉴定每个产品部件，则会大量产品积压待检，难以及时交付部队使用，如果盲足满足追求交付速度，不注重试验鉴定，又会造成装备各类质量事故频发，这两者之间的矛盾。直到如今，我国大量的关于可靠性、产品质量的国标/军标中仍然大量使用序贯试验法制定检验标准。

图4 美军二战军火生产现场照片

2、试验设计技术

美军多项试验鉴定相关的指南中明确了必须通过科学的试验设计，严格地规划和执行作战试验。试验设计有助于理解试验成功/失败的可能性，理解显著的性能影响。一个系统完整的试验设计方法通过得到所需要信息，决定和判断计划试验次数和资源，有能力进行有根据的权衡，在试验成本和获得信息之间。严格的试验设计方法确定想定，一是用于决定系统的性能包括不足，二是用于辨明驱动系统性能的要素，辨认试验因素之间的相互影响并开发试验矩阵。

试验设计本质上是序贯的，每个系列的试验都要告诉下个序列的试验。评估应该考虑所有可用的、相关的数据和信息，来自于承包商试验、研制试验和作战试验。研制试验结果用于发现和界定作战试验结果。在系统开发阶段早期，试验设计提供最有效的方法辨认系统缺陷，有助于执行合适的、适时的行动使得正确减小不足的成本最小化。基本的试验设计步骤如下：

（1）确定试验目的包括可测量的输出变量。

（2）确定对试验结果有期望影响的输入变量。

（3）确定每个因素的水平，例如目标探测距离水平可以是2公里或者10公里。

（4）确定创造试验矩阵必须考虑的约束。例如，无人机机载导弹在很高的高度对目标打击距离为10公里，在很低的高度导弹打击距离只有5公里。这样的约束阻止进行在低高度设计10公里处的目标。

（5）创造试验矩阵，并与相关领域专家进行讨论。

（6）执行试验

（7）分析试验结果

（8）进行基于分析的决策。

3、贝叶斯分析技术

美军在《试验鉴定主计划指南》中提出：针对从不同资源中获取信息估计装备战术技术指标达到预测作战性能程度作为预先试验分析，能够有力支撑试验鉴定活动。而贝叶斯试验鉴定理论正式充分运用可以利用的信息，如图5所示，对装备的战术技术指标进行评价的可靠理论。

图5 基于贝叶斯分析技术的试验鉴定框架

显而易见的，具有先验信息的多类资源（如作战相关的研制试验和作战评估）能够被结合到一起；复杂系统及其结构在不需要很大资源计算能力的情况下也能被分析，不确定性能够被直接计算和量化。贝叶斯技术需要对系统和统计学的深刻理解。在经典的试验计划上使用贝叶斯方法需要确定先验分布，以及形成如何结合先验信息的分析框架。

五

结论

装备试验鉴定是一项涵盖管理科学、系统科学和军事装备学的应用软科学技术活动。通过纵观美军试验鉴定从战略思想、系统分析和科学技术运用，确实做到了学术理论和工程实践合一，知识和行动合一的境界。但是，现实情况中软科学相关的应用领域，往往会出现学术理论与工程实践的脱节，甚至分裂为理论派和工程派。

理论派往往由于所谓的高水平SCI论文驱动，不注重实际问题分析建模，从文献到文献，从公式到公式，将复杂的现实问题简单化、概念化，在方法层面搞的越来越来晦涩难懂，结解决的实际问题越来没有实际意义，用复杂方法解决简单问题，无异于马桶绣花。

工程派有实际的问题背景，本应通过认真解决现实复杂问题，进一步抽象提炼出能够推而广之的理论方法，但是由于人性尽量少资源（包含时间精力）最大化获得利益驱动，把实际客观存在的复杂科学问题简单粗暴解决，用简单方法解决复杂问题，同样不是实事求是。

钱老之问：中国现在为什么出不了大师？那么在应用软科学领域，贝贝侠是否可以具体化为：中国为什么难以出现学术理论与工程技术达到“知行合一”境界的科技人才？