基于深度学习的军事智能决策支持系统

大蚂蚁2009 2019-11-21

展开全文

ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１６７３⁃３８１９．２０１８．０２．００１

摘　要：ＡｌｐｈａＧｏ的出现使得深度学习模型受到广泛关注。深度学习以其出色的特征提取、多层学习和表达能力，为

军事智能决策支持系统的研究提供了新的思路。介绍了深度学习关键技术，通过回顾国内外军事智能决策支持系

统的发展历程，介绍了深度学习在军事领域的应用，分析了智能辅助决策技术的发展趋势以及面临的挑战，并进行

了总结和展望。

关键词：军事；人工智能；深度学习；决策支持系统；神经网络

近年来，ＡｌｐｈａＧｏ、ＡｌｐｈａＧｏＺｅｒｏ在深度学习方面取得突破性成果，令世人惊叹，深度学习已被广泛关注并应用到众多领域，尤其在识别、推荐、决策等方面展现出了巨大优势。为推进我军智能化建设，２０１６年３月，《中国军事科学》编辑部组织举办了“围棋人机大战与军事指挥决策智能化” 研讨会［１］。会议广泛探讨了ＡｌｐｈａＧｏ对于指挥决策智能化的启示，深入研究了推动我军走向智能化建设的措施。２０１７年９月，“赛诸葛”全国兵棋推演大赛隆重举行，中科院自动化所研发的ＡＩ系统“ＣＡＳＩＡ⁃先知Ｖ１􀆰 ０”首次战胜了人类选手，展示出深度学习等人工智能技术在对抗博弈领域的强大能力。众所周知，军事决策是军事领域中最复杂、最具挑战的活动，并由此促进了军事辅助决策支持技术的产生和发展。可以预见，深度学习技术的不断进步必将对军事智能辅助决策领域产生深刻而重大的影响。本文回顾了深度学习与军事智能决策支持系统的发展历程，探讨了深度学习在智能决策应用中的重难点问题，展望了基于深度学习的军事智能决策支持系统的建设和发展前景。

１　深度学习

１. １　基本原理

深度学习是由人工神经网络发展而来。Ｈｉｎｔｏｎ［２］等人在２００６年首次提出了基于深度置信网络的无监督概率生成模型，阐述了深度学习的基本原理。深度学习以数据和算力为支撑，通过搭建含有多个隐层的神经网络，对外部输入数据进行特征提取，进而从中获取所需信息。这样的模型具有很高的存储效率，而线性增加的神经元数目可以使其表达按指数级增加大量信息。随着大数据时代的到来以及计算能力的不断发展，人工神经网络在近十年间取得了长足进步，促进了深度学习的快速发展，由此也使得人工智能从之前必须借助人类的阶段向前迈出了一步。

１.２　深度学习发展沿革

深度学习的发展大致可分为三个阶段。第一阶段，以２０世纪８０年代出现的ＢＰ算法［３］为起点。直到现在，ＢＰ算法都是神经网络模型中很常用的参数学习方法。然而，由于当时的计算性能有限，且样本数据较为匮乏，仅仅使用ＢＰ算法并不能有效解决局部极值和梯度弥散等问题，这使得神经网络的研究发展缓慢，一度被学界抛弃。２００６年，Ｈｉｎｔｏｎ提出了无监督深度置信网络训练方法，以此为标志，深度学习进入了第二阶段。Ｈｉｎｔｏｎ的主要思想是先通过自学习方法进行训练，然后在自动编码器上进行有监督训练，实现对参数的微调。这一时期，随着硬件技术不断更新和数据规模不断增大，深度神经网络模型开始受到业界的普遍关注，进而在多个领域中得到了发展。２０１２年，Ｈｉｎｔｏｎ课题组构建的ＣＮＮ网络ＡｌｅｘＮｅｔ［４］在ＩｍａｇｅＮｅｔ图像识别比赛中一举夺冠，其分类性能远远超过第二名，使得ＣＮＮ吸引了众多研究者的关注。以这一年为界限，深度学习进入第三阶段。卷积神经网络、循环神经网络、进化神经网络等模型的优势逐渐显现，打开了人工智能新世界的大门。具有良好的大数据处理能力的深度学习模型，不仅在模式识别、信息检索、自然语言处理等多个人工智能领域都取得了重大突破，还可以对复杂模式进行分类，从而在决策问题中产生了巨大影响。

１. ３　经典模型

深度学习发展至今取得了令人惊叹的成就，得益于以深度置信网络、卷积神经网络、递归神经网络等为主流的深度学习模型的深入发展。下面对这些经典模型进行简要介绍。

１）深度置信网络（ＤｅｅｐＢｅｌｉｅｆＮｅｔｗｏｒｋ，ＤＢＮ）是由

多层随机因变量组成的概率生成模型，能够更加有效地使用未经标注的数据，并通过产生式预训练，有效解决深度神经网络中的过拟合和欠拟合等问题［５］，如图１所示。该模型具有很好的灵活性和可扩展性，受到广大研究者们的热切关注。

２）卷积神经网络［６］（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ，ＣＮＮ）是一种前馈神经网络模型，且输入端不再需要特殊处理，这些特点让它更多被应用在大型图像处理任务中，如图２所示。Ｈｉｎｔｏｎ团队的ＡｌｅｘＮｅｔ利用Ｄｒｏｐｏｕｔ、激活函数等方法，结合ＧＰＵ并行处理技术，使得算法性能大大超过了传统模型；ＫａｉｍｉｎｇＨｅ［７⁃９］的相关研究解决了计算层次训练问题，实现了对目标像素级别的识别，使准确率达到了新高。

３）递归神经网络［１０］（ＲｅｃｕｒｓｉｖｅＮｅｕｒａｌＮｅｔｗｏｒｋ）在循环过程中可以记住此前已经处理过的数据信息，如图３所示。这一模型更加适合文本、语音识别等序列数据的建模问题。然而，传统的递归神经网络由于梯度弥散和梯度爆炸等问题，很难捕捉长时相关性。ＬＳＴＭ模型［１１］引入了自循环的思想，解决了长时依赖的训练问题，之后出现的ＧＲＵ［１２］等改进模型，在预测文本和语音识别中也表现出了很好的效果。

１.４　深度强化学习

上述经典模型从本质上讲是分类和识别算法，难以解决决策和控制问题，由此，深度强化学习等新算法便应运而生。深度强化学习［１３］（ＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ，ＤＲＬ）是在训练中进行试错，通过奖励和惩罚反馈神经网络，从而得到更好的策略模型。需注意的是，价值网络和策略网络是相互依赖的，给定其中一个函数都会导致另一个函数的变化。引入Ｑ⁃Ｌｅａｒｎｉｎｇ算法的ＤＱＮ［１３］很好地结合了两者，实现了从感知到动作的端对端学习，比如让ＡＩ玩游戏，在看到遮蔽物时立即做出避让动作等。同时，它在更新网络时，随机抽取过去的学习经历，这使其不仅能够学习到当前的经历，还能学习到过去的经历，甚至是别人的经历。ＡｌｐｈａＧｏ就采取了ＤＱＮ算法，在自我博弈中实现奖励积累的最大化，由此得出在各个状态下最好的走法选择。这一算法更加符合人类在现实世界中的决策思维，被广泛应用在智能机器人的控制、棋类对弈、游戏通关、汽车自动驾驶等多类决策和控制问题中。２０１７年１２月，ＤｅｅｐＭｉｎｄ公布了Ａｌｐｈａ系列的最新成果ＡｌｐｈａＺｅｒｏ［１４］，它采取了简化算法的策略，拥有了比ＡｌｐｈａＧｏＺｅｒｏ更好的泛化能力，可使用完全相同的算法和超参数，在不需要人类知识的情况下，完全依靠自我博弈，在国际象棋、日本将棋、围棋三种不同的棋类游戏中，均只需几小时进行模型训练，便可战胜各自领域的顶尖ＡＩ程序；Ｒｕｓｌａｎ在２０１７年ＮＩＰＳ研讨会中提出了将记忆引入深度强化学习的思想，利用位置感知记忆方法，防止过多的记忆重写，从而提高记忆效率，这让学习模型在不同环境下都能够拥有优异的表现。以上两者，不论是ＡｌｐｈａＺｅｒｏ的算法简化，还是Ｒｕｓｌａｎ引入记忆的策略，都反映出ＤＲＬ的前沿研究主要集中于模型的泛化能力和性能上的提升上。

２　军事智能决策支持系统发展现状

２. １　军事智能决策支持系统

智能决策支持系统（ＩｎｔｅｌｌｉｇｅｎｔＤｅｃｉｓｉｏｎＳｕｐｐｏｒｔＳｙｓｔｅｍｓ，ＩＤＳＳ）是指在计算机的辅助下，综合运用现代决策理论和人工智能技术，结合了管理决策科学、信息科学与运筹学等学科，依托人类知识库，通过逻辑推理来帮助解决现实问题的决策支持系统，如图４所示。在军事领域，主要应用于辅助决策，实现对情报处理、态势分析、方案确定和计划拟制的辅助支持。下面分别对美军和我国国内相关情况进行简要介绍。

２. ２　美军相关研究

军事决策支持系统这一概念最先由美军提出，旨在通过各种技术的实现，辅助指挥员做出及时和正确的判断并实施决策控制。比如，美国防空混成旅射击指挥辅助决策系统［１５］可通过捕捉图像、控制管理传感器，实现分析战场态势、制定计划、作战模拟等功能，具有决策快速、准确客观的特点；美军于２００４年开展的实时作战智能决策制定计划（Ｒｅａｌ－ｔｉｍｅＡｄｖｅｒｓａｒｉａｌＩｎ⁃ｔｅｌｌｉｇｅｎｃｅａｎｄＤｅｃｉｓｉｏｎｍａｋｉｎｇ，ＲＡＩＤ）［１６］，希望能够实时根据战场态势自动生成可行的行动方案；２００７年，美国防部ＤＡＲＰＡ机构启动了“深绿” 计划（ＤｅｅｐＧｒｅｅｎ，ＤＧ）［１７］，致力于对未来可能发生的各种情况做出预测，为指挥决策提供支持。“深绿”起初的目标是用于旅级作战，其核心技术是实时态势仿真，而战场复杂态势的不确定性所导致的组合爆炸问题则成了难以攻克的瓶颈，该项目于２０１１年暂停。

２００９年至２０１４年，ＤＡＲＰＡ启动了一系列面向作战的研究项目，如Ｍｉｎｄ􀆳ｓＥｙｅ计划研发一种根据视觉信息进行态势认知和推理系统；ＴＲＡＣＥ计划采用智能算法解决对抗条件下态势目标的识别判断；ＤＢＭ则面向空中战场的辅助决策，主要解决战场态势认知、行动决策生成以及僚机的无人驾驶等现实难题；ＴＥＡＭ－ＵＳ利用机器的优势帮助人类做出最佳选择，从而大大提升认知的速度和精度。２０１６年６月，美国辛辛那提大学开发的人工智能系统“阿尔法”，在空战模拟对抗中，战胜了经验丰富的空军上校。该系统从传感器的信息搜集、分析处理到做出正确的判断和选择，整个过程不到１毫秒，这使其在战斗中大大提高了战斗机的生存能力和指挥协调能力。２０１６年底，美军启动Ｃｏｍｍａｎｄｅｒ􀆳ｓＶｉｒｔｕａｌＳｔａｆｆ项目，用以应对大数据和复杂战场态势，从而为指挥员提供作战全过程的辅助决策。“深绿”失败的主要原因是由于当时的数据处理能力不足，从而导致传统人工智能方法在解决态势认知问题时存在瓶颈。而阿尔法的成功，则证明了以深度学习为代表的现代人工智能技术，在面对大数据和复杂的战场环境时，可以突破瓶颈。

２.３　国内相关研究

长期以来，国内在该领域也取得了不少成果，较为成熟的主要以专家系统、多智能体系统（ＭＡＳ）等为主。专家系统是基于专业知识进行推理分析，用以解决特定领域问题的智能系统。如战术导弹方案设计智能优化系统可以通过专家知识，判别方案的优劣，实现对战术导弹方案的有效评估；解放军理工大学研制的军事运筹辅助决策系统［１８］，可自动生成作战方案，演示战斗过程，评估战场效果等；军事科学院研发的“进攻一号”军事专家支持系统［１９］，建立了４０００多条规则和一个定性与定量相结合的高效推理机制，能够自动生成作战决心的参考方案，辅助指挥员定下决心。近些年来，ＭＡＳ由于在处理复杂系统问题方面具有显著优势，因此在决策支持系统中也被普遍应用。杨萍［２０］等提出的基于ＭＡＳ的导弹机动方案辅助决策系统，通过加入人机交互模块，能够根据任务要求和战场态势规划行动方案，并对方案进行评估、修正；陈华东［２１］等提出的网络中心战中基于ＭＡＳ的分布式辅助决策研究方法，采用合同网协议对武器目标分配的流程进行研究，取得了很好的效果；空中军事打击智能决策支持系统［２２］利用多智能体技术，辅助生成空中军事打击行动决策方案，并进行仿真和评估。

然而，战场环境的瞬息万变和难以量化的各类因素成为智能决策的最大障碍，专家系统和传统的机器学习方法难以应对战争中的不确定性以及非线性问题，处理高纬度大数据的能力也非常有限。比如在专家系统中，规则与规则之间的相互关系并不突出，规则的使用不够灵活，系统更加依赖于规则的完整性和准确性。当规则库膨胀到一定规模后，每增加一条新规则都可能会与先前的规则库产生冲突，规则库的维护难度也将大幅提高，这让基于规则的专家系统很难处理现今所面临的复杂战场态势。虽然基于传统机器学习方法以及基于ＭＡＳ等方法的决策支持系统，在一定程度上能解决专家系统遇到的瓶颈，但这类系统普遍存在以下问题：１）知识处理能力差。根据应用领域的不同，其知识的表示方式和获取策略具有很大差异，且预处理过程对最终结果影响很大；２）协调统一性差。传统的机器学习方法通常将复杂问题拆分成若干子问题，各个子系统之间的沟通协调将直接影响到系统的正确决策；３）适应能力差。以往研究成果中，系统的推理机制是静态的，是针对各自领域预先设定好的搜索策略和推理策略进行决策，因而难以应对实际战场环境的快速变化；４）人机交互差。在人机结合过程中遇到困难较大，计算机难以准确理解用户需求，用户不能及时获取计算机的解答，且难以对系统加入启发信息。

可见，尽管在军事决策支持系统方面的研究已经有了不少成果，但在实际应用中还存在较大差距，传统模型在知识表示、推理预测、指挥控制等方面都具有一定的局限性，这为正在快速发展的深度学习提供了广阔的发展空间。

３　深度学习在辅助决策中的应用

随着大数据时代的到来，军事决策面对的数据量与日俱增，数据格式和类别多样庞杂，使决策支持面临新的挑战。基于神经网络架构的深度学习模型，能够有效地处理和分析大数据，相较于传统方法，无论是图像、语音、文本的识别能力，还是推理、分析、判断能力，都拥有显著优势。

３. １　深度学习在军事领域的探索

目前，国内开展了一系列基于深度学习的军事决策辅助技术的研究，尤其在特征提取方面，解决了诸如雷达识别、无人机目标识别、智能火控等领域的相关问题。孙志军等人提出了一种基于深度学习的边际Ｆｉｓｈｅｒ特征提取算法（ＤＭＦＡ）［２３］，改善了传统的ＭＦＡ算法对非线性特征的提取能力，提高了雷达识别准确率；钟南［２４］等人将深度学习引入到海上无人机目标识别技术中，提出了一种基于卷积神经网络和空间转换网络相结合的解决思路，对物体平移、缩放、旋转情况进行校正，然后通过分块化卷积神经网络给出类别及位置，提高了目标识别准确率。良好的模式识别能力是实施智能辅助决策的重要前提，而现代战争的信息量正呈指数型速度增长，快速、准确的数据处理能力显得尤为重要。深度学习正是具备了出色的特征提取和表达能力，被越来越多的研究者运用到识别和分类等研究中。上述研究对于战场目标识别领域的应用进行了探索，结合深度学习模型在战场高纬度数据的特征提取，提出了可行的方法，在一定程度上提高了识别的准确率。

由于战场态势信息的不确定性和战场复杂性，相比于围棋、自动驾驶等应用，作战辅助决策面临的情况更加复杂。研究发展智能决策支持系统，首要解决的就是战场态势认知问题。卜令娟［２５］、曾清［２６］、王杨［２７］等人针对战场大数据的特点，提出了关于战场态势评估的新思路，但这些研究仅仅是对大数据的预处理，不能挖掘出深层信息。结合深度学习模型的特点和优势，国内展开了基于深度学习的战场态势评估方面的相关研究。朱丰［２８］等人分析了深度学习与大数据的相关性，阐述了将深度学习引入战场态势感知的优势，提出了战场态势评估深度学习模型构建方法的新思路；郭圣明、贺筱媛、胡晓峰［２９］等人采用复杂网络和深度学习技术，分别在智能化体系评估和威胁判断方面进行了初步探索；欧微［３０⁃３１］等人构建了基于栈式自编码器的意图识别模型，根据战场目标状态呈现出的时序特征，提出了一种基于时序编码的方法，并比较了不同网络参数和训练方法对识别准确率的影响效果。荣明、杨镜宇［３２］等人通过强化学习和价值网络，构建了战略威慑决策模型，与ＡｌｐｈａＧｏ原理类似，使用了蒙特卡洛算法实现对威慑博弈树的搜索。战场态势的判断和作战意图的理解是态势认知面临的主要挑战。上述研究运用深度学习理论，通过实验和论证提出了合理的解决方案，对战场态势认知问题进行了初步的探索，提出了新思路。可以看到，综合运用大数据和深度学习等技术来理解和认知战场态势具有很大的潜在价值，当然也面临诸多困难。

３.２　深度学习应用面临的难题

从过去的成果中可以看出，深度学习在以目标识别为主的情报分析中表现良好，显著优于传统机器学习方法。但若要定下正确的作战决心、制定科学的行动计划并付诸实施，其重要前提是准确理解当前的战场态势，有效预测下一阶段态势变化趋势。这一问题是智能系统辅助决策中的首要难题，也是深度学习面临的极大挑战。

尽管ＡｌｐｈａＧｏ基于深度学习和大数据的方法为智能指挥决策带来了希望，但必须说明的是，ＡｌｐｈａＧｏ在棋盘上所解决的博弈问题与实际的战争具有很大的差别：１）信息完备性不同。ＡｌｐｈａＧｏ获取的信息是完备的，即围棋的走法约为２􀆰 ０８×１０１７０种可能，而战场态势中获取的信息是不完备的，甚至是虚假的，在这种缺失信息的“战争迷雾”中，人工智能又该如何决策？２）规则不同。棋盘内的规则是固定的，对战具有一致性，而战争中的敌我双方并不会按照一致的规则出招。３）训练样本不同。最初版本的ＡｌｐｈａＧｏ是从３０００万人类招法和３０００万局自我对弈中达到职业选手水平，而已有且可用的战争和演习数据无法达到这样的规模。这些不同都给深度学习在作战智能辅助决策领域的应用带来了困难和挑战。

从上述的差别中可以看出，一方面，深度学习在解决态势理解问题上，是以数据作为支撑的，战场态势的复杂性以及对战的不一致性使得训练数据的有效规模异常庞大，我们难以得到上千万场战争的真实数据来训练模型，数据稀疏问题便会伴随而来，因此，未来的研究重点应放在小样本数据的态势特征提取上。另一方面，态势特征提取的难点在于从不确定性中找到确定性规律，机器在这方面的能力远远不及人类，因此，如果要使机器具备人类智能的认知能力，就需将深度学习与多种算法进行有效融合。

３. ３　基于深度学习的辅助决策

目前，自动驾驶技术因采用深度学习模型而取得了突破性进展。为了理解深度学习在辅助决策方面的应用，不妨从自动驾驶的决策技术中寻找答案。从信息复杂度的角度考虑，自动驾驶所面临的动态环境分析比围棋要复杂得多。比如，系统需要根据实施图像分析出天气、交通标志、道路情况等信息，还要预测周围车辆和行人的行动，甚至需要判断前车若是新手司机，则应加大车距等。这种通过对环境进行分析、判断、预测，再到最终的决策，与复杂的战场态势理解有着相似之处。在作战环境中，复杂的气象、地形等诸多因素都会对敌我双方的行动决策产生影响，而对敌方行动的准确预测更是做出正确决策的重要依据。现在的深度学习普遍采用端到端的算法，即从传感器输入直接到控制器的输出。然而这样的方法使深层网络成了“黑匣子”，失去了透明性，让网络仅仅依赖于概率进行推理，即数据的相关性，而非更加符合人类思维的因果关系。

举个例子，输入样本为哈士奇和爱斯基摩犬的照片，通过深度学习对二者进行分类。起初的测试结果非常好，但后来通过测试进行深入分析时发现，系统更多通过对背景的区分而并非狗本身的特征进行分类。这是因为在训练样本中，爱斯基摩犬的照片背景几乎都是冰天雪地，而哈士奇则相反。试想，这样的理解若应用到作战决策中，将会有多致命。目前，深度学习在实际应用中的表现要远远好于传统方法，其普遍使用的策略是通过加大数据量和运算能力得到更好的效果，但对于基础算法的深入研究并不多，这使得目前的深度学习在一些领域显示出不足和短板，埋下了诸如哈士奇和爱斯基摩犬分类中的隐患。因此，在样本规模有限的条件下，我们需要更加理性、更加符合人类思维的决策机制。

基于上述观点，对于深度学习在军事智能辅助决策领域的研究，首先，应对作战领域的大数据进一步发展。深度学习目前的研究与大数据是密不可分的，然而包括演习在内的作战数据，真正能够实际使用的数据规模还远远达不到深度神经网络的训练需求，目前的研究更多应用兵棋的推演数据来训练网络，从数据的有效性上看，难以证明在实际作战中的价值。其次，深度学习技术，尤其在认知智能方面需要取得突破。作战同下棋有着巨大的差别，作战数据不是标准化的“棋谱”，而对于机器而言，过去发生的战争在现代化战争中没有太大的指导意义。那么如何让人工智能在现有数据的基础上，从认知层面真正理解和分析战场态势，提高从小样本中学习知识的能力，将是该领域研究的终极目标。再次，对于深层神经网络的运行机制还需要进一步的研究和改进，来破解深度神经网络的“黑匣子”问题。数据驱动决策的推理机制应由数据相关性向因果关系转变，让机器具备同人类一样从小样本数据中进行学习的能力，通过因果关系进行预测将更加具有实际意义。

因此，在军事智能辅助决策的应用中，应当更加合理地运用深度学习，ＡｌｐｈａＧｏ以及ＩＢＭ的“沃森”等人工智能系统，均融合了多种手段，而深度学习只是一个工具。从发展历史中看，深度学习可以很好地应对大数据的特征提取，但浅层的概率统计模型在特征清晰的情况下，也可以取得很好的效果。另外，“沃森”中的规则运用和“深蓝”的暴力搜索，以及ＡｌｐｈａＧｏ中的强化学习和蒙特卡洛树搜索策略等都在各自领域中有着自身的优势。可见，传统的机器学习模型不应因深度学习的快速发展而抛弃，混合方法才是未来人工智能的大势所趋。

４　结束语

自２００６年以来，深度置信网络模型、激活函数、正则化、Ｄｒｏｐｏｕｔ等概念陆续被提出，深度学习模型在解决梯度消失以及过拟合等问题上得到不断改善，这让神经网络焕发出新的生机。近年来，高性能ＧＰＵ和ＴＰＵ的出现，降低了计算成本，大数据的持续增温也让更加复杂的深层网络模型成为可能。目前，基于深度学习的军事智能辅助技术还处于起步阶段，面对具有不确定性、变化速度快、非线性、复杂性、高纬度、多空间等特点的战争复杂系统，传统的辅助决策手段已难以满足未来作战决策的需求。相比较其他机器学习方法，深度学习应用在辅助决策中的优势可归纳为以下几点：１）内部神经元结构决定了它在解决非线性问题上具有很强的表达能力；２）具有强大的特征提取能力，更加适应从大数据中提取特征；３）具有良好的迁移学习能力，一个训练好的深度神经网络经过一定修改就可以在另一问题中得到不错的表现；４）其分布式的并行结构大大提高了运算效率；５）具备多层学习能力，可以发现神经元之间的深层联系，可以从大数据中提取出深层含义，发现很多人类都无法发现的新方法，使智能决策获得自我创新的能力。由此可见，深度学习更加适合应对大数据，它所具备的优点可以改善传统辅助决策技术的局限性，因此，将深度学习应用于军事智能辅助决策将具有重要研究价值。

本文回顾了深度学习的发展历程，概述了目前较为流行的几种模型，结合军事智能决策支持系统的发展和深度学习在该领域的研究成果，阐述了深度学习模型应用在智能辅助决策研究中的优势和面临的挑战，以下对基于深度学习的军事智能决策支持进行展望。

４.１　大数据和无监督学习

Ｇｏｏｇｌｅ之所以能够引领人工智能领域前沿，除技术创新外，更为重要的一个原因是Ｇｏｏｇｌｅ拥有非常雄厚的数据资源。未来战场态势信息规模大、种类多、纬度高，战争已进入大数据时代。因此，加强我军作战数据建设，构建规模宏大、类别齐全、关系清晰的作战数据体系是提高智能决策能力的前提。同时，推进深度学习的研究重点从传统的有监督学习和大型标注样本特征提取向无监督学习和小数据集泛化能力上转变，使基于深度学习的军事智能决策支持系统能够从输入的数据中抽取出其中所包含的模式和规则，从而不断提高智能化能力和水平。

４. ２　强化学习和自我博弈

ＤｅｅｐＭｉｎｄ团队科研成果表明，采用了强化学习策略的深度学习系统不仅可以下围棋、玩视频游戏，还可以在多种任务执行中与人类匹敌。目前，该团队已将目标转向“星际争霸Ⅱ”。和围棋不同，这款复杂的战争策略游戏更加接近实际的战争决策，在作战决策中，除了复杂的态势分析，通常还要考虑到时序性问题，这使得运算代价剧增。因此，对于战争复杂系统，以目前的技术手段和硬件水平，能否像ＡｌｐｈａＧｏ一样进行大量的自我博弈还是未知，或许需要其他的算法来解决深度神经网络无法解决的问题。但我们要认识到，“星际争霸Ⅱ”的自主决策一旦取得突破，将意味着真正智能化的作战决策不再遥远。

参考文献：

［１］　《中国军事科学》编辑部．围棋人机大战与军事指挥决策智能化研讨会观点综述［Ｊ］．中国军事科学，２０１６（２）：１４７⁃１５２．

［２］　ＨｉｎｔｏｎＧ，ＳａｌａｋｈｕｔｄｉｎｏｖＲ．ＲｅｄｕｃｉｎｇｔｈｅＤｉｍｅｎｓｉｏｎａｌｉｔｙｏｆＤａｔａｗｉｔｈＮｅｕｒａｌＮｅｔｗｏｒｋｓ［Ｊ］．Ｓｃｉｅｎｃｅ，２００６，３１３（５７８６）：５０４⁃５０７．

［３］　ＲｕｍｅｌｈａｒｔＤ，ＨｉｎｔｏｎＧ，ＷｉｌｌｉａｍｓＲ．Ｌｅａｒｎｉｎｇｒｅｐｒｅｓｅｎｔａ⁃ｔｉｏｎｓｂｙｂａｃｋ⁃ｐｒｏｐａｇａｔｉｎｇｅｒｒｏｒｓ［Ｊ］．Ｎａｔｕｒｅ，１９８６，３２３（６０８８）：５３３⁃５３６．

［４］　ＫｒｉｚｈｅｖｓｋｙＡ，ＳｕｔｓｋｅｖｅｒＩ，ＨｉｎｔｏｎＧ．Ｉｍａｇｅｎｅｔｃｌａｓｓｉｆｉｃａ⁃ｔｉｏｎｗｉｔｈｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓ［Ｃ］ ∥Ａｄ⁃ｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ，ＬａｋｅＴａｈｏｅ；ＭＩＴＰｒｅｓｓ，２０１２：１０９７⁃１１０５．

［５］　ＭｏｈａｍｅｄＡ，ＨｉｎｔｏｎＧ，ＰｅｎｎＧ．Ｕｎｄｅｒｓｔａｎｄｉｎｇｈｏｗｄｅｅｐｂｅｌｉｅｆｎｅｔｗｏｒｋｓｐｅｒｆｏｒｍａｃｏｕｓｔｉｃｍｏｄｅｌｉｎｇ［Ａ］．ＩｎＰｒｏ⁃ｃｅｅｄｉｎｇｓｏｆＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ［Ｃ］，２０１２．

［６］　ＬｅｅＨ，ＧｒｏｓｓｅＲ，ＲａｎｇａｎａｔｈＲ，ｅｔａｌ．Ｕｎｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇｏｆｈｉｅｒａｒｃｈｉｃａｌｒｅｐｒｅｓｅｎｔａｔｉｏｎｓｗｉｔｈｃｏｎｖｏｌｕｔｉｏｎａｌｄｅｅｐｂｅｌｉｅｆｎｅｔｗｏｒｋｓ［Ｊ］．ＣｏｍｍｕｎｉｃａｔｉｏｎｓｏｆｔｈｅＡＣＭ，２０１１，５４（１０）：９５⁃１０３．

［７］　ＫａｉｍｉｎｇＨｅ，ＸｉａｎｇｙｕＺｈａｎｇ，ＳｈａｏｑｉｎｇＲｅｎ，ｅｔａｌ．Ｄｅｅｐｒｅｓｉｄｕａｌｌｅａｒｎｉｎｇｆｏｒｉｍａｇｅｒｅｃｏｇｎｉｔｉｏｎ［Ｃ］∥ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．ＬａｓＶｅｇａｓ：ＩＥＥＥ，２０１６．

［８］　ＳｈａｏｑｉｎｇＲｅｎ，ＫａｉｍｉｎｇＨｅ，ＲｏｓｓＧｉｒｓｈｉｃｋ，ｅｔａｌ．ＦａｓｔｅｒＲ⁃ＣＮＮ：ＴｏｗａｒｄｓＲｅａｌ⁃ＴｉｍｅＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎｗｉｔｈＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋｓ［Ａ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡ⁃ｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ［Ｃ］，２０１６．

［９］　ＫａｉｍｉｎｇＨｅ，ＧｋｉｏｘａｒｉＧ，ＤｏｌｌａｒＰ，ｅｔａｌ．ＭａｓｋＲ⁃ＣＮＮ［Ａ］．ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ［Ｃ］，２０１７．

［１０］ＰｏｌｌａｃｋＪＢ．Ｒｅｃｕｒｓｉｖｅｄｉｓｔｒｉｂｕｔｅｄｒｅｐｒｅｓｅｎｔａｔｉｏｎｓ［Ｊ］．Ａｒ⁃ｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ，１９９０，４６（１）：７７⁃１０５．

［１１］ＨｏｃｈｒｅｉｔｅｒＳ，ＳｃｈｍｉｄｈｕｂｅｒＪ．Ｌｏｎｇｓｈｏｒｔ⁃ｔｅｒｍｍｅｍｏｒｙ［Ｊ］．ＮｅｕｒａｌＣｏｍｐｕｔａｔｉｏｎ，１９９７，９（８）：１７３５⁃１７８０．

［１２］ＣｈｏＫ，ＶａｎＭｅｒｒｉｅｎｂｏｅｒＢ，ＢａｈｄａｎａｕＤ，ｅｔａｌ．Ｏｎｔｈｅｐｒｏｐｅｒｔｉｅｓｏｆｎｅｕｒａｌｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ：Ｅｎｃｏｄｅｒ⁃ｄｅｃｏｄｅｒａｐｐｒｏａｃｈｅｓ［Ｃ］．ＡｒＸｉｖｅ⁃ｐｒｉｎｔｓ，２０１４，ａｂｓ／１４０９􀆰 １２５９．

［１３］ＭｎｉｈＶ，ＫａｖｕｋｃｕｏｇｌｕＫ，ＳｉｌｖｅｒＤ，ｅｔａｌ．Ｈｕｍａｎ⁃ｌｅｖｅｌｃｏｎｔｒｏｌｔｈｒｏｕｇｈｄｅｅｐｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ［Ｊ］．Ｎａｔｕｒｅ，２０１５，５１８（７５４０）：５２９⁃５３３．

［１４］ＤａｖｉｄＳ，ＴｈｏｍａｓＨ，ＪｕｌｉａｎＳ，ｅｔａｌ．ＭａｓｔｅｒｉｎｇＣｈｅｓｓａｎｄＳｈｏｇｉｂｙＳｅｌｆ⁃ＰｌａｙｗｉｔｈａＧｅｎｅｒａｌＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇＡｌｇｏｒｉｔｈｍ［ＥＢ／ＯＬ］．（２０１７⁃１２⁃０５）．ｈｔｔｐ：∥ ａｒｘｉｖ．ｏｒｇ／ｐｄｆ／１７１２􀆰 ０１８１５．ｐｄｆ．

［１５］ＰａｙｎｅＴＰ，ＥｄｗａｒｄｓＰ．Ｉｎｔｅｒｆａｃｅａｇｅｎｔｓｔｈａｔｌｅａｒｎ：ａｎｉｎ⁃ｖｅｓｔｉｇａｔｉｏｎｏｆｌｅａｒｎｉｎｇｉｓｓｕｅｉｎａｍｕｌｔｉ⁃ａｇｅｎｔｉｎｔｅｒｆａｃｅ［Ｊ］．ＡｐｐｌｉｅｄＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ，１９９７，１１（１）：１⁃３２．

［１６］邓江湖，赵武奎，卢诗骄．中美军队辅助决策系统现状比较［Ｊ］．兵工自动化，２００６，２５（１０）：１５⁃１６．

［１７］ＳｕｒｄｕＪＲ．ＴｈｅＤｅｅｐＧｒｅｅｎＣｏｎｃｅｐｔ［Ｃ］∥Ｐｒｏｃｅｓｓｉｎｇｏｆｔｈｅ２００８ＳｐｒｉｎｇＳｉｍｕｌａｔｉｏｎＭｕｌｔｉｃｏｎｆｅｒｅｎｃｅ．ＳｐｒｉｎｇＳｉｍ２００８，Ｏｔｔａｗａ，Ｃａｎａｄｅ，２００８：６２３⁃６３１．

［１８］丁国勤，孟卫东．后勤保障指挥决策系统结构设计研究［Ｊ］．后勤工程学院学报，２００５，２１（１）：２９⁃３４．

［１９］胡桐清，陈亮．军事智能辅助决策的理论与实践［Ｊ］．军事系统工程，１９９５（Ｚ１）：３⁃１０．

［２０］杨萍，等．基于多Ａｇｅｎｔ的导弹机动方案辅助决策系统体系结构研究［Ｊ］．军事运筹与系统工程，２００６，２０（４）：１５⁃１９．

［２１］陈华东，等．网络中心战中基于ＭＡＳ的分布式辅助决策［Ｊ］．火力指挥控制，２０１０，３５（１０）：１１⁃１４．

［２２］王立华，徐洸．空中军事打击智能决策支持系统研究［Ａ］．第十一届中国管理科学学术年会论文集［Ｃ］．２００９：１６８⁃１７２．

［２３］孙志军，薛磊，许阳明．基于深度学习的边际Ｆｉｓｈｅｒ分析提取算法［Ｊ］．电子与信息学报，２０１３，３５（４）：８０５⁃８１１．

［２４］钟南，张建伟，马连轶，等．基于深度学习的海上无人机目标识别算法研究［Ｊ］．数字军工，２０１６（３）：４３⁃４６．

［２５］卜令娟，刘俊，邱黄亮，等．战场通用态势估计本体模型的构建［Ｃ］∥第二届中国指挥控制大会论文集———发展中的指挥与控制，２０１４：１３８⁃１４２．

［２６］曾清，施慧杰，杜阳华．联合作战战场态势一致性评估［Ｊ］．指挥控制与仿真，２０１４，３６（１）：５⁃８．

［２７］王杨．战场态势目标识别与态势意图预测的算法研究［Ｄ］．无锡：江南大学，２０１５．