中科院自动化所王飞跃教授：最优控制与最优教学

tldom 2020-10-19

展开全文

摘自《最优控制：数学理论与智能方法》张杰,王飞跃. 北京:清华大学出版社, 2017. 感谢德先生自媒体首发。

前言：最优控制与最优教学

三十多年前，最优控制曾是我由力学转入控制后的首选方向。记得第一个课题就是桥梁和高层建筑的主动减振控制，属分布参数系统问题；第二个是非线性问题的次优控制，试图利用最小二乘方法和勒让德特殊函数进行递归求解Hamilton-Jacobi-Bellman（HJB）方程。可惜因其他研究任务最后都没持续下去，成为心中至今的遗憾。喜欢最优控制的一个重要原因是大学和硕士期间着迷于变分法、力学和物理中各种各样的变分原理、泛函分析及其在希尔伯特空间的几何表示方式。我一直希望能利用泛函从代数几何空间的角度去解释最优控制，并进而在流形上近似求解各种非线性最优控制问题。

赴美留学之后，研究方向立刻转入以人工智能为基础和以智能机器人系统为对象的智能控制。1986年，上导师George N. Saridis教授的“自组织系统之随机控制”（Stochastic Control of Self-Organizing Systems）课时，一度曾有机会回头从事最优控制的研究，但由于对于如何利用熵（entropy）表示与导师有严重的分歧，一番争吵之后，最后“少”果而终，仅留下一篇会议论文和一篇杂志论文[1]。有幸的是，这让我有机会独立地提出了早期自适应动态规划（adaptive dynamic programming，ADP，最初称为approximate dynamic programming）的思想。更可喜的是，今天，以刘德荣教授和魏庆来研究员为代表的复杂系统管理与控制国家重点实验室团队在此领域硕果累累，已成为国际上研究ADP的先锋与重镇。

其实，至今我仍认为熵表示可能是统一各种最优控制方法，特别是将自适应和预测控制统一起来的可行途径，甚至更广泛的平行控制也可以纳入熵表示的框架之中。特别是跟随副导师Robert F. McNaughton教授上完自动机、形式语言和理论计算机课程之后，更感到控制熵与信息熵、计算复杂性之间有着深刻的内在关联，再加上学习控制和机器学习（当时称为“学习机器”，learning machines）方法，或许能够创出一条从最优控制的数学理论到最优控制的智能方法之新路[2]。这三十余年来未熄的“梦”想，就是驱动创作本书的原始动机。

当然，本书的写作还有一个十分显然的现实动机。近十年来，周围愿以控制理论和控制工程专业为第一选择的学生相对大大减少，学生们都希望转入其它以算法为主更时兴见效更快的专业。相对而言，控制付出大，回报却不见得大。然而，控制是“硬”科技，更是智能技术中的“硬”智能。没有过硬的控制，许多想法和算法无法落地。而且，最优控制是控制之中的“硬”课程，是“硬”中之硬。正如国家与社会的发展不能只发展“虚拟”经济，必须有强硬的“实体”经济支撑，技术的健康发展，一定也不可忽略控制技术，必须有高质量的人才不断加入控制技术的研究与开发之中才可持续。因此，一部与时代技术和应用要求合拍的最优控制教程，是吸引更多优秀学生从事控制专业的重要一步，这就是本书写作的现实动机。

因此，2015年秋，我答应承担起中国科学院大学（以下简称“国科大”）计算机与控制学院的“最优控制”研究生教学任务，并筹划写一本新的最优控制教材。最初有二个计划，一是按“以学习者为中心的教育”（learner-centered education，LCE，其中老师和学生都是学习者）之思想教学，并按照教学“三境界”方式安排教学内容和进度；二是变“编年体”式的教科书为“纪传体”的教材，就像《史记》开创中国史书的撰写新方式，希望“最优控制”这门课的课本尽量生动有趣，与时代相宜。

所谓教学“三境界”是仿王国维关于词之三层境界之说，让教学也有“三阶段”或“三境界”：

1）开始：滴水见大海，See the whole ocean froma drop of water。用开始的几堂课，把最优控制的核心问题、主要概念和关键方法以最简单的例子讲清楚。目的就是带学生登顶看城，让学生有一个整体观。

2）过程：借用苏轼的《题西林壁》，“横看成岭侧成峰，远近高低各不同。不识庐山真面目，只缘身在此山中。”Difficulty and confused, but not lost, still know where you areand enjoy. “滴水阶段”之后，根据学生水平和兴趣及教学要求，放开地去讲，但不断地与“滴水”的内容回连和关联。学生可以不懂，但必须知道懂了什么不知什么，内容的意义或意味着什么。这就如同带领学生手机地图探城，大街小巷任游。

3）结局：借用杜甫的《望岳》，“荡胸生层云，决眦入归鸟。会当凌绝顶，一览众山小。”In the end you feel like an expert in Optimal Control：Be there，done that，and so what!课的后期，以一个综合的题目或项目，把“滴水阶段”的问题、概念、方法再回头以“庐山阶段”学到的手段“一网打尽”，让学生从心理上感觉到自己了解掌握了最优控制的精髓，上升到“泰山境地”，今后可以有信心地使用或补习最优控制的方法和技术。这就像游城之后，让学生讲述经历和体会，让他们有“这座城市我去过”，是一个活生生的地方，消除心理障碍，不再抽象神秘了。

这是我在美教授二十年“机器人与自动化”（Robotics andAutomation）课程的实践与经验的总结，曾获得很好的效果，使学生对内容的理解从原来大约20%的程度提高到差不多70%[3]。“最优控制”差不多是控制课程中最难的，我希望以“三境界”的方法教授国科大的“最优控制”。

新型教材的撰写更是自己很久以来的想法。读过许多领域的专业著作，多数初读时的感觉很难摆脱“枯燥无味”四字，往往对书中一些内容不知为什么、干什么，更不知谁提出来了，当时的情景与动机是什么？没有历史感，更无发展感。每当此时，我就想起小时候看过的“文革”之前的一些中小学课本：物理课本介绍牛顿定律时有牛顿的头像和简介，化学课本介绍元素周期表时有门捷列夫的画像和故事，似乎自己就是因此才养成喜欢读书的习惯。

一次，读《史记》纪传体形成过程研究的论文，深叹司马迁纳百家众体，创新出以纪传体为中心，五体相依，体系严密的新史体，以致“百代而下，史官不能易其法，学者不能舍其书”，从此《春秋》、《左传》、《国语》等编年体史书不再主流，而纪传体不断发展延至今日。个人认为，今天绝大多数的专业著作和教科书之写作方式仍属知识的“编年体”，太注重知识本身之“用”，却忘了是谁去学谁去用。我们应该学习司马迁，重视专业知识之前、之中、之后的人，就是学习者和应用者，用知识描述的“纪传体”方式来创作专著和教科书，让人在其中，故事穿之，使“死”知识变“活”知识，生动有趣，让LCE以学习者为中心的教育和教学不再是口号和空话。由于时间的原因，本书的写作，只是沿此方向的一个十分初步的尝试，希望将来有机会结合wiki、微信和网络化、可视化等技术深入系统地研究“纪传体”的教科书和学术著作应如何撰写[4]。

由于肩负其他科研任务，我无法以个人之力完成“最优控制”的教学和教材写作任务。这些任务的完成，特别是本书写作，张杰博士是最主要的贡献者。张杰大学在清华大学读数学，硕士在人民大学攻经济，博士期间才开始在中科院自动化所与我一起从事社会计算、计算经济，特别是博弈论方面的研究工作。我一直希望张杰能以闭环实时反馈的思路在平行经济，特别是平行博弈方向有所建树，所以要求他再回头补足一些控制的核心知识。因此，博士一毕业，就安排他与我一起教授“最优控制”，并承担了大部分的教学和教材工作。二年多来，我几乎只是动口并“反复无常”地提出了许多几近“苛刻”的要求，张杰博士总是全力以赴，而且给了我许多事先没有想到的惊喜。我坚信，张杰博士一定会独立成为“最优控制”这门课的一位非常优秀的教师。

2015年“最优控制”课后部分师生交流合影，就座二人为授课教师，本书作者王飞跃、张杰（摘自2015年国科大“最优控制”课程纪念册）

第一年（2015年）教授“最优控制”时，我还请了北京交通大学的侯忠生教授，讲授数据驱动的控制方法，我们实验室的魏庆来研究员，讲授自适应动态规划方法。第二年（2016年）上课时，邀请了国科大的王立新教授讲授模糊逻辑和模糊控制，以及美国印第安纳大学-普渡大学的李灵犀教授讲授强化学习方法。在张杰博士的精心协调和安排之下，讲课效果之佳完全超出我的预想，学期结束时得到了许多同学积极正面的反馈，摘录如下：

“教学三境界”——第一次接触到这般教学思想，从整体到局部，再从局部回归整体。如今课程结束，那些知识却深深地印在脑海之中。

几位老师给我们描绘了一幅控制的完美历史画卷，张老师说他喜欢这种“历史的厚重感”，敢问又有哪位同学能不被这么美妙的“历史”所吸引。在这种强烈的兴趣下我也相信每位同学都愿意深入这门课程去探索科学的真谛。

最优控制理论是我十几年的求学过程中上过的最优质的课程。课程内容既扎根本质又放眼前沿，“高大上”的微信公众平台也让我得以随时了解课堂讯息，全面、客观的考核方式更是让我真正做到了“平时努力学，考试轻松过”。

在怀柔国科大，有幸能上“最优控制理论”这门课，遇到那么棒的老师，认识一群那么棒的同学，是我这辈子，学生时代，最美好的回忆！

国科大“最优控制”2015年授课教师，左上为中科院自动化所王飞跃教授，左下为北京交通大学侯忠生教授，右上和右下分别为中科院自动化所张杰副研究员和魏庆来研究员（摘自2015年国科大“最优控制”课程纪念册）

特别令我高兴的是，第一年结束时，我还得到一本由“最优控制”课程的教学照片和评语制作成的纪念册，不但精美，而且难忘。这不但让我感到自己所费心血值得，也再次让我想起物理学大师JohnWheeler的话：“大学里为什么要有学生？那是因为老师有不懂的东西，需要学生来帮助解答。”

国科大“最优控制”2016年部分教师，左图为国科大王立新教授，右图为印第安纳大学-普渡大学李灵犀教授

回国后能有这样一次令人难忘的教学经历，十分难得，为此我必须感谢上课的二百余名同学和五名教授团队，特别是付出最大努力的张杰博士。然而，这离我最初希望以教学“三境界”为支撑，以平行课堂和平行教育的方式进行“最优控制”教学的设想还有很大一段距离。可喜的是，二年来的教学实践和教材撰写已为下一步的智能化平行教学奠定了一个良好的基础。衷心希望这本教材所开始的新教学理念，能在同学的帮助之下得到深入地发展和巩固，使本书的下册《最优控制：智能方法》更加完善和成功，也为教学改革做一次有益且有效的努力。

2016年“最优控制”课后师生共游国科大后山雁栖湖，左三、左五、左六分别为本课教师张杰、王飞跃、王立新

《最优控制：数学理论与智能方法》（上册）是一次教学和教材的改革尝试，一定存在许多不足之处，作为主导和组织者，对此我必须承担全部责任。在此，我十分感谢王雨桐、白天翔、曾帅博士、张晓磊、顾颖城、王晓博士、高琳等帮助此课的同事和同学。感谢清华大学出版社薛慧老师、曾建华老师等为本书的出版付出的心血和努力。希望本书面世后能够得到相关专家和一线师生的批评指正，以便今后改正和改进，在此表示衷心的感谢。

王飞跃

2017年夏末于北京静安园

中国科学院自动化研究所复杂系统管理与控制国家重点实验室

国防科技大学军事计算实验与平行系统技术研究中心

[1] 关于争吵的部分描述见2001年出版的Modeling Uncertainty:An Examination of Stochastic Theory, Methods, and Applications第16章最后一节。会议论文之后于1992年发表于图森召开的IEEE控制与决策会议，题为Suboptimal Controlfor Nonlinear Stochastic Systems。杂志论文于1994年发表于Control Theory andAdvanced Technology第10卷第4期，题为Suboptimal Control of Nonlinear Stochastic systems。