下一代深度学习的思考

天承办公室 2023-10-18 发布于北京

展开全文

背景：焦李成院士受邀在“一带一路”人工智能大会上做了主旨报告(文末可下载)，探讨了下一代深度学习的思考与若干问题，本文从如下六个方面做总结阐述：

1深度学习的思想起源；
2深度学习的基本理论；
3类脑启发的深度学习；
4物理规律启发的深度学习；
5进化启发的深度学习；
6思考与展望。

深度学习的思想起源

深度学习已经发展了很多年，是一种表征学习，通过大数据驱动层次化机器学习模型，自动获取对象向量化表达，为现实世界和问题建模。

深度学习模拟人脑处理信息，处理自然信息如声音、语言、文字、图像。网络结构包含神经元、突触、连接机制、学习激励、准则、神经元种类、层数、连接结构等。

神经网络通过学习和优化处理数据，面临训练、稀疏编码、泛化、可解释性、鲁棒性问题。解决策略包括感知数据，表证复杂数据，学习和优化模型，处理物理问题，模拟大脑生物机制，嵌入大脑知识处理机制。

我们需要对以下方面进行再认识和再思考：

模拟人脑的稀疏性、选择性、方向性、学习性、多样性、记忆遗忘机制；
建立knowledge-based，physical-informed和brain-inspired的方法，以解决复杂的场景问题、物理问题；
结合全局达尔文进化学习和局部的拉马克、班德温学习；
超越Sigmoid函数的表征局限性；
神经网络结构的自动搜索和多角度、多层次解释；
深度学习的稀疏编码和逼近；
如何实现认知问题；
类脑感知与认知包含编码、表征、学习、优化、推理、决策、行动；
如何实现对问题场景的感知、表征、学习与结构优化的高效应用；
将深度神经网络或人工智能与科学紧密结合起来，真正解决科学问题。这需要我们认真考虑设计学习框架。

从数据与期望、表征与学习、误差模型建立与优化等角度出发，我们不仅要考虑网络的数据采样的策略、激活函数的选择以及损失函数或目标函数的构建，更重要的是需要针对大数据小样本问题以及数据先验问题进行深入探讨。同样，我们需要从生物启发、物理启发以及类脑启发的角度来思考如何进行知识建模。在建模过程中，结构搜索、参数优化以及数学性质的函数和导数的学习与优化等模型优化问题也需得到重视。

深度学习的基本理论

深度学习的基本理论包括逼近理论、表征理论、学习理论和优化理论。

逼近理论涉及万能逼近定理、仿射系统逼近和多尺度几何逼近等。表征理论涉及网络构造、编码器构造和多尺度网络等，学习理论涉及模型评估、正则化、泛化理论等，优化理论涉及以梯度为基础的优化和启发式与进化相结合的方法。

神经网络的构造和设计必须考虑如何从数据样本中拟合输入和输出的映射关系，以及如何利用这种映射关系对未知的、非线性的、高维的函数进行逼近。在神经网络的设计中，正则化理论是提高网络泛化能力和避免过拟合的重要前提，而泛化理论则对网络的训练和测试起到重要作用。网络优化理论大多数采用梯度下降算法及其变体，但是当面对大数据稀疏样本和病态问题，或者更极端的情况下，梯度算法可能会出现不足，因此需要将梯度算法和非梯度算法有效结合是深度学习未来发展的重要方向。此外，自然进化和群体智能等启发式算法，模拟了局部相互作用和环境的交互，以概率1收敛于全局满意解，具有多样性和稳定性等优点，也可以解决梯度算法存在的问题。

深度学习的创新源头回顾起来很有意义，脑科学揭示了人类思考的原理，生物科学展示了优化潜力，物理学则启示我们按照物理规律建立网络求解问题。因此，结合这些科学领域的成果，建立相应的网络求解问题是非常有潜力的研究方向。

类脑启发的深度学习

我们对类脑的感知和认知还有很多要学习的地方。2021年诺贝尔奖生理和医学奖得主阐释了类脑感知和认知研究的意义，从感知到认知是一个复杂的过程，需考虑心理学、哲学、语言、人类学、人工智能、神经科学角度，更重要的是从触觉、听觉、视觉思考。Tomaso A.Poggio认为人工智能的突破来自神经科学。

神经网络源于脑神经计算，但未充分考虑生物特性。稀疏性、学习性、选择性、方向性、知识性和多样性等特性在类脑结构中存在，但未被完全利用。

认知的稀疏性建模、学习性理论、选择性注意机制、方向性感知和知识整合等都有生物基础。多尺度几何建模方面，提出的多尺度卷积网络结合几何学习和卷积网络，实现特征提取和表征的统一。该网络能挖掘丰富多样的特征，高效分类。Rigelet-Net网络通过标记不完整样本和知识化，实现斑点和波正则化，有效建模和分类SAR复杂场景。深度多尺度轮廓波的散射网络结合物理散射机理和多尺度表征，实现高分辨复杂遥感影像的有效分类。复数Contourlet网络能够表征极化下的物理机理，结合深度学习，有效建模方向性和多样性。

物理启发的深度学习

2022年诺贝尔物理学奖授予了验证量子不遵循贝尔不等式的科学家，他们的研究开启了量子信息学。物理学研究物质最一般的运动规律和结构，与机器学习的核心目标相同，但使用规则的条件不同。

物理科学从已知条件下的过程中提取显式规律，而机器学习则从未知条件下提取隐式规律。经典力学和流体力学启发了神经网络结构和设计，而动力学微分方程则用于保障神经网络的信息和能量。模拟随机曲面现象的神经网络能学习物理定律，电磁学、光学和热力学等物理原理启示了神经网络和算法的构造。统计热力学通过无穷大的熵出发，利用混沌状态找到规律、模式和知识，最终得到最优解。熵、波尔兹曼公式、自由能等定理描述了物理界的基本规律，也用于构造神经网络。耗散结构是物理界的最优解形成的基础，自组织理论包含耗散、协同、突变等，是自监督学习网络的核心基础。

统计力学思想包括随机曲面的表征、随机初始算法的启发、概率与能量模型的启发和非平衡物理统计的启发，这些思想促进了不同网络模型和学习算法的产生，也推动了深度学习、机器学习、人工智能的发展。神经网络的构造可以利用量子力学的原理和思想。量子机器学习的科学思想是通过利用叠加、纠缠等量子特性来表征、推理、学习和联想数据。

进化启发的深度学习

2022年诺贝尔生理学和医学奖得主因对已灭绝人类基因组和人类进化的发现做出贡献而获奖。遗传基因在进化计算中至关重要，进化优化和类脑学习是人工智能的核心，而全局进化的达尔文主义和局部学习的拉马克、班德温主义是构成进化优化算法的基本思想。

免疫系统具有学习记忆性、多样性、分布性、容错性和被动免疫性，为构造深度学习网络或深度网络系统提供了生物基础。人工免疫系统应用广泛，包括控制功能、诊断、规划、组合优化、图像处理、网络安全、机器人和数据处理等。

进化算法与神经网络密切相关，二者都经历了漫长的过程，结合了数十年的历史，团队也有三十多年的研究历史。深度学习与进化的结合不仅解决了参数优化问题，还评价了网络结构并利用先验知识。利用数据驱动和知识，可以自动寻找具有更好泛化和容错能力的网络结构，以解决场景问题。进化算法在这方面具有巨大潜力，因为它们无需求导，具有并行计算特性和非线性随机性，能够求解组合爆炸问题并找到全局最优解。此外，生物机制为构造神经网络提供了理论基础。

结合进化和梯度是克服局部最优解和梯度弥散问题的重要途径。超参数优化存在非线性、非凸问题以及组合爆炸和试错成本高的问题。进化算法有自己的特点，但仍需解决根本性问题。元学习是一种通过进化算法进行自我学习的模型，元知识和元目标也是待解决的问题。泛化性能的提高、可解释性的追求和全局最优解的追求都是目前研究的重要目标。

思考与展望

深度学习需要从源头和基础出发，考虑生物机理、物化机理和数学建模表征，以及算法实现和硬件部署能力。更重要的是从类脑出发，基于场景物理规律，实现大样本、小数据和知识的有效建模和学习，软硬件实现同样重要。

我们从单通道数据驱动发展到知识和物理双驱动，通过感知和认知实现推理、决策和优化。因此，下一代人工智能是人工智能（AI）、计算智能（BI）和生物智能（CI）的结合。只有实现充分的感知、全面的认知和感知与认知的协同发展，才能迎来下一代深度学习或人工智能的必经之路。

深度学习或下一代人工智能需要我们思考以下问题：

数据与知识协同的优化与建模；
类脑深度学习的学习与优化；
Beyond Sigmoid的多尺度表征学习；
深度学习特征学习与通用逼近；
Beyond BP的学习、进化与优化；
感知与认知的协同建模与优化；
记忆与遗忘机制的建模；
安全可信的深度学习系统理论；
轻量高效的深度学习模型；
大数据小样本的深度学习；
深度学习绿色迁移的系统理论；
深度学习知识归纳与推理问题；
开放环境的场景应用问题；
Science for DL的建模、优化与学习；
DL for Science的一般框架与范式。