清华大学，Science！

阿里山图书馆 2023-09-15

展开全文

第一作者：Wenbin Zhang，Peng Yao

通讯作者：Bin Gao (高滨)，Huaqiang Wu(吴华强)

通讯单位：清华大学

DOI：

https://www./doi/full/10.1126/science.ade3483

背景介绍

人类的学习能力在智力增长和快速适应未知场景或动态变化的环境方面发挥着至关重要的作用。边缘人工智能（AI）应用也需要具有这种学习能力的硬件，以使相关设备能够适应新的场景或用户习惯。然而，深度神经网络（DNN）训练通常是通过基于冯-诺依曼计算架构和高精度数字计算范式的传统硬件实现的。处理器芯片和片外主内存之间的大量数据移动会产生大量能耗，并造成整个训练过程的延迟。因此，尽管云计算平台可以处理这种能源密集型训练，但其高能耗阻碍了在功耗有限的边缘计算平台上实施学习。

小编注：

随着人工智能和硬件架构的发展，在网络边缘产生了数十亿字节的数据，这对数据处理和结构优化提出了巨大的要求。因此将边缘计算与人工智能相结合的需求很大，这就产生了边缘智能(edge intelligence).边缘智能分成两个部分——AI on edge(intelligence—enabled edge computing)和AI for edge(artificial intelligence on edge)。前者侧重于借助流行、有效的人工智能技术，为边缘计算中的关键问题提供更优的解决方案，而后者则研究如何在边缘上进行人工智能模型构建的整个过程，即模型训练和推理。

本文亮点

学习对于边缘智能设备适应不同的应用场景和用户来说非常重要。目前的神经网络训练技术需要在计算单元和存储单元之间移动大量数据，这阻碍了边缘设备学习功能的实现。本研究开发了一种完全集成的忆阻器芯片，它具有提高学习能力和降低能耗成本的特点。STELLAR架构中的各种方案，包括学习算法、硬件实现和并行电导调整方案，都是通用的方法，可通过使用忆阻器横杆阵列促进片上学习，而无需考虑忆阻器器件的类型。本研究可应用与运动控制、图像分类和语音识别等领域。

图文解析

图1 | 使用神经启发忆阻器芯片进行边缘学习

要点：

1.基于忆阻器的神经启发计算通过其颠覆性的内存计算架构和模拟计算范式，消除了这种大量的数据移动。通过利用欧姆定律和基尔霍夫定律，忆阻器横杆阵列可以存储模拟突触权重，并在单个时间步长内并行执行原位矢量矩阵乘法（VMM）运算。集成了多个忆阻器横杆阵列和互补金属氧化物半导体（CMOS）电路的神经启发计算芯片可以轻松实现 DNN 推理，并具有在没有任何片外内存辅助的情况下处理完全片上学习的巨大潜力。基于忆阻器的神经启发计算可大幅提高能效，这使得这一范例在开发可实现低功耗学习设备的未来芯片方面大有可为。

2.本研究制造出的神经启发计算芯片集成了两个忆阻器横杆阵列（共约16万个单元）和所有必要的电路模块，包括配置控制器、计算和编程驱动程序、低成本数据转换器以及具有忆阻器功能的学习模块（图1B）。根据硬件测量结果，忆阻器芯片的能耗比基于数字加速器的系统低 35 倍。本研究演示了几项改进学习任务，包括追光汽车的运动控制、图像分类和音频识别。本研究还在CIFAR-100数据集上模拟了一个残差神经网络，从而验证了STELLAR方案在大型神经网络改进学习任务中的可扩展性。基于忆阻器的神经启发计算芯片可以促进适应新场景和新用户的边缘人工智能设备的开发（图1B）。

图2 | 设计用于片上学习的忆阻器功能架构

要点：

1.为了支持能效、面积效率和精度都可观的片上学习，本研究提出了 STELLAR 架构（图 2A）。STELLAR 架构利用了忆阻器器件的双向模拟开关行为。在权重更新阶段，只需根据输入、输出和误差的符号计算权重更新方向。此外，该架构还预先设定了一个阈值，在计算误差符号时可过滤掉小误差，并通过避免过于敏感和不必要的更新，对学习算法的收敛起到至关重要的作用。通过省略这些微小的更新，STELLAR更新方案下基于忆阻器的梯度矢量可以更接近传统的BP梯度矢量，以适应实际器件的非理想因素（如器件电导的非对称调整）。

2.通过对美国国家标准与技术研究院（MNIST）数据集的模拟，STELLAR 架构的学习性能与传统方法的学习性能进行了比较。在这里，第二层的所有忆阻器在学习过程开始前都被设置为随机电导状态。图 2B 显示了在不同阈值下，传统 BP 方法在无写入变化和有写入变化（1% 和 3%）情况下的学习精度，本研究将其与所提出方法的学习精度的比较。适当选择阈值可提高收敛性和学习精度。过小的阈值会导致权重更新过于频繁和网络处于振荡状态，而过大的阈值则会导致权重更新不足。不同方法的能耗比较见图 2C。尽管保持了几乎相同的精度，但 STELLAR 架构的能耗比传统 BP 方法低了两个数量级，原因是精确权重更新计算和写入验证开销大幅减少。

3. STELLAR 架构通过一对差分忆阻器单元实现正负加权（图 2D）。在采用单晶体管-单电阻（1T1R）配置的传统交叉棒阵列中，差分对中的两个忆阻器单元连接到不同的源线（SL）上，并以数字方式完成减法。在采用双晶体管-双电阻（2T2R）配置的交叉棒阵列中，差分对中的两个忆阻器单元连接到同一 SL，减法直接在电流域中完成。2T2R 设计大大降低了 SL 电流，从而减少了 IR 下降问题，使阵列尺寸更大。

4.本研究为这种差分对配置提出了一种周期并联电导调整方案（图 2E）。在此方案中，SET 和 RESET 操作交替执行，用于对到达的输入样本（如图像）进行学习迭代。如果在当前学习迭代中执行了 SET (RESET) 操作，则在下一次学习迭代中执行 RESET (SET) 操作。每次迭代只对整个阵列执行一次操作，这是通过选择对给定差分对中的哪个单元进行操作来实现的。

图3 | 用于芯片学习的忆阻器芯片

要点：

1.图 3A 显示了拟议的STELLAR 架构的整体电路实现。这种忆阻器芯片由用于配置的控制器、2T2R忆阻器阵列（1568 × 100）、1T1R忆阻器阵列、还能用于计算和编程的BL、WL和SL驱动器、低成本模数转换器（ADC）、忆阻器片上学习功能模块以及输入和输出缓冲器组成、误差循环减法器和权值更新逻辑）；以及输入和输出缓冲器。第一层忆阻器阵列采用 2T2R 配置，以减少在如此大的阵列中出现的 IR 下降问题，第二层忆阻器阵列采用 1T1R 配置，以支持更灵活的现场权重调整。控制器对输入的阶段选择信号进行解码，并向其他电路模块提供输出配置信号，以将芯片切换到不同的工作阶段。

2.图 3B 显示了制作好的芯片的显微照片。该忆阻器器件使用了 TiN/HfO_x/TaO_y/TiN 材料堆栈，制造工艺与标准 CMOS 工艺兼容。因此，忆阻器可以方便地与复杂的 CMOS 电路集成，从而获得极高的成品率（16 万个单元的成品率几乎达到 100%）。图 3C 中的横截面透射电子显微镜（TEM）图像显示了忆阻器单元与 CMOS 电路的集成。制造出的忆阻器以相同的脉冲序列实现了均匀、可重复的双向模拟开关。片上总共约 16 万个忆阻器单元可被统一编程为 32 种电导状态，最大、最小和平均成功率分别为 99.98%、99.69% 和99.90%。

图4 | 记忆器芯片上的改进学习演示

要点：

1.本研究首先在追光汽车的运动控制任务中演示了新样本的学习过程（图 4A）。小车的设计目的是追逐激光光斑的位置。小车配备了用于捕捉环境图像的摄像头、用于控制方向的转向电机和用于控制油门的驱动电机。忆阻器芯片从个人电脑接收环境图像的输入特征，并为转向角和驱动油门提供输出控制信号。

2.如图 4B 所示，首先在片外使用旧场景数据（即暗场景数据）训练一个包括六个卷积层和两个全连接层（FC）的卷积神经网络（CNN），其尺寸为512 × 100 × 10，然后将这两个 FC 层的权重转移到记忆器芯片的两个相应阵列中。接下来，通过调整最后一个 FC 层的权重，在芯片上对新场景（即明亮场景）进行改进学习。在改进学习之前，汽车可能会在明亮场景中失去对目标（即光点）的追踪，即使没有目标，它也会偏离目标或向前移动。经过改进学习后，小车很好地适应了明亮场景，在黑暗场景中仍然表现出色。

3.图 4C 显示了改进学习过程中分数的变化，其中 1.0 分表示最佳表现。在对来自新场景的 500 个训练样本进行改进学习后，得分趋于稳定。在使用所有训练样本进行改进学习后，新场景的平均得分从 0.605 显著提高到 0.912，旧场景的平均得分从 0.951 提高到 0.963，表明没有发生性能下降（图 4D）。图 4E 显示了改进学习前后电导权重的转换和变化。

总结展望

本研究开发了一种完全集成的忆阻器芯片，具有学习能力强、能耗低的特点。STELLAR 架构中的各种方案，包括学习算法、硬件实现和并行电导调整方案，都是通用方法，可通过使用忆阻器交叉排列促进片上学习，而无需考虑忆阻器的类型。本研究展示了在运动控制、图像分类和语音识别等各种任务中对新样本和新类别的改进学习，这表明 STELLAR 架构能够适应器件的非理想性，并为忆阻器芯片配备了适应新场景的改进学习能力。通过基于先进制造技术的进一步电路设计，STELLAR 架构可以实现片上学习型忆阻器芯片，其能效比数字加速器高出约 75 倍。这项研究是朝着未来具有高能效和广泛学习能力的芯片迈出的重要一步。本研究团队希望该研究成果能加快未来智能边缘设备的发展，使其能适应不同的应用场景和用户。