模拟运算会不会占领未来AI SoC的高地？

山蟹居 2019-11-12

展开全文

能效导向，模拟MAC称霸

可以说，随着摩尔定律的发展，过去30年的集成电路发展的最主要趋势是数字化。数字化设计是目前大型SoC的基本方法学，越来越多的模拟电路进入全数字时代，All Digital PLL, Digital LDO, Time-domain based ADC，Digital PA，数字化/二值化方法成为了克服模拟电路瓶颈的重要手段。

然而“羞于见人”的模拟电路并非一无是处。在能效上，基于模拟乘加（Multiply and accumulation, MAC）运算的电路实现具有显著优势。来自韩国KAIST的Seung-Tak Ryu教授比较了美国斯坦福大学与比利时鲁汶大学就同一算法，同一精度（二进制）神经网络实现的两个不同设计，一个以模拟MAC为基本计算单元、一个以数字MAC为基本计算单元。可以发现，基于开关电容的模拟计算的能效优势在10倍以上。

随着摩尔定律的发展进一步进入平台期，高校的工艺节点已经逐步停滞在28-65nm时，“模拟运算”的翻身仗似乎即将打响。其核心理论支撑是：数字电路的翻转电压幅度是整个Vdd，在1V数量级上，而模拟计算电路，特别是基于电压/电荷域计算，翻转电平可能只有10mV。而电路功耗是和翻转电压的平方律呈正比。

更进一步地，随着新器件与新算法的提升，各式阻变存储器与神经元突触相仿的特性赋予基于新器件的模拟计算新的机会。来自台湾国立清华大学的鄭桂忠教授特别比较了基于阻变存储器的模拟实现、混合信号实现与纯数字实现的突触设计，如下图。刨除精度和稳定性的问题，模拟设计无论在复杂度还是在功耗上都具有更明显的优势。（据小道消息指出，该领域已经成为了高性能计算的一大热点，ISSCC 2020 清华大学就有篇基于ReRAM的存算一体芯片。）

MAC不是AI的全部，模拟是么？

虽然模拟MAC的高能效令许多设计者怦然心动，但是其挑战也非常显著。最主要的问题来自于AI SoC的的可编程性。清华大学尹首一教授总结了目前AI SoC的可编程需求，虽然MAC占据了主要的算力，但是仍有其他运算。

与此同时，高性能AI SoC在可变精度的计算（bit-width）以及可重构的数据流（dataflow）上都有显著需求，而这些需求是目前的模拟运算无法考量的重点。毕竟，无论在电压/时间域上，要复制一个模拟信号的代价要远远比数字来的大。D触发器（DFF）可以无损地复制任意数字信号，而模拟信号的复制却要和电路的线性度、热噪声、PVT差异做抗争，每一次抗争的代价都是功耗与面积。

还不止这些，来自日本大阪大学的粟野皓光教授（Hiromitsu Awano）更是一针见血地指出了模拟计算在AI SoC产业化的过程中提到的问题，比如随着工艺变化的Scalability等。即使在能效领域，他也相信，随着摩尔定律的更进一步推动，先进工艺下的数字计算代价会越来越低，最终在SoC层面取得比模拟更高的优势。

另外，粟野教授也是所有Panelist和全场大量模拟电路设计者中唯一明确不看好模拟电路与混合信号在AI SoC发展的大佬。勇气可嘉！

模拟计算+领域专用+存算一体=？

这会不会是最终的胜利方程式呢？清华大学刘勇攀教授回顾了AI SoC处理器的发展流程，并指出现在已不再是入行通用AI SoC的时机。相形之下，应用专用/领域专用的AI SoC却有大把的机会。特别是在非易失性存储器上，通过模数混合的方法，结合AI计算与特殊器件的可计算特征无疑是一大趋势。

无独有偶，尹首一教授也在Thinker系列芯片的发展过程中，总结了AI芯片的规律。第一阶段，是领域专用体系结构上的发展，这个过程中可重构的并行计算体系结构推进了芯片的能效提升，然后很快地，冯诺依曼瓶颈（处理器与存储器间的带宽上限，亦称为“存储墙”）成为了第一阶段的最终挑战；于是第二阶段是存内计算的时代，但是目前为止存算一体仅仅能支持基本的MAC操作，而对于AI SoC的其他操作并不支持。由此，AI SoC发展的第三阶段，可重构架构的并行计算架构与存算一体的交叉产物呢？

重新定义模拟和数字的边界

作为一个专业的ADC/AI从业人员，小编一直认为AI SoC中的模拟计算给广大模拟爱好者带来了又一春。但是，在设计过程中不应该是单独将模拟计算分割出来看待，而是应该从SoC的角度反省模拟与数字的边界，或者是模拟到智能感知的转换过程。如果将目前模拟计算的MAC归纳为数字-模拟-数字的双重重转换过程，包含ADC/DAC整列，那么在智能传感器SoC中，前端的ADC加上多层模拟MAC，就变成了一个无数次模数和数模转换的怪物。

显然这个方法有点累赘。2018年的ISSCC上，哥伦比亚大学的Mingoo教授课题组就重新定义了模数转换的位置，将部分计算采用模拟电路实现，通过全局考量最小化量化的代价与功耗，将模拟与数字的边界放到特征提取以后，实现单比特的量化编码。（又有一个小道消息，ISSCC 2020上东南大学在此基础上进一步改善此架构，功耗又减小了一半。）