【原】OPPO推出NPU，迎接计算影像时代——情理之中与意料之外

知芯世界 2021-12-15

展开全文

从媒体爆料OPPO造芯，到今天OPPO正式发布首款自研芯片，至今已过去接近两年。

日前在OPPO INNO DAY 2021上，OPPO发布了首个代号为MariSilicon X的影像专用6nm NPU，算是对两年造芯历程的一个小总结。

根据官方信息描述，MariSilicon X具有极致功耗比、行业领先的HDR、针对RAW的20bit快速计算以及支持定制的RGBW Sensor优化四大方面特色。

看到这则新闻后，不知道您是什么感觉。对于我来说，起初会觉得在情理之中，毕竟截至目前，几大手机商都已或多或少推出了自行开发的芯片。

但是通过介绍参数的性能，又使我感到震惊，全球范围内推出EUV 6nm制程NPU的企业并不算多，况且这还是OPPO第一个量产芯片。就在OPPO公布一系列详细的芯片指标之后，让我回忆起了2017年，那一年，海思首款集成NPU的10nm SoC麒麟970问世，拉开了AI在移动平台上的帷幕。而现在即将迎来的，是移动平台计算的下一波浪潮——AI计算影像。

手机厂商自研芯片是情理之中

近年来，无论是苹果、谷歌还是华为等手机商，都在自行开发SoC，其中最显著的特性就是增加了NPU，利用AI加速器提升应用性能并降低功耗。以往，计算任务是通用的，大多数任务都依赖于标准 CPU/GPU/VPU或者ISP/DSP等。人工智能（AI）和机器学习 (ML) 的飞跃式发展带来了独特的计算要求，传统的或者说通用的神经网络加速器(CNN)可能无法有效加速个性化的AI 任务，因此业界不仅需要用于处理 AI/ML 工作流的硬件，还需要专门针对特定 ML 模型优化的硬件。这些差异化需求很难依赖英特尔或者高通来快速获取。

比如苹果和谷歌的手机中可能都有语音助手，但是他们使用的底层ML模型和架构可能会有很大不同，通用处理器无法优化。这些公司可以针对其特定的软件应用程序和架构微调他们的芯片，从而使算法——软件——硬件三者实现完美的紧耦合。

作为中国前两大智能手机厂商，手握大量图像相关专利的OPPO，自然有推出芯片的动力和能力。

时间回到2020年2月，彼时OPPO CEO特别助理发布了一篇名为《对打造核心技术的一些思考》的内部文章，曝光了“三大计划”，分别是涉及芯片业务的“马里亚纳计划”（OPPO此次发布的MariSilicon X就是以此命名）、涉及软件开发业务的“潘塔纳尔计划”和涉及云服务的“亚马逊计划”。

所以从那时起，一切都已在情理之中了。

手机进入计算影像时代

随着影像成为手机重要差异化的特性，被姜波称为是“计算影像探索的第一步”的MariSilicon X诞生就显得那么理所应当了——通过结合了ISP和NPU等功能，OPPO率先进入了计算影像时代。

OPPO芯片产品高级总监姜波

姜波是OPPO芯片产品高级总监，于2019年到岗。此前，他曾在高通中国担任首个智能手机SoC产品经理，经历了中国智能手机的产业链爆发期。OPPO则是姜波加盟的首家国内企业，而且还是一家终端厂商，这和他过往的芯片公司经历完全不同。

也正是在这两年间，通过领导芯片开发团队以及各部门协调过程中，姜波对于OPPO有了更深的了解：“作为一线终端公司，OPPO一切都是从消费者角度出发，MariSilicon X从立项开始，就是从用户场景反推出来的规格要求，这和以前在芯片公司产品开发逻辑完全不同。”

“OPPO更多是从解决用户的痛点角度出发进行垂直整合。我们有SoC算法能力、硬件设计能力、传感器及摄像头/光学模组的定制和整合能力。作为手机产业链的最重要一环，OPPO有机会也有能力做到最深度的整合和优化，而且是面向消费者的。”姜波说道。

谈及MariSilicon X的诞生原因，姜波表示，OPPO已经具有多年通用SoC平台的CV（计算机视觉）算法、AI算法的积累，但通用SoC想要达成计算影像的终极体验依然存在诸多挑战。“比如定制化的传感器，如果要与通用SoC配合，两者的开发周期不同，很难平衡；另外如果采用商用传感器，要在通用SoC上做优化，研发需要很多调整，成本和上市周期都会增加。只有将算法与芯片、软件与硬件进行紧耦合，才可以完成真正的计算影像。”

实际上不光是手机，从云计算到汽车，从IoT到工业，随着AI等技术的兴起，对于算力的需求越来越个性化，数家软硬件公司均不约而同地选择了自研芯片道路。一方面是因为确保供应链稳健，另外更重要的则是通过对核心底层技术的掌握，从而完善产品的差异化。

这一切变革，正如英伟达CEO黄仁勋在2017年时的判断：软件会吃掉世界，但AI会吃掉软件。

马里亚纳的意料之外

此前有媒体就表示OPPO的高管接受采访从来不会与“友商”做比较，而是坚持“本分”的企业文化。此次马里亚纳 X的发布，OPPO的确也是不慌不忙，错开了几大友商及SoC供应商的发布日期。

但“好饭不怕晚”，相比小米“遮遮掩掩”的澎湃C1、VIVO“背靠大树”的V1，MariSilicon X的发布更为坦率。尽管MariSilicon X的定位并不像高通、联发科新发布的to C端的旗舰SoC芯片，因此并没有公布详细的Die面积、晶体管数量等敏感信息，但姜波还是尽可能地公开了更多的芯片细节。通过这些意料之外的细节，业界有必要对OPPO的首个自研芯片刮目相看。

没有办法的办法——自研多款IP

此次发布，姜波只透露了MariSilicon X中的三个IP，分别是MariNeuro、MariLumi以及MIPI PHY。

其中MariNeuro AI计算单元是OPPO自行开发的NPU，姜波也坦言，如今很多IP供应商可以直接提供NPU，但通过评估，“没有一个NPU可以根据OPPO的场景和算法，达到最优的能效比”。

MariNeuro的诞生，可以使OPPO具有训练优化的底层能力，从而达到最佳用户拍照体验。并且目前CV/AI算法仍在不断迭代，选择自研NPU便可以更好地掌握主动性。

“只有通过影像专用NPU，才能解决目前ISP和通用SoC的算力不足和能效难题，这是未来影像发展的主流方向。”姜波总结道。

此外，为了解决内存墙问题，OPPO也专门为MariNeuro开发了片上内存子系统，达到万亿比特/秒（Tb/s）级的传输速率。而除了片上存储之外，MariSilicon X还合封了256Mb的LPDDR4X作为独立DDR带宽，从而提升系统整体的内存吞吐率。

MariLumi则是OPPO自研的ISP Pipeline IP。与NPU配合，实现真正的实时计算影像。

除了以上两个重要IP之外，OPPO还自研了诸多其他IP，比如MIPI接口等。姜波解释道，自行开发的根源是OPPO采用了RGBW的传感器，需要用到两路RAW Pipeline，因此对MIPI总线的峰值吞吐量有较高要求，而OPPO无法在市场上找到对标的IP，因此只得选择自行开发。

姜波强调，所有IP都自行开发显然不现实，OPPO也有选择商用IP的大原则，就是需要满足极致体验，比如上述提到的三款产品，第三方IP无法达到要求，才会自行开发解决。

追求极致化——选择台积电6nm EVU工艺

MariSilicon X采用了台积电6nm工艺，对此姜波也承认，相比6nm而言，12nm的研发周期、IP可获取性以及流片验证会更加友好。但是OPPO通过仿真评估，认为只有6nm可以同时满足性能及功耗上的要求。

正是在MariSilicon X立项之前的2019年，台积电宣布推出EUV技术的N6(6nm)制造工艺，与采用DUV的N7(7nm)相比，N6提高了18%的逻辑密度，性能和功耗不变，并且使用相同的设计规则，使得从IP到工具等生态系统可以继续沿用。而根据台积电的近期公告，其计划在 2021 年第四季度用 6nm 取代 48-50% 的 7nm产能，显然直接立项在6nm，可以实现更快的商业化。

目前采用最先进制程的芯片企业几乎都是SoC或CPU等，MariSilicon X不计成本地选择了6nm技术，也使其成为手机中仅次于SoC的选择EUV技术的芯片。

根据姜波的介绍，目前OPPO拥有完整的芯片开发团队，包括设计、验证、后端集成等。也正是因为全流程都在自己掌控中，使得OPPO首个先进制程的芯片取得了一次流片成功的成绩，并且夸张到“没有任何小的修改或Debug”。

整个开发过程非常紧凑，尤其是考虑到OPPO还自研了多款IP的情况下，并没有流片测试验证的时间。况且移动应用有功耗的约束，再加上先进的制程工艺，一次成功离不开团队所有人的经验和努力，甚至还有一点点的运气。在姜波看来，从立项到点亮的整个过程，简直是“走了两年的钢丝”。

MariSilicon X的四大特色解析

有了IP，有了先进的EUV代工，有了全流程的设计人才，那么MariSilicon X究竟实现了那些突破？姜波给出了四个方向。

极致能耗比

借助MariNeuro NPU，MariSilicon X实现了18 TOPS的算力以及11.6 TOPS/W的算力功耗比。18 TOPS的算力相比iPhone的A15增加了20%，但这不是重点。正如姜波所说，手机NPU设计的难点不在算力，而是在效率上。更重要的是能效评估不是执行通用的神经网络算法，而是执行真正应用场景下的算法，只有真实数值才最有参考价值。

对此姜波给出了实际数值，比如在FindX3 Pro中，使用了骁龙888处理器，在运行OPPO AI降噪算法只能实现2 fps的处理速度，这意味着无法支持AI降噪的视频拍摄，并且功耗高达1.7W。而在MariNeuro NPU上，可以在800mW的功耗约束下实现40 fps的4K AI降噪视频拍摄。

行业领先的HDR

借助于MariLumi ISP Pipeline IP，实现了20bit带宽、120dB动态范围的图像处理能力，可以实现更好的HDR。就在数天前，高通和联发科陆续宣布了旗舰SoC，都是采用了18bit的ISP，更高的带宽意味着更高的数据吞吐率、更多的色彩信息以及更好的动态范围。

通过简单计算，20-bit的ISP可以实现1,048,576个亮度范围，而18-bit只能实现262,114个。也正是如此，MariLumi可以实现4倍于现有旗舰SoC的动态范围。实测结果也显示，MariSilicon X在4k场景下，亮部是在8dB，暗部为12dB，也就是说图像暗部的信噪比可以实现4倍的有效提升。

20bit RAW实时计算

除了此前提到的4倍于现有旗舰SoC的HDR之外，MariSilicon X的强大性能可确保芯片具有实时RAW域的降噪、HDR等处理能力，相比传统SoC基于YUV域的处理，可以更好地保存照片或视频的原始信息，实现真正所见即所得的体验。

与定制RGBW传感器紧耦合

RGBW技术并不是新技术，早期的技术实践简单理解就是将其中一个G（绿光）替换为W（白光），虽然提升了感光度但是由于信号串扰、猜色算法准确性等限制，会出现偏色情况。

不久前OPPO曾与SONY合作，将自研四合一像素聚合等一系列算法直接写入传感器硬件，通过新型的定制化像素排列方案保证猜色精确度和成像质量。如今，借助MariSilicon X，可实现传感器的进一步耦合，从而最大化传感器的能力。正如姜波此前表述，两路的RAW Pipeline其中一路处理RGGB，另外一路则专门负责处理白光通道。通过两路并行处理，使得成像信噪比提升了8.6dB。同时，针对纹理细节处理，Pipeline则通过超采样方式，提升了70%的解析力。

计算影像的未来十年

作为引领未来十年计算影像市场的开山之作，MariSilicon X被寄予了厚望。姜波表示，目前计算影像市场的很多算法还未成熟，因此OPPO才会开发出专用的影像NPU去探索这一市场。毕竟手机受制于外形、尺寸等限制，传感器不能无限增大，如果继续提升影像品质的话，通过提升计算影像的算力是必经之路。

从结果来看，针对视频的实时处理场景，借助MariSilicon X，OPPO可以同时实现4K+20bit RAW+AI+Ultra HDR规格夜景视频，已然打破了手机计算影像算力的新极限。

珠穆朗玛是大家看得见的巅峰，而马里亚纳作为全球最深的海沟，代表的则是隐藏更深的无人区，“马里亚纳计划”亦是如此。

一切为提升用户体验的支撑，都来源于OPPO对无人区的不断探索。