分享

​OPPO推出NPU,迎接计算影像时代——情理之中与意料之外

 知芯世界 2021-12-15
从媒体爆料OPPO造芯,到今天OPPO正式发布首款自研芯片,至今已过去接近两年。
 
日前在OPPO INNO DAY 2021上,OPPO发布了首个代号为MariSilicon X的影像专用6nm NPU,算是对两年造芯历程的一个小总结。

 
根据官方信息描述,MariSilicon X具有极致功耗比、行业领先的HDR、针对RAW的20bit快速计算以及支持定制的RGBW Sensor优化四大方面特色。
 
看到这则新闻后,不知道您是什么感觉。对于我来说,起初会觉得在情理之中,毕竟截至目前,几大手机商都已或多或少推出了自行开发的芯片。
 
但是通过介绍参数的性能,又使我感到震惊,全球范围内推出EUV 6nm制程NPU的企业并不算多,况且这还是OPPO第一个量产芯片。就在OPPO公布一系列详细的芯片指标之后,让我回忆起了2017年,那一年,海思首款集成NPU的10nm SoC麒麟970问世,拉开了AI在移动平台上的帷幕。而现在即将迎来的,是移动平台计算的下一波浪潮——AI计算影像。

手机厂商自研芯片是情理之中 

近年来,无论是苹果、谷歌还是华为等手机商,都在自行开发SoC,其中最显著的特性就是增加了NPU,利用AI加速器提升应用性能并降低功耗。以往,计算任务是通用的,大多数任务都依赖于标准 CPU/GPU/VPU或者ISP/DSP等。人工智能(AI)和机器学习 (ML) 的飞跃式发展带来了独特的计算要求,传统的或者说通用的神经网络加速器(CNN)可能无法有效加速个性化的AI 任务,因此业界不仅需要用于处理 AI/ML 工作流的硬件,还需要专门针对特定 ML 模型优化的硬件。这些差异化需求很难依赖英特尔或者高通来快速获取。
 
比如苹果和谷歌的手机中可能都有语音助手,但是他们使用的底层ML模型和架构可能会有很大不同,通用处理器无法优化。这些公司可以针对其特定的软件应用程序和架构微调他们的芯片,从而使算法——软件——硬件三者实现完美的紧耦合。
作为中国前两大智能手机厂商,手握大量图像相关专利的OPPO,自然有推出芯片的动力和能力。
 
时间回到2020年2月,彼时OPPO CEO特别助理发布了一篇名为《对打造核心技术的一些思考》的内部文章,曝光了“三大计划”,分别是涉及芯片业务的“马里亚纳计划”(OPPO此次发布的MariSilicon X就是以此命名 )、涉及软件开发业务的“潘塔纳尔计划”和涉及云服务的“亚马逊计划”。
 
所以从那时起,一切都已在情理之中了。

手机进入计算影像时代


随着影像成为手机重要差异化的特性,被姜波称为是“计算影像探索的第一步”的MariSilicon X诞生就显得那么理所应当了——通过结合了ISP和NPU等功能,OPPO率先进入了计算影像时代。
 

 OPPO芯片产品高级总监 姜波


姜波是OPPO芯片产品高级总监,于2019年到岗。此前,他曾在高通中国担任首个智能手机SoC产品经理,经历了中国智能手机的产业链爆发期。OPPO则是姜波加盟的首家国内企业,而且还是一家终端厂商,这和他过往的芯片公司经历完全不同。
 
也正是在这两年间,通过领导芯片开发团队以及各部门协调过程中,姜波对于OPPO有了更深的了解:“作为一线终端公司,OPPO一切都是从消费者角度出发,MariSilicon X从立项开始,就是从用户场景反推出来的规格要求,这和以前在芯片公司产品开发逻辑完全不同。”
 
“OPPO更多是从解决用户的痛点角度出发进行垂直整合。我们有SoC算法能力、硬件设计能力、传感器及摄像头/光学模组的定制和整合能力。作为手机产业链的最重要一环,OPPO有机会也有能力做到最深度的整合和优化,而且是面向消费者的。”姜波说道。
 
谈及MariSilicon X的诞生原因,姜波表示,OPPO已经具有多年通用SoC平台的CV(计算机视觉)算法、AI算法的积累,但通用SoC想要达成计算影像的终极体验依然存在诸多挑战。“比如定制化的传感器,如果要与通用SoC配合,两者的开发周期不同,很难平衡;另外如果采用商用传感器,要在通用SoC上做优化,研发需要很多调整,成本和上市周期都会增加。只有将算法与芯片、软件与硬件进行紧耦合,才可以完成真正的计算影像。”
 
实际上不光是手机,从云计算到汽车,从IoT到工业,随着AI等技术的兴起,对于算力的需求越来越个性化,数家软硬件公司均不约而同地选择了自研芯片道路。一方面是因为确保供应链稳健,另外更重要的则是通过对核心底层技术的掌握,从而完善产品的差异化。
 
这一切变革,正如英伟达CEO黄仁勋在2017年时的判断:软件会吃掉世界,但AI会吃掉软件。

马里亚纳的意料之外

此前有媒体就表示OPPO的高管接受采访从来不会与“友商”做比较,而是坚持“本分”的企业文化。此次马里亚纳 X的发布,OPPO的确也是不慌不忙,错开了几大友商及SoC供应商的发布日期。
 
但“好饭不怕晚”,相比小米“遮遮掩掩”的澎湃C1、VIVO“背靠大树”的V1,MariSilicon X的发布更为坦率。尽管MariSilicon X的定位并不像高通、联发科新发布的to C端的旗舰SoC芯片,因此并没有公布详细的Die面积、晶体管数量等敏感信息,但姜波还是尽可能地公开了更多的芯片细节。通过这些意料之外的细节,业界有必要对OPPO的首个自研芯片刮目相看。

没有办法的办法——自研多款IP

此次发布,姜波只透露了MariSilicon X中的三个IP,分别是MariNeuro、MariLumi以及MIPI PHY。
 
其中MariNeuro AI计算单元是OPPO自行开发的NPU,姜波也坦言,如今很多IP供应商可以直接提供NPU,但通过评估,“没有一个NPU可以根据OPPO的场景和算法,达到最优的能效比”。
 


MariNeuro的诞生,可以使OPPO具有训练优化的底层能力,从而达到最佳用户拍照体验。并且目前CV/AI算法仍在不断迭代,选择自研NPU便可以更好地掌握主动性。
 
“只有通过影像专用NPU,才能解决目前ISP和通用SoC的算力不足和能效难题,这是未来影像发展的主流方向。”姜波总结道。
 
此外,为了解决内存墙问题,OPPO也专门为MariNeuro开发了片上内存子系统,达到万亿比特/秒(Tb/s)级的传输速率。而除了片上存储之外,MariSilicon X还合封了256Mb的LPDDR4X作为独立DDR带宽,从而提升系统整体的内存吞吐率。
 
MariLumi则是OPPO自研的ISP Pipeline IP。与NPU配合,实现真正的实时计算影像。
 
除了以上两个重要IP之外,OPPO还自研了诸多其他IP,比如MIPI接口等。姜波解释道,自行开发的根源是OPPO采用了RGBW的传感器,需要用到两路RAW Pipeline,因此对MIPI总线的峰值吞吐量有较高要求,而OPPO无法在市场上找到对标的IP,因此只得选择自行开发。
 
姜波强调,所有IP都自行开发显然不现实,OPPO也有选择商用IP的大原则,就是需要满足极致体验,比如上述提到的三款产品,第三方IP无法达到要求,才会自行开发解决。

追求极致化——选择台积电6nm EVU工艺


MariSilicon X采用了台积电6nm工艺,对此姜波也承认,相比6nm而言,12nm的研发周期、IP可获取性以及流片验证会更加友好。但是OPPO通过仿真评估,认为只有6nm可以同时满足性能及功耗上的要求。
 


正是在MariSilicon X立项之前的2019年,台积电宣布推出EUV技术的N6(6nm)制造工艺,与采用DUV的N7(7nm)相比,N6提高了18%的逻辑密度,性能和功耗不变,并且使用相同的设计规则,使得从IP到工具等生态系统可以继续沿用。而根据台积电的近期公告,其计划在 2021 年第四季度用 6nm 取代 48-50% 的 7nm产能,显然直接立项在6nm,可以实现更快的商业化。
 
目前采用最先进制程的芯片企业几乎都是SoC或CPU等,MariSilicon X不计成本地选择了6nm技术,也使其成为手机中仅次于SoC的选择EUV技术的芯片。
 
根据姜波的介绍,目前OPPO拥有完整的芯片开发团队,包括设计、验证、后端集成等。也正是因为全流程都在自己掌控中,使得OPPO首个先进制程的芯片取得了一次流片成功的成绩,并且夸张到“没有任何小的修改或Debug”。
 
整个开发过程非常紧凑,尤其是考虑到OPPO还自研了多款IP的情况下,并没有流片测试验证的时间。况且移动应用有功耗的约束,再加上先进的制程工艺,一次成功离不开团队所有人的经验和努力,甚至还有一点点的运气。在姜波看来,从立项到点亮的整个过程,简直是“走了两年的钢丝”。

MariSilicon X的四大特色解析


有了IP,有了先进的EUV代工,有了全流程的设计人才,那么MariSilicon X究竟实现了那些突破?姜波给出了四个方向。
 

极致能耗比

借助MariNeuro NPU,MariSilicon X实现了18 TOPS的算力以及11.6 TOPS/W的算力功耗比。18 TOPS的算力相比iPhone的A15增加了20%,但这不是重点。正如姜波所说,手机NPU设计的难点不在算力,而是在效率上。更重要的是能效评估不是执行通用的神经网络算法,而是执行真正应用场景下的算法,只有真实数值才最有参考价值。


对此姜波给出了实际数值,比如在FindX3 Pro中,使用了骁龙888处理器,在运行OPPO AI降噪算法只能实现2 fps的处理速度,这意味着无法支持AI降噪的视频拍摄,并且功耗高达1.7W。而在MariNeuro NPU上,可以在800mW的功耗约束下实现40 fps的4K AI降噪视频拍摄。
 
行业领先的HDR

借助于MariLumi ISP Pipeline IP,实现了20bit带宽、120dB动态范围的图像处理能力,可以实现更好的HDR。就在数天前,高通和联发科陆续宣布了旗舰SoC,都是采用了18bit的ISP,更高的带宽意味着更高的数据吞吐率、更多的色彩信息以及更好的动态范围。


通过简单计算,20-bit的ISP可以实现1,048,576个亮度范围,而18-bit只能实现262,114个。也正是如此,MariLumi可以实现4倍于现有旗舰SoC的动态范围。实测结果也显示,MariSilicon X在4k场景下,亮部是在8dB,暗部为12dB,也就是说图像暗部的信噪比可以实现4倍的有效提升。
 
20bit RAW实时计算

除了此前提到的4倍于现有旗舰SoC的HDR之外,MariSilicon X的强大性能可确保芯片具有实时RAW域的降噪、HDR等处理能力,相比传统SoC基于YUV域的处理,可以更好地保存照片或视频的原始信息,实现真正所见即所得的体验。


与定制RGBW传感器紧耦合

RGBW技术并不是新技术,早期的技术实践简单理解就是将其中一个G(绿光)替换为W(白光),虽然提升了感光度但是由于信号串扰、猜色算法准确性等限制,会出现偏色情况。

 
不久前OPPO曾与SONY合作,将自研四合一像素聚合等一系列算法直接写入传感器硬件,通过新型的定制化像素排列方案保证猜色精确度和成像质量。如今,借助MariSilicon X,可实现传感器的进一步耦合,从而最大化传感器的能力。正如姜波此前表述,两路的RAW Pipeline其中一路处理RGGB,另外一路则专门负责处理白光通道。通过两路并行处理,使得成像信噪比提升了8.6dB。同时,针对纹理细节处理,Pipeline则通过超采样方式,提升了70%的解析力。

计算影像的未来十年

作为引领未来十年计算影像市场的开山之作,MariSilicon X被寄予了厚望。姜波表示,目前计算影像市场的很多算法还未成熟,因此OPPO才会开发出专用的影像NPU去探索这一市场。毕竟手机受制于外形、尺寸等限制,传感器不能无限增大,如果继续提升影像品质的话,通过提升计算影像的算力是必经之路。

从结果来看,针对视频的实时处理场景,借助MariSilicon X,OPPO可以同时实现4K+20bit RAW+AI+Ultra HDR规格夜景视频,已然打破了手机计算影像算力的新极限。

珠穆朗玛是大家看得见的巅峰,而马里亚纳作为全球最深的海沟,代表的则是隐藏更深的无人区,“马里亚纳计划”亦是如此。

一切为提升用户体验的支撑,都来源于OPPO对无人区的不断探索。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多