分享

光机电算:第三代移动影像架构浮现,华为们将带来什么?

 海洋微波 2022-12-01 发布于广东

技术观察:传感-计算-智能-光学机构等影像技术将出现全链突破深度重构,“移动智眼”看见未来

基本可以肯定,明年有希望是移动影像大年,此后几年也有得看。

此前一种声音一直比较大:智能手机影像能力已到极限,CMOS尺寸已是天花板,机身厚度和重量也不允许在镜头模组、多摄方面再大做文章,数千万甚至过亿像素已经足够,拍照和视频方面已经没有多大提升空间……如同此前智能手机将会被边缘化的论调,似乎由科技与产业市场,消费业态相互催化的这场创新变革,已经进入终局。

也不能赖用户期望值太高,很多希望智能手机能像前几年IMX700、10倍光学变焦潜望镜那样猛料接二连三的影像极客用户,2021、2022年的大部分时间里和手机厂商一起经历了一段时间的“稳定期”。

不过,暗流涌动的新一轮创新周期正在到来。驱动智能手机浪潮的“计算智能x感智网络x移动影像”三位一体引擎,每个部分都在起变化,并且交融催化。超乎此前认知和经验的技术演进、产品创新和生态变革过程,将在未来发生。

智能手机的数智人助理、数智家庭管理的场景和地位进一步走向清晰。感知现实是个人生活、娱乐、商务数智化的重要基础,感知现实也在成为物理现实、增强现实、虚拟现实的重要基础。而在感知现实的诸多维度当中,第三代移动影像的浮现尤其值得关注。

2000-2006年是移动影像的初始探索阶段,从十多万像素的原始状态开始,手机走过了一个摄像头从无到有的过程;2007-2015是智能手机出现之后的第一代移动影像阶段,以单摄像头单点突破为主要发展特征;2016-2021是第二代移动影像阶段,双摄、多摄与计算摄影是这个阶段的主要特征;2022年开始浮现的第三代移动影像,将从光机电算四个方面全链突破、整体重构,手机影像能力的持续提升将在拍照、视频方面给用户带来更多惊喜的体验,同时也将在感知现实方面成为数智人看见未来的“移动智眼”

因为业余爱好摄影,同时又从事IT工作,所以过去20多年我始终作为深度用户,从兴趣和专业两个角度关注移动影像、智能手机的发展生态,持续深度体验和观察移动影像在传感器、数据处理、图像引擎等影像技术的每一次创新。尤其对2008年以来引领移动影像不断取得体系性突破的Google、苹果、华为、三星这四家巨头,都进行了持续跟踪。其中,对最激进同时影像体验也比较极致的华为旗舰手机一个都没有错过。P9首创彩色黑白双镜头、P10的深度ISP与莱卡人像、Mate 10引入AI首创NPU、P20 Pro的超感光三摄和夜景模式、P 30 Pro的RYYB大底高采光量传感器和潜望长焦还有iso409600的高感、P 40 Pro+的10倍光学变焦和100倍融合变焦、Mate 40 Pro的曲面镜头、P50 Pro的10色彩通道……2016年以来的每一年、每一款体验到的都是移动影像的全新高度。

而2022年是具有特殊意义的一年,一方面由于供应链问题,华为手机继续处于稳中求变的状态,另一方面,Mate 50系列在影像方面却开始进行前所未有的全链突破。个人试机过后的判断是,光、机、电、算四个维度的全面重构,力度甚至是移动影像过去十多年以来没有过的,这是第三代移动影像的开始。虽然在Mate 50系列上还不能看到全部的可能性,但是系统创新和技术演进的种种迹象表明,从里到外的系统突破阶段已经开始了。

以终为始,从第一性原理来看移动影像的第三代进化,我们会发现:

1.光:对光的深度理解、融合运用、智能控制,将使得移动影像在构建全焦段光学系统的同时,具有全场景感知能力

——进光量的大幅度增加,是向光学系统要移动影像素质的首要关键,这方面既有挖掘存量的潜力,也有以创新来创造增量的可能。实现比目前业界最大F1.4更大的光圈,实现物理光圈的增大而不仅仅是电子光圈的增大,是光学挖潜思维。光学系统某些部分重新设计,将更多光线引向光圈、镜片组、CMOS图像传感器,是拓新思维。相比微单、单反,智能手机影像模组进光量有数倍的提升空间。相比CMOS感光素质、采光量,其实目前进光量是短板,系统并不均衡。

——对动态范围、弱光画质、画面真切感(消除数码感)的提升贡献最大的,必然首先是进光量。进光量如果能够有成倍增加,对于纯粹依靠算力进行像素对齐、实时堆栈、多帧合成来提高动态范围和清晰度的图像引擎来说,也有助于为系统减负,将更多算力投入到对高帧率、高动态范围、高色域更有贡献同时也更体现第三代移动影像具有代际突破特征的方面。

——镜头口径必然增大的同时,镜头解析力、畸变控制、鬼影消除、色散控制、边角画质劣化控制等光学素质的提升,使得移动影像向专业光学素质靠拢。镀膜、曲面透镜等工艺之外,更多需要向新材料、新的结构设计要增益,计算光学也能追偿一部分光路折射过程中的光线信息的损失。

——10色彩通道是新起点但不是终点,多光谱传感器结合多摄,手机最终实际拥有的色彩通道能力接近全通道。除此之外,第三代移动影像在色温、色准、色域方面将会有质的提升。

——可见光之外,红外、紫外为个人用户创造有趣的功能新体验,也为智能手机进一步进入感知现实的专业使用场景创造可能,光谱里的不可见和可见光一样,是以感知现实来支撑增强现实、虚拟现实的基础。

2.机:影像模块的机构、机电结构部分,不仅面临极限挑战、深度重构,也将是第三代移动影像最为抽象,但是给用户实感带来最多增益的部分之一。

——变焦系统首当其冲,从“固定光学变焦+数码变焦”的混合变焦模式向“固定光学变焦+连续光学变焦+数码变焦”的连续变焦模式转变,连续光学变焦不仅覆盖中长焦,未来也会覆盖广角主摄、超广角。

——追求连续光学变焦与计算摄影的发展主轴不仅不矛盾,而且是对计算摄影的深度推进;连续光学变焦不仅是最能够提升画面素质的光学部分,也是与光圈、快门、ISO等组合的基础上,最能够创造千变万化的拍摄可能的影像魅力部分。

——单次折射、多次折射的潜望镜结构,继续向长焦端拓展,尤其向10-20倍(200mm-400mm)以上光学变焦区间深度拓展,这方面不会太激进,但是追求连续光学变焦、更大的光圈、适配尺寸更大的CMOS以及降低模组重量和成本是趋势,辅助变焦机电马达、微距乃至全焦段连续对焦机构是拓新难点。

——液态镜头等创新的连续变焦镜头需要经历提升、夯实、再提升、再夯实的渐进发展过程,目前还处在需要对光学变焦和影像素质进行平衡取舍的技术导入期,但未来可期。

——旋转镜头个人一直看好,就是不同焦段的多个镜头组成转盘,每一个都可以对应到最高素质的主摄大底,这既是扩大焦段范围的一个办法,也是提高影像素质的一个策略。缺点是精密机构制造、防尘防水等方面短期内难以克服,尤其10倍以上长焦镜头组目前难以适配。

——光学防抖、微云台等,也是“机”的重要方面,配合电子防抖,增稳程度达到大部分情况下不需要稳定器就可以丝滑拍摄的程度,完全可期。

——手机越来越成为中心设备、核心智能终端的情况下,手机周边、外设开始向丰富的扩展生态发展,“手机+”概念之下的镜头、打印、存储、传感等各类扩展机件的开发,必然成为市场热点。

3.电:CMOS图像传感器尺寸会稳定在一英寸左右的大底数年时间,但是方寸之间,多个角度多种技术会有跨代提升,第三代移动影像在“电”方面的进化,以下8点是关键。

——采光量(不是前文光学部分所说进光量)会有较大提升空间,这方面贡献将首先来自于阱深阱容提高。无论是RGGB还是RYYB,无论是四合一还是十多个像素合一的像素结构,每个像素的每个色彩滤镜下面都是一个光阱。光阱和光阱之间是防止串扰的“围墙”。CMOS所需要的半导体制程并不像CPU那样对5nm、3nm之类的精度有很高要求,CMOS的主要诉求反倒首先在于“深度”。深度决定了单次曝光能够采集到的光子数量。手机CMOS设计与制造工艺,在增加阱深阱容方面有相当空间,对此乐观。

——增加采光量的另一个策略是单像素感光面积,在CMOS尺寸稳定在一英寸左右,四合一像素结构稳定在4800-5000万像素左右的情况下,单像素感光面积不可能有大的增加,不过这是平面思维。Foven X3曾经探索过将平面排列的RGGB滤镜与感光结构改为上下排列的三层结构,每个像素都能感知到三种色彩信息,色彩、细节更为准确,也相当于增大了单像素感光面积。但是上下结构带来的光线通过性地下降,以及工艺局限带来的光学衰减,使得弱光高感能力严重下降。这种三层结构因此未能发展起来,不过不排除假以时日,技术、工艺、材料改进,能够改善甚至解决这些问题。尤其在寸土寸金的移动影像领域,至少作为一种可能性不能完全排除。

——光电转换效率以及光电转换过程中的读出方式,也具有“增加”采光量的可能,比如个别厂商曾经采取一次拍摄多段曝光,多次读取的方式,读取、清零、再读取、累加,产生更具深度的光电信息,也相当于增加了光阱的光子容量。

——过去CMOS的背照式、堆栈式进化,通过将电路移至下方、背后,主要解决的也是单像素感光面积和读出速度。但即使背照+堆栈的结构,也只是最高利用到了60%的CMOS面积,也就是说至少还有40%的面积并没有被光阱利用到,CMOS实际采光面积方面还有潜力

——计算摄影的看家宝,最直截了当的方式,就是基于多次深浅不同的曝光来实时堆栈、多帧合成、动态HDR。无论对于单像素光线信息趋于准确,还是对于画面整体动态范围和色彩还原,都具有强有力的提升效果。这也是手机拍照在有些场景下(尤其动态范围)观感超过微单、单反的原因。现在不仅拍照,视频拍摄也开始逐步进行更多帧的合成,比如拍摄出来的每秒30帧,实际上是CMOS进行60次或者90次曝光后,图像引擎进行“计算摄影”的结果。

——CMOS内涵式跨代进化的另一个关键指标是CMOS原生的高帧率拍摄能力,与此相应的是全局快门、读出速度、DRAM堆栈结构和算力。算力后面单独分析,从帧率来说目前已经从120fps-240fps向480fps-960fps这个区间在推进。个人认为,对于用户实际需要主要是30fps以及60fps、120fps的升格视频拍摄来说,CMOS最高原生帧率480fps左右足矣,而拍摄照片的话120fps对于计算摄影来说已经完全够用。从画质提升的角度来说,4K下的4帧合成一帧,远比720p或者1080p下8帧合成一帧的价值要大。所以厂商的重点应该放在向4K分辨率下30fps-120fps这个区间的动态范围等关键画质指标的提升上。

——在高帧率的基础上,一个画面下不同强度多次曝光的HDR或DGO能力,价值肯定大于同等强度的多次曝光,不过这方面未来还有一个选择,就是CMOS原生具有单次曝光,其实也是两个或者多个参数的曝光进行混合的结果。类似DGO技术将来引入手机CMOS也不是不可能,另外一个有可能引入的技术是双ISO双增益,对于视频高感画质的提升作用较大。

——CMOS双原生iso甚至三原生iso,有助于提高iso 800至iso 25600最常用到的感光区间的画面纯净度、动态范围;噪声水平尤其彩噪的显著下降主要有赖于CMOS原生的高感能力,而双原生iso甚至三原生iso不仅是对计算摄影的算力减负,更是大幅度提升视频画质的有效方案。弱光环境拍摄的暗部细节和明暗层次因此更为丰富,有效减除因为不得不大幅度自动降噪导致的画面涂抹感。

——ToF(Time of flight,飞行时间)作为“电”的重要方面,并非微不足道,未来不仅不会边缘化,还将“深度进化”,与多传感器立体融合发展。其深度感知能力,和CMOS的单目、多目计算机视觉能力融合,是智能手机实现感知现实、拥有“移动智眼”的关键。Tesla自动驾驶已经完全走向以CMOS图像传感为基础的计算机视觉,手机成为个人随时随地的物理现实、增强现实、虚拟现实的计算机视觉中心,在商务、娱乐、旅行、购物、安全等场景发挥作用,就在第三代移动影像最如火如荼的发展阶段。

4.算:智能手机是每个数智人的核心算力枢纽,算力驱动感知现实,第三代移动影像的算力架构将可能是多元异构的融合算力架构。

——CPU、NPU、DSP、GPU或者AI Chips,无论叫什么,未来移动影像的计算架构大概率是专用+通用、多源异构的融合架构。也就是尽管CPU不断提速且具有多种内核,但是移动影像高画质视频拍摄和其它感知现实功能对算力和实时的要求,意味着专门的影像引擎、高效的专用芯片也是必要的组成部分。对于影像和感知现实所需的AI计算,专用架构尤其高效。越是高端的旗舰机,越可能继续深度进化影像专用ISP/DSP/NPU等,向多源异构发展。

——目前手机算力在10 Tops-30Tops之间,第三代移动影像将推动手机算力走向50Tops,未来甚至有望越过100Tops这个临界点。对于拍照来说,10 Tops的算力已经足够,比较吃算力和存储的是视频和现实感知。手机不仅谈不上算力过剩,未来仍有很大算力增长空间。未来算力增长不仅来源于先进制程,也来源于芯片架构、计算架构、专用计算的变化。

——图像引擎是整合利用所有算力、传感、算法的集大成者。图像引擎的迭代是观察未来移动影像发展方向的关键,也是观察手机感知现实能力的塑造方向的关键。个人认为图像引擎未来的发展,这6点可能是关键:多元异构的交汇能力、融合传感、AI效率、计算光学、光场复现、智能交互能力。

——基于智能识别的精准对焦、实时跟焦,是第三代移动影像条件下,图像引擎为用户提供的具有最强烈实际感受的拍摄能力,影像系统不是仅仅依赖PDAF相位对焦等CMOS原生对焦能力,视频拍摄尤其视频快速跟焦变得容易。

——从跳采到超采。过去以来用户观感手机视频画质不如拍照,主要原因一是高规格视频持续拍摄CMOS会显著发热,二是算力、图像引擎处理能力和存储跟不上。但是即使微单拍摄视频画质也是低于拍照,这其中的原因就是重点了——在视频模式下,为了降低数据处理、存储和CMOS本身负荷,图像信息的读取其实是跳采而不是超采样,也就是只会采用一部分光阱、像素所采集到信息,甚至会隔行采样,也就是CMOS至少一半的像素其实并没有被用到。四合一像素结构下,一个像素还是四个像素的信息都读取也是悬疑。除了像素跳采,光线/色彩信息也会有从4:4:4降格到4:2:0、从10bit降格到8bit之类的降采操作。

所以画质尤其是视频画质,其实和算力也有较大关系。用户的影像期待值不断增高,算力也不断增强而数据存储和传输成本不断降低的情况下,提高跳采规格、逐步走向超采也就必然而然了。

——基于算力等方面提高,第三代移动影像在视频画质方面能实现的典型指标,个人认为会是:初期,像素四合一、2~6帧合1帧、智能跟焦,画质较高的4K 30fps 10bit 4:2:2、4K 60fps 8bit 4:2:0;中期,4K 30fps 12bit 4:2:2、4K 120fps 10bit 4:2:2;远期实现8K 30fps 10bit 4:2:2,尽管8K 30fps在手机端早已有之,但是超采样的10bit 4:2:2业界还需要再努力一段时间。

——像素合理区间:像素过亿对于多合一下的一千多万像素的画质有意义,对于用户视频与拍照需求来说绝大部分场景下意义不大,用户需求主要还是集中在照片1200万像素以内、视频4K这个区间。四合一前稳定在4800-5000万像素左右,四合一后可用像素1000万-1200万,照片与4K视频兼顾,不四合一的情况下视频上探到8K,是一个从光学原理、机电机构、传感效率、计算引擎来说都可进可退的黄金区间,诸多要素的最佳结合部。对于手机、电脑、电视等设备的显示屏来说,至少三五年内也是如此。

——视频编码格式及相关标准需要突破,这方面的代际演进势在必然。基于H.264、H.265、ProRes这些基础格式,以及创新构建的更为高效的视频编码与封装格式,将给移动视频带来三个方面变化,一是提升视频在存储、传输方面效率,二是确保视频画质的进一步提高成为可能,三是增强视频的可用性、可玩性、可编辑性。Red等关于视频无损压缩机内录Raw的专利壁垒也将被打破。围绕3D、VR、AR的视频编解码技术尤其是突破重点。

——多设备协同,跨机跨屏跨应用体验,以及各类视频应用场景包括直播、远程、3D/AR/VR等,需要手机有更好的智能支持,这也是“算”这个层面要考虑的,算不仅仅是计算、算力、算法,而是基于传感、数据、智能的几乎所有需要用到“移动智眼”的场景的系统构建。

对移动影像来说,2022年是开启未来的一年。“光机电算”架构及其所要进行的全链突破,对于智能手机、对于移动影像,意义都颇为重大。“光机电算”全链突破,是第三代移动影像的架构特征。华为再一次发起的这项高难度挑战,将从“光机电算”角度对第三代移动影像领域产生具有先导意义的引领作用。如果对第三代移动影像的架构和实质做初步提炼,可能是这些以“三”为基础的关键字:“三高”、“三低”、“三超”、“三全”、“三跨”

“三高”:高动态范围、高宽容度、高感光度。高动态范围尤其对于视频而言,是关键指标。

“三低”:低延迟、低功耗、低码率;低码率只是相对而言,实际上在编码封装更高分辨率和更深度的色彩信息的情况下,码率还是比之前要高。

“三超”:超采样、超高读取速度与帧率、超高清分辨率。

“三跨”:跨屏、跨网、跨应用。

“三全”:全焦段、全时段、全场景。

第三代移动影像在上述方面的具体技术指标可能会达到什么程度?其实前面已经逐一分析。未来几年能够引领移动影像发展的,一定既是最激进、最舍得堆料的,又是最能够全面突破、创新重构整个移动影像系统的。移动影像竞争不再只是一招鲜,竞争关键在于内在提升、内涵进化。无论拍照、视频还是感知现实,移动影像给到用户的感受都将既熟悉,又意外。

Google计算摄影的软与专,苹果融合影像的均衡与稳,三星软硬结合的分辨率极端,华为光机电算的影像系统激进突破与深度进化,第三代移动影像必将好戏连连。四个主角当中,我当然更喜欢既激进又扎实的华为,尤其在“华为能否回来”的巨大悬念下。而这四个主角的四种风格和打法,你更看好哪一种?

文章图片1

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多