分享

中金 | 机器视觉:AI赋能,拥抱机器智能化时代

 AndLib 2023-09-18

图片

中金研究

SAM大模型开源,模型优势明显。今年,Meta AI发布基础模型Segment Anything Model(SAM)及其训练数据集SA-1B,并在GitHub上开源,推动了机器视觉通用基础大模型的研究与应用。SAM大模型用GPT的方式让计算机具备理解图像中个体对象,对图像进行观察、思考和逻辑推理的能力,主要用于对图像或视频中物体的识别和分割,具备处理大规模数据、准确率和性能高等优点。

我们在此前报告中深度分析了机器视觉行业的产业链和市场格局,本篇将探讨人工智能浪潮下,机器视觉技术和应用层面的发展趋势。

图片
图片

点击小程序查看报告原文

Abstract

摘要

智能制造转型时代,下游应用升级推动软件算法迭代。随着我国制造业向精细化、数字化、智能化方向升级,机器视觉渗透率逐步提升,视觉系统在精密组装和精密检测中已经得到有效验证。但随着下游消费电子、半导体、汽车等行业对机器视觉的技术和检测精度提出更高要求,传统软件算法存在数据样本不足、实时性较低以及算法泛化不足等问题,导致应用场景进一步拓展受限,人工智能对机器视觉加持的影响作用逐渐加深。

AI大模型快速发展,打开机器视觉增量空间。3D视觉技术和深度学习算法快速发展,利用大量工业数据、AI算法优化图像检测模型,提高机器视觉向许多无规则、易混淆、复杂度高等非标准化场景的扩展能力。此次SAM开源,实现零样本和少样本学习能力,突破了机器视觉的底层技术,扩展包括物体表面区域分割、外观缺陷检测等应用空间。随着大模型进一步向多模态发展,我们认为图像处理门槛将进一步降低,提升机器视觉产品性能优势,助力其渗透到更多应用场景之中,为机器视觉在工业智能化应用带来新机遇。 

AI+机器视觉,智能制造有望多场景落地。1)自动驾驶领域,人工智能支持驾驶自动化进入下半场,推动自动驾驶规模与视觉方案的发展;2)人形机器人领域,AI底层算法运用海量数据信息训练神经网络,优化复杂数据信息的接收与分析,提升信息识别和定位精准度;3)工业自动化领域,顺应工业4.0的进程,在工业中提升生产效率,减少人工成本,一方面代替劳动力完成包括焊接、打包、组装等繁复工作,另一方面扩大精度较高应用领域的渗透程度,带动Al工业视觉的市场规模。

风险

AI算力需求不及预期,下游应用落地不及预期,行业竞争加剧。

Text

正文

技术层面:AI赋能机器视觉算法迭代

机器视觉:工业之“眼”,助力工业制造。根据美国自动成像协会(AIA)的定义,机器视觉(Machine Vision)是一种应用于工业和非工业领域的硬件和软件组合,它基于捕获并处理的图像为设备执行其功能提供操作指导。机器视觉行业分析参考报告《“大国重器”系列 02:工业之“眼”,如日方升》。随着智能制造和数字经济的发展,“AI+视觉”的需求持续扩大,我们认为AI技术的发展有利于加速推动机器视觉应用,助力工业自动化。

图表1:典型的机器视觉系统

图片

资料来源:中国机器视觉发展白皮书,奥普特招股说明书,中金公司研究部

传感端:机器视觉加速从2D走向3D,3D视觉前景广阔

3D视觉建立在2D基础上,具备更高的计算要求。2D视觉起步较早,技术相对成熟,目前在自动化领域和产品质量控制过程中应用广泛。3D机器视觉技术相对于2D技术提供了更丰富的被摄目标信息,可以在六个自由度(x、y、z、旋转、俯仰、横摆)上定位被摄目标,打破2D视觉技术存在的光源变化、物体表面信息对比依赖度高以及多重信息检测复杂度较高的问题,具备高精准、高稳定性等优势。目前,3D重构的常用技术类型分位被动感知和主动感知,适用于不同的应用场景。

被动3D视觉技术:包括单目3D、双目3D和多目3D,先识别目标,根据目标再图中的大小或者被动光判断距离和深度信息。

主动3D视觉技术:包括激光3D 扫描技术、结构光3D技术、TOF相机技术等,通过相位偏移等间接方式或者光飞行时间直接获取深度信息。

图表2:3D视觉可以在六个自由度上定位

图片

资料来源:Cognex,中金公司研究部

图表3:3D成像技术对比

图片

资料来源:钛媒体,中金公司研究部

3D机器视觉覆盖场景广,2D+3D或成最佳方案。在实际应用中,在测量物体相对尺寸上,2D视觉完全可以胜任,3D则能够测算物体的绝对几何尺寸;在工业自动化中,若能够保证目标物体的有序平铺,2D视觉通常能够做得高效且经济,但如果目标物体是无序的,则需要3D视觉的加持。我们认为,3D机器视觉技术与2D机器视觉技术,两者在不同的使用场景下有各自的优势,并非完全取代的关系。

图表4:3D机器视觉在工业制造中的应用

图片

资料来源:地标科技,中金公司研究部

2D视觉占据主要市场份额,3D技术未来发展空间较大。随着5G和AI等技术的发展,行业应用需求不断提高,3D视觉市场进入快速增长。根据Market and Markets数据显示,2022年中国机器视觉市场规模约168.88亿元(不包含自动化集成设备规模),同比增长22.4%。其中,2D视觉市场规模约为151.13亿元,同比增长19.3%,3D视觉市场约为17.75亿元,同比增长54.2%。Market and Markets预测,至2025年我国机器视觉市场规模将超过349亿元,其中,2D视觉市场规模将超过291亿元,3D视觉市场规模将接近58亿元,2020年至2025年3D视觉复合增长率将达到58.9%。

图表5:2015-2025年全球机器视觉市场规模及预测

图片

资料来源:Markets and Markets,中金公司研究部

图表6:2016-2025年中国机器视觉市场规模及预测

图片

资料来源:Markets and Markets,中金公司研究部

算法端:深度学习提升机器视觉通用性

深度学习有望融入机器视觉算法,驱动产业加速发展。目前的机器视觉技术主要采用传统方式,需要首先将数据表示为一组特征,然后对特征进行分析,或输入到预测模型,并输出预测结果,但传统机器视觉技术存在缺陷类型复杂化、不易复制、对使用人员要求高等局限,通用性有待提高。深度学习将原始的数据特征转换为更高层次、更抽象的特征表示,理想状态下,可以将机器视觉的效率和鲁棒性与人类视觉的灵活性结合,从而完成复杂环境下的检测,特别是涉及偏差和事先未能预测缺陷的情形,实现少样本、无监督学习。

图表7:传统机器视觉VS深度学习

图片

资料来源:MVTec,中金公司研究部

深度学习技术应用前景广阔,技术难题尚待解决。据奥普特招股说明书,由于深度学习模型的建立,基于大规模的训练数据,需要全新的硬件、算法、系统设计来加速模型的训练。随着低功耗、高性能的可编程可配置型FPGA芯片、 定制化ASIC芯片等AI芯片的出现,深度学习模型的建立和应用成为可能。深度学习可以帮助机器视觉工程师在图像分类、语义分割、目标检测和同步定位与地图构建(SLAM)等任务上获得更高的准确率。

图表8:深度学习能解决传统视觉无法解决的难题

图片

资料来源:康耐视,机器之心,中金公司研究部

图表9:深度学习使棘手应用的解决变得更简单

图片

资料来源:康耐视,机器之心,中金公司研究部

基于深度学习的机器视觉走向市场,赋能作用逐渐凸显。各大机器视觉处理分析软件厂商纷纷投入资源进行深度学习模型的开发和应用 ,例如康耐视分别在2017和2019年收购两家深度学习软件公司 ——ViDi Systems和SUALAB,增强自身在该领域的实力。我们认为,深度学习有望利用大量工业数据、AI算法持续优化图像检测模型,同时,提高机器视觉的可扩展性,加强在无规则、易混淆、复杂度高等应用场景下的可靠性,尤其是在缺陷检验应用中可以提高及时检测及次品剔除的效率,实现对质量和成本的双重控制。

图表10:部门机器视觉公司深度学习软件

图片

资料来源:各公司官网,中金公司研究部

大模型:机器视觉+大模型助力降本增效

用工成本日益加剧,机器视觉+大模型助力降本增效。但随着国内就业人口数量增长放缓、老年人口占比上升,中国人口结构老龄化趋势明显,我们认为劳动力供给的紧张局面将持续甚至加剧。国家统计局数据显示,规模以上企业就业人员年平均工资从2018年的68380元/年到2022年的92492元/年。企业降本增效诉求是机器视觉行业规模扩大的重要推动力,因此近年来制造企业不断加大在自动化、智能化方面的投入,扩展自动化和智能化的深度,这增加了对机器视觉产品的需求,也发展出机器视觉产品和大模型结合的新趋势。

图表11:2018-2022年规模以上企业就业人员平均工资

图片

资料来源:国家统计局,中金公司研究部

图表12:2015-2022年我国劳动力参与率

图片

注:15岁及以上的比例
资料来源:iFinD,中金公司研究部

大模型发展迅猛,厂商竞争激烈。2023年年初国内科技龙头争相进入国产大模型赛道。目前,国内已有百度、阿里巴巴、腾讯、华为等公司对 AI 大模型进行开发,各模型系列主要的NLP语言大模型、CV大模型、多模态大模型也已推出并实现部分应用落地。其中,腾讯混元大模型中的CV大模型(HunYuan-VCR)在VCR榜中排名第一;盘古大模型主要由五个模型组成,最领先的是CV(机器视觉),这是超过30亿参数的业界最大CV大模型,首次实现模型按需抽取,首次实现兼顾判别与生成能力,主要服务于B端客户,应用包括矿山、药物分子、电力、气象、海浪等盘古行业大模型。

图表13:大模型厂商布局趋势

图片

资料来源:天翼智库,中金公司研究部

图表14:大模型基础架构

图片

资料来源:天翼智库,中金公司研究部

Meta SAM,大模型在MV领域的延伸。2023年4月5日,Meta宣布推出SAM大模型(Segment anything model),是AI大模型在机器视觉领域的延伸,堪称MV领域的GPT,旨在构建一个图像分割场景下的基础大模型,能够根据文本指令等方式实现图像分割,并且万物皆可识别和一键抠图。

SAM处理任务多元化,提高机器视觉识别、定位效率。SAM 大模型由三个部分构成,分别是任务(使用者通过点、框、涂等方式提示大模型分割的对象)、模型(根据输入的提示与图片输出带掩码的图像)、数据(大模型输出的带掩码图片进一步扩充模型训练的语料库)。由于SAM输出的带掩码图片亦能用作训练语料,因此SAM的数据集规模较此前CV开源数据集都要更大。据Meta,SAM数据集中图片数量超过1千万张、掩码数量超过10亿个,分别是OpenImage V5的6倍和400倍。基于这些训练数据,SAM 在图像分割、对象识别等方面有较好的性能,能够在视频目标跟踪、图像编辑、2D 转 3D、创意绘图等应用中发挥优势。

图表15:Meta SAM大模型由三个部分组成

图片

资料来源:Meta《Segment anything》(2023年),中金公司研究部

图表16:在BSDS500上的零样本边缘预测及结果

图片

资料来源:Meta《Segment anything》(2023年),中金公司研究部

图表17:由SAM从一个模糊点提示生成的有效掩码

图片

资料来源:Meta《Segment anything》(2023年),中金公司研究部

大模型应用场景局限性尚在,小模型在精细化任务上赋能机器视觉。大模型往往注重识别被测物体的大致特征,而弱于甄别被测物体上的裂痕、损坏、污染、划痕等细节特征,从而在测量、检测等精细化要求较高的任务中表现欠佳。缺陷本身发生频次较低,很难形成大规模语料用来训练大模型;而机器视觉厂商在缺陷案例方面积累深厚,长期专注于 AI 缺陷检测算法的开发,性能已经得到真实生产场景的验证。我们认为,在测量、检测等任务中,单靠大模型尚不足以提升整体工作效率,大模型与厂商小模型相结合或才能实现更为准确的缺陷检测。

图表18:SAM大模型在工业缺陷检测任务中表现欠佳

图片

资料来源:Ji, G., Fan, D., Xu, P., Cheng, M., Zhou, B., & Gool, L.V. (2023). SAM Struggles in Concealed Scenes - Empirical Study on 'Segment Anything'.,中金公司研究部

应用层面:AI助力机器视觉现代化应用

自动驾驶:传感器技术不断发展,自动驾驶市场扩张进入下半场

乘用车由L2向L3过渡,自动驾驶进入下半场。自动驾驶是指能够协助驾驶员转向和保持在道路内行驶,实现跟车、制动和变道等一系列操作的辅助驾驶系统,涉及到的技术主要包括传感器、高精度地图、V2X、AI算法等。根据国际汽车工程学会(SAE),自动驾驶可据自动化程度分为6个等级,L3是重要分水岭。其中,L1-L3主要运用高级驾驶辅助系统(ADAS)根据传感器感知到的周围环境信息进行一定的决策规划,提醒或代替驾驶员进行一部分操控,从L3开始,驾驶操作和周边监控都是由系统自动完成,无需驾驶员操作,实现高程度的自动驾驶。根据共研产业研究院,2022年,我国在售新车L2和L3的渗透率分别为35%和9%,预计在2023年将达到51%和20%,自动驾驶将进一步落地。

图表19:自动驾驶分级标准

图片

资料来源:SAE,工信部,中金公司研究部

感知系统是自动驾驶的基础和前提,传感器是感知系统的核心技术。自动驾驶包含感知系统、决策系统和控制执行系统三大系统,感知系统在整个应用链中的位置为前端接收,分为3D目标检测为主的感知任务、激光雷达和摄像头,是车辆电子控制系统的信息来源。各项感知任务用于检测道路上的各类信息,激光雷达用于生成车辆周边情况实际的三位感知,摄像头能够识别并处理带有色彩或纹理的信息。

图表20:感知系统和传感器的核心作用

图片

资料来源:COGNEX,中金公司研究部

当前在单车智能驾驶方案内部,对于自动驾驶传感器的选择存在着两种路径:

纯视觉方案:由摄像头主导、配合毫米波雷达等低成本元件组成,典型代表为特斯拉、Mobileye和百度Apollo Lite;

另一种是由激光雷达主导,配合摄像头、毫米波雷达等元器件进行融合感知,典型代表为谷歌 Waymo、国内的华为、百度Apollo(除Apollo Lite)、小马智行、文远知行等头部自动驾驶厂商。

图表21:特斯拉纯视觉方案

图片

资料来源:思特威官网,中金公司研究部

图表22:华为激光雷达方案

图片

资料来源:特斯拉官网,中金公司研究部

人工智能不断成熟,自动驾驶市场快速扩张。受益于政策的大力推进和支持,物联网与驾驶加速结合,同时,在人机协作领域的突破显著提升了安全及合法性,应用场景不断拓宽,自动驾驶市场不断发展空间不断增大。根据IDC,2024年全球L1-L5级自动驾驶汽车出货量预计将达到5425万辆,同比增长16%,市场规模随出货量同步增长,据Allied Market Research测算2026年自动驾驶汽车市场规模将达到5566.7亿美元,2019-2026年CAGR为39.5%。

图表23:自动驾驶汽车出货量及增长

图片

资料来源:IDC,中金公司研究部

图表24:自动驾驶市场规模快速增大

图片

资料来源:Allied Market Research,中金公司研究部

人形机器人:进入高动态发展阶段,商业化水平逐渐成熟

多年技术探索,人形机器人进入高动态发展阶段。机器人发展历史上的重要影响事件可以追溯到上世纪四十年代,随着和技术的发展,为了处理、搬运及装载放射性材料出现了遥控机器手等产品,为近代机器人的出现奠定了基础。同时,电子计算机的发明也为现代机器人的出现奠定了控制方面的基础。此后人形机器人的发展史可以大致分为三个阶段,目前人形机器人已经进入到以具备感知、认知能力为主要特征的阶段,随着大模型算法的不断成熟,人形机器人的自主决策能力、与人交互能力有望实现质的飞跃。

图表25:人形机器人发展的三个阶段

图片

资料来源:各公司官网,中金公司研究部

Al对人形机器人的促进作用主要包括底层算法以及促进智能化。人形机器人领域涉及的Al底层算法主要为机器学习和深度学习。前者能让人形机器人在无指令时由模式识别功能增强能力并对于相应的情境作出更优反应,从而增加运行效率。后者运用海量数据信息对于神经网络进行训练,使其在复杂数据信息结构的接收与分析中具备优势。此外,我们认为Al机器视觉不仅赋予了人形机器人感知世界的能力,还将所搭载的各类算法与机器人深度有机融合,因此让它们具备了一定程度的人类意识,例如主动探索并钻研知识等,让其真正意义上更接近于一个完整的人类。

多家人形机器人的视觉方案在识别和定位方面有显著突破。我们认为,随着信息识别和定位越发精准,机器人将更容易模拟人类在真实场景下的反应过程,为机器视觉在外观检查等各项检测领域和智能生活领域的进一步突破提供良好的基础。

Atlas运用到激光雷达和深度相机两项技术,让 TOF 深度相机以 15 帧/秒的速度生成环境的点云,点云为测距的大范围集合。Atlas 的感知程序结合多平面分割的算法程序从点云内部提取平面。多平面分割算法的输入进入内部的映射系统当中,该系统为 Atlas 通过相机观测得到的各类不同对象搭建模型。

由欧菲光合作开发的小米CyberOne搭载的Mi-Sense深度视觉模组运用了Al交互算法,具备了优异的三维空间感知能力,在人物信息识别的表现尤其突出。CyberOne传感器模块中的情绪感知具备领先的2D弯曲OLED屏显示模块,带有双麦克风识音系统的听觉传感器和基于Mi-Sense空间视觉模组的视觉传感器,大大加快感知分析的广度和准确性。

图表26:不同人形机器人的环境感知方案

图片

资料来源:各公司官网,中金公司研究部

资本技术多维赋能,人形机器人商业化成熟。全球“机器换人”进程加速,人形机器人有望深入各细分消费端,成为AI下一个重要落地应用场景。根据Markets and Markets,全球人形机器人市场规模将由2022年15亿美元增长至2028年138亿美元,年均复合增长率44.8%。马斯克表示,特斯拉的长期价值将主要来自人形机器人,并预测人形机器人需求将达100亿台,远超汽车。根据高工机器人产业研究所,2026年人形机器人在服务机器人中的渗透率将达到3.5%,在服务领域,我们估算全球人形机器人市场规模超过70亿元,假设中国服务机器人市场约占全球市场25%,2026年中国人形机器人市场规模将超过17.5亿元。

图表27:全球人形机器人市场规模及增速

图片

资料来源:Markets and   Markets,中金公司研究部

图表28:全球服务机器人市场规模及增速

图片

资料来源:IFR,中金公司研究部

工业自动化:顺应工业4.0进程,AI机器视觉高效运作

高效的运作模式带动Al机器视觉在工业自动化中日益迅猛的发展。该应用由工业相机获取外部信息,将数据传递到主控制器后运用内部视觉软件处理信息并整合分析,进而快速精准地把所得结果传输到机器人不同的控制系统中,为下一阶段做准备。AI工业视觉解决方法主要分为三大类,应用方案围绕工业相机。

第一类方案为针对智能工业相机实时控制 / 结果类的应用方案。内设图像处理功能的工业相机产出的实时图像检测成果可立刻用于应用处理,相机可支持TCP/IP等通用接口协议并进行传输数据。

第二类方案为针对智能工业相机非实时类的应用方案。这种数据内容针对时延不敏感的非实时备份图像、监测命令等类型数据,同样使用TCP/IP等通用协议进行数据传输。

  第三类方案针对非智能工业相机实时图像类应用方案。此相机所用的数据协议接口通常为IP 化的GigE-Vision 和USB 为主要应用。对于工业应用,GigE-Vision 能让用户在长距离上使用低价位标准线缆来快速发送图像。

图表29:机器视觉进行定位检测

图片

资料来源:矩视低代码平台,中金公司研究部

图表30:机器视觉进行缺陷检查

图片

资料来源:矩视低代码平台,中金公司研究部

机器视觉在未来的发展趋势顺应工业4.0的进程。机器视觉在工业中能大大提升生产效率,减少人工成本。通过精准的机器视觉对机器进行视觉引导以及目标定位,例如工业生产中的机器手臂,可以完成大量繁复性的工作,包括焊接、打包、组装等。我们认为,Al机器视觉在工业中的市场空间将随着工业自动化的发展而扩大,未来主流国家的工业自动化水平稳步提高,从而能带动Al工业视觉的增长数量和市场规模。

图表31:机器视觉在工业自动化的效率改善

图片

资料来源:各公司官网,中金公司研究部

其他:AI赋能机器视觉多点开花,应用场景持续拓宽

元宇宙

3D感知支持元宇宙感知、连接的底层技术。机器视觉和AI可以用于构建和维护元宇宙中的虚拟环境和场景。它们可以识别和模拟现实世界中的物体、人物和景观,并在虚拟现实和增强现实应用中呈现出来。此外,机器视觉和AI还可以用于创建交互式虚拟角色,使用户能够进行逼真的虚拟体验。元宇宙需要交互技术和人工智能技术,离不开VR/AR等技术,其中3D感知尤为重要。随着元宇宙的爆发,市场空间越来越大,目前预测的市场空间未来能达到8000亿美元,甚至更高。我们认为,庞大的市场前景,给3D机器视觉的应用带来更多发挥空间。

军事领域

机器视觉广泛应用于军事领域,具备多方面的识别能力并覆盖多重装备。机器视觉技术依靠其非接触测量、不间断工作等特点,在军事领域中具备可观的实用前景,如海上未知舰船、飞机跑道等典型目标物识别、人员活动和参与度识别、枪械弹药等装备缺陷检测等场景和典型海陆空装备上的应用。我们认为目前军事领域的机器视觉运用相较于工业自动化和交通领域仍存在一些可发展的空间,如视觉传感器硬件系统还未能全面解决抗严寒、耐腐蚀等技术问题,导致处理结果的偏差。此外,由于军事上经常出现复杂的动态环境,导致捕捉高实时性视觉图像较难实现,因此我们认为未来突破方向可基于多重复合情境中多传感器信息融合与优化解析能力。

高校科研

在高校科研领域,机器视觉用于多相机并发高速储存方案。基于机器视觉,项目运用StreamPix软件,同时连接和使用16台1.3MP网口工业相机,由外触发方式来达成16台相机以满帧率75fps的采集率,实现长达7小时无丢帧和压缩、长时间连续并发采集和存储。该技术的优势在于,实现数个相机的连接与操控;完成数个相机无损、实时和长时间的并发图像数据收集与保存;以及持续可靠的长时段多相机储存方案。

发展趋势:具身智能有望开启机器视觉新一轮成长

人工智能引领机器视觉新一轮成长,拓宽机器视觉应用领域

机器视觉的核心驱动力由应用和算力转变为算法驱动。成像、应用、算法、算力是机器视觉发展的四个核心驱动力,全球机器视觉产业大约以十年为一个发展周期,经历了几次发展阶段的跳跃。自2016年开始,AI算法的进步推动机器视觉进入了由算法驱动的发展阶段,人工智能的赋能加快了机器视觉在智能制造应用中的普及,产业快速发展。在需求和技术持续提升和迭代的背景下,2020年后机器视觉迎来高速发展期。

图表32:全球与中国机器视觉发展主要节点

图片

资料来源:中国机器视觉发展白皮书(2021版),中金公司研究部

搭载AI技术,机器视觉具备超越现有解决方案的能力。AI拓展了机器视觉的能力范围,持续放大机器视觉产品性能优势,渗透到更多应用场景之中,赋能智能制造。根据中国信息通信研究院和中国人工智能产业发展联盟,当前的发展重点逐渐从单点技术转化为实质应用转化阶段。得益于深度学习等算法的突破、算力的不断提升以及海量数据的持续积累,人工智能逐渐从实验室走向产业实践,以算法、算力和数据为主旋律追求极致创新方面不断突破,为机器视觉实现更新迭代和提高应用价值的重要技术支撑。同时,机器视觉作为“眼睛”被AI使用,获取底层数据并协助完成人机交互,两者相互作用,推动人工智能算力持续提升。

图表33:人工智能发展的三驾马车

图片

资料来源:Wind,中金公司研究部

图表34:机器视觉和人工智能不断融合

图片

资料来源:中国信息通信研究院,中金公司研究部

下游应用提出新的要求,给机器视觉带来机遇和挑战。从需求端看,机器视觉广泛应用于电子及半导体、汽车制造、食品包装、制药等领域,应用场景存在较大的差异性。随着AI和5G技术的商用落地,机器视觉从工业领域扩展到消费领域,在影视、游戏、直播、文旅等领域的发展空间。3C行业目前是机器视觉应用最成熟的领域,存在高精度、换代快等特点,品类拓展和应用场景延伸持续推动3C行业机器视觉的渗透率,随着生产工艺的精进及产品质量要求的提高,消费电子等行业对检测精度的要求越发严苛,对机器视觉的技术迭代也提出要求。我们预计,随着下游应用的拓展和行业的发展,AI+行业是发展趋势,机器视觉的应用将会进一步细分,以适应下游的垂直需求。

图表35:全球与中国机器视觉发展主要节点

图片

资料来源:国家统计局,亿欧智库,中金公司研究部

特斯拉引领人形机器人迭代,具身智能成为机器视觉下一个成长点

具身智能或将成为AI的终极形态,智能机器人是具身智能的直接落地。具身智能(Embodied Intelligence,简称EI)是指具备自主决策和行动能力的机器智能,可以像人类一样感知和理解环境,通过自主学习和适应性行为来完成任务。具身智能的实现包含了人工智能领域几乎所有的技术,包括机器视觉、自然语言理解、认知和推理、机器人学、博弈伦理、机器学习等,是AI的集大成者。机器人发展为具身智能机器人,大致需要经大脑先行、感知突破、身体完善三个阶段,在演化路径上,完成由“不动”、到“固定动”、再到“自由动”的技术变革。

图表36:具身智能机器人发展阶段

图片

资料来源:亿欧智库,中金公司研究部

图表37:具身智能机器人三个发展阶段

图片

资料来源:亿欧智库,中金公司研究部

AI多模态大模型和人形机器人结合,给予具身智能机器人落地条件。AI大模型在语言、视觉、运动控制、降低研发成本等多方面为人形机器人产业赋能。2023年5月特斯拉股东大会展示了备受关注的人形机器人Optimus的最新进展,从最终用途来看,和具身智能机器人非常相似。在机械关节控制方面,Optimus使用电机扭矩控制更加精确灵敏;在感知方面,环境感知和记忆能力提升不仅可以看路,亦会记路;在学习方面,可根据人类动作范例,进行端到端动作操控。

图表38:ChatGPT推动机器人应用

图片

资料来源:SEMI,中商产业研究院,中金公司研究部

图表39:Tesla发布Optimus人形机器人

图片

资料来源:特斯拉,中金公司研究部

传感器、执行器和计划控制是具身智能的三大要素。传感器包括本体感受传感器、触觉+视觉+声音传感器、机器视觉等;执行器包括减速器、伺服系统、微电机等;计划控制部分包括控制器、工控系统、AI系统等,传感器与执行器数量较多。其中,根据OFWeek机器人网,从成本构成看,人形机器人中视觉等感知系占比约为17%,远高于工业机器人中的价值占比。

图表40:工业机器人价值分布(2020年)

图片

资料来源:OFweek,机器人网,中金公司研究部

图表41:人形机器人价值分布(2020年)

图片

资料来源:OFweek,机器人网,中金公司研究部

感知层中视觉的重要程度较高。从人体的感官来看,80%的信息获取来自于视觉,根据仝人智能吴易明博士分析,感知层面的核心在于视觉感知,主要原因:

1)感知层需要与运动层交互印证:首先视觉感知需要与物理实存进行交互印证,是具身智能实现的基础;

2)感知能力提升可使机器人运动更加“拟人化”:视觉感知通过与运动系统的执行参量、信息数据交互修正,使具身机器人从传统的僵化肢体运动提升为为高自由度、高精密、多表现形式的运动。

图表42:特斯拉人形机器人价值量分布

图片

资料来源:特斯拉,UCLA,中金公司研究部

机器视觉向机器人视觉进化。产品形态上,机器人视觉相比传统机器视觉更加 3D化、高度集成化、场景复杂化。在技术实现上,机器人视觉相比传统机器视觉更注重多专业融合、底层元器件定制与集成、以及高度依赖智能视觉算法。

2D视觉向3D视觉进化,3D视觉具备毫米级甚至更高精度的视觉能力,可以对真实物体场景进行高精度扫描与还原。传统2D视觉只能应用在“可控规范”的环境中,比如工业产线,而具身智能机器人所面对的是不可控规范的场景,2D视觉无法满足。

模块化向高度集成嵌入式进化,传统机器人例如部分工业机器人所配备的视觉设备大都是模块化的设备,普遍包括光源、镜头、相机、图像采集卡、机器视觉算法、应用软件等模块,其中光源跟相机分开,相机跟镜头分开,相机跟图像采集卡分开,各个部件体积庞大,导致整体体积大、成本高,无法应用于需要广泛普及的具身智能机器人中。

单一场景到复杂场景(变化场景)进化,具身智能机器人所面向的是未知的复杂场景或变化场景,这就导致单一视觉传感器无法满足需求,另外为了应付变化场景,要求具备较高鲁棒性的智能视觉算法。

风险提示

AI算力需求不及预期:工业生产的数据量有限,且具有一定的保密性,对算力的需求不及预期或放缓大模型在机器视觉领域中的革新左右。

下游应用落地不及预期:下游人形机器人的发展是机器视觉应用的重要增量,下游落地不及预期会降低对零部件、软件、集成设备的采购需求,影响相关企业发展速度。

► 行业竞争加剧。机器视觉毛利率水平较高,高盈利属性吸引大量新进入者,同时通用大模型降低视觉软件门槛,现有厂商或将丢失份额或盈利能力削弱。

Source

文章来源

本文摘自:2023年9月16日已经发布的《机器视觉:AI赋能,拥抱机器智能化时代》

陈显帆 分析员 SAC 执证编号:S0080521050004 SFC CE Ref:BRO897

张梓丁 分析员 SAC 执证编号:S0080517090002 SFC CE Ref:BSB840

严佳 分析员 SAC 执证编号:S0080522090006

Legal Disclaimer

法律声明

特别提示

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多