一文读懂计算机视觉与机器视觉的异同，及存在的主要问题

视觉（生理学术语）

视觉是一个生理学词汇。光作用于视觉器官，使其感受细胞兴奋，其信息经视觉神经系统加工后便产生视觉（vision）。通过视觉，人和动物感知外界物体的大小、明暗、颜色、动静，获得对机体生存具有重要意义的各种信息，至少有80%以上的外界信息经视觉获得，视觉是人和动物最重要的感觉，指物体的影像刺激视网膜所产生的感觉。

视觉是通过视觉系统的外周感觉器官（眼）接受外界环境中一定波长范围内的电磁波刺激，经中枢有关部分进行编码加工和分析后获得的主观感觉。

人的眼可分为感光细胞（视杆细胞和视锥细胞）的视网膜和折光（角膜，房水，晶状体和玻璃体）系统两部分。其适宜刺激是波长为370-740纳米的电磁波，即可见光部分，约150种颜色。该部分的光通过折光系统在视网膜上成像，经视神经传入到大脑视觉中枢，就可以分辨所看到的物体的色泽和分辨其亮度。因而可以看清视觉范围内的发光或反光物体的轮廓，形状，大小，颜色，远近和表面细节等情况。值得注意的是，相关的视觉欺骗试验提示，人所看到的内容，和其本身想看到的内容有关。视觉形成过程：光线→角膜→瞳孔→晶状体（折射光线）→玻璃体（支撑、固定眼球）→视网膜（形成物像）→视神经（传导视觉信息）→大脑视觉中枢（形成视觉）。

2016101100010

计算机视觉

计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。这里所指的信息指Shannon定义的，可以用来帮助做一个“决定”的信息。因为感知可以看作是从感官信号中提取信息，所以计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中“感知”的科学。

计算机视觉是使用计算机及相关设备对生物视觉的一种模拟。它的主要任务就是通过对采集的图片或视频进行处理以获得相应场景的三维信息，就像人类和许多其他类生物每天所做的那样。

计算机视觉是一门关于如何运用照相机和计算机来获取我们所需的，被拍摄对象的数据与信息的学问。形象地说，就是给计算机安装上眼睛（照相机）和大脑（算法），让计算机能够感知环境。我们中国人的成语"眼见为实"和西方人常说的"One picture is worth ten thousand words"表达了视觉对人类的重要性。计算机视觉既是工程领域，也是科学领域中的一个富有挑战性重要研究领域。计算机视觉是一门综合性的学科，它已经吸引了来自各个学科的研究者参加到对它的研究之中。其中包括计算机科学和工程、信号处理、物理学、应用数学和统计学，神经生理学和认知科学等。

计算机视觉原理

计算机视觉就是用各种成象系统代替视觉器官作为输入敏感手段，由计算机来代替大脑完成处理和解释。计算机视觉的最终研究目标就是使计算机能象人那样通过视觉观察和理解世界，具有自主适应环境的能力。要经过长期的努力才能达到的目标。因此，在实现最终目标以前，人们努力的中期目标是建立一种视觉系统，这个系统能依据视觉敏感和反馈的某种程度的智能完成一定的任务。例如，计算机视觉的一个重要应用领域就是自主车辆的视觉导航，还没有条件实现象人那样能识别和理解任何环境，完成自主导航的系统。因此，人们努力的研究目标是实现在高速公路上具有道路跟踪能力，可避免与前方车辆碰撞的视觉辅助驾驶系统。这里要指出的一点是在计算机视觉系统中计算机起代替人脑的作用，但并不意味着计算机必须按人类视觉的方法完成视觉信息的处理。计算机视觉可以而且应该根据计算机系统的特点来进行视觉信息的处理。但是，人类视觉系统是迄今为止，人们所知道的功能最强大和完善的视觉系统。如在以下的章节中会看到的那样，对人类视觉处理机制的研究将给计算机视觉的研究提供启发和指导。因此，用计算机信息处理的方法研究人类视觉的机理，建立人类视觉的计算理论，也是一个非常重要和信人感兴趣的研究领域。这方面的研究被称为计算视觉（Computational Vision）。计算视觉可被认为是计算机视觉中的一个研究领域。

有不少学科的研究目标与计算机视觉相近或与此有关。这些学科中包括图像处理、模式识别或图像识别、景物分析、图象理解等。计算机视觉包括图像处理和模式识别，除此之外，它还包括空间形状的描述，几何建模以及认识过程。实现图像理解是计算机视觉的终极目标。

研究现状

计算机视觉领域的突出特点是其多样性与不完善性。这一领域的先驱可追溯到更早的时候，但是直到20世纪70年代后期，当计算机的性能提高到足以处理诸如图像这样的大规模数据时，计算机视觉才得到了正式的关注和发展。然而这些发展往往起源于其他不同领域的需要，因而何谓“计算机视觉问题”始终没有得到正式定义，很自然地，“计算机视觉问题”应当被如何解决也没有成型的公式。

尽管如此，人们已开始掌握部分解决具体计算机视觉任务的方法，可惜这些方法通常都仅适用于一群狭隘的目标（如：脸孔、指纹、文字等），因而无法被广泛地应用于不同场合。

对这些方法的应用通常作为某些解决复杂问题的大规模系统的一个组成部分（例如医学图像的处理，工业制造中的质量控制与测量）。在计算机视觉的大多数实际应用当中，计算机被预设为解决特定的任务，然而基于机器学习的方法正日渐普及，一旦机器学习的研究进一步发展，未来“泛用型”的电脑视觉应用或许可以成真。

人工智能所研究的一个主要问题是：如何让系统具备“计划”和“决策能力”？从而使之完成特定的技术动作（例如：移动一个机器人通过某种特定环境）。这一问题便与计算机视觉问题息息相关。在这里，计算机视觉系统作为一个感知器，为决策提供信息。另外一些研究方向包括模式识别和机器学习（这也隶属于人工智能领域，但与计算机视觉有着重要联系），也由此，计算机视觉时常被看作人工智能与计算机科学的一个分支。

物理是与计算机视觉有着重要联系的另一领域。

计算机视觉关注的目标在于充分理解电磁波——主要是可见光与红外线部分——遇到物体表面被反射所形成的图像，而这一过程便是基于光学物理和固态物理，一些尖端的图像感知系统甚至会应用到量子力学理论，来解析影像所表示的真实世界。同时，物理学中的很多测量难题也可以通过计算机视觉得到解决，例如流体运动。也由此，计算机视觉同样可以被看作是物理学的拓展。

另一个具有重要意义的领域是神经生物学，尤其是其中生物视觉系统的部分。

在整个20世纪中，人类对各种动物的眼睛、神经元、以及与视觉刺激相关的脑部组织都进行了广泛研究，这些研究得出了一些有关“天然的”视觉系统如何运作的描述（尽管仍略嫌粗略），这也形成了计算机视觉中的一个子领域——人们试图建立人工系统，使之在不同的复杂程度上模拟生物的视觉运作。同时计算机视觉领域中，一些基于机器学习的方法也有参考部分生物机制。

计算机视觉的另一个相关领域是信号处理。很多有关单元变量信号的处理方法，尤其是对时变信号的处理，都可以很自然的被扩展为计算机视觉中对二元变量信号或者多元变量信号的处理方法。但由于图像数据的特有属性，很多计算机视觉中发展起来的方法，在单元信号的处理方法中却找不到对应版本。这类方法的一个主要特征，便是他们的非线性以及图像信息的多维性，以上二点作为计算机视觉的一部分，在信号处理学中形成了一个特殊的研究方向。

除了上面提到的领域，很多研究课题同样可被当作纯粹的数学问题。例如，计算机视觉中的很多问题，其理论基础便是统计学，最优化理论以及几何学。

如何使既有方法通过各种软硬件实现，或说如何对这些方法加以修改，而使之获得合理的执行速度而又不损失足够精度，是现今电脑视觉领域的主要课题。

机器视觉

机器视觉是人工智能正在快速发展的一个分支。简单说来，机器视觉就是用机器代替人眼来做测量和判断。机器视觉系统是通过机器视觉产品(即图像摄取装置，分CMOS和CCD两种)将被摄取目标转换成图像信号，传送给专用的图像处理系统，得到被摄目标的形态信息，根据像素分布和亮度、颜色等信息，转变成数字化信号;图像系统对这些信号进行各种运算来抽取目标的特征，进而根据判别的结果来控制现场的设备动作。

机器视觉（Machine vision）

机器视觉系统的特点是提高生产的柔性和自动化程度。在一些不适合于人工作业的危险工作环境或人工视觉难以满足要求的场合，常用机器视觉来替代人工视觉；同时在大批量工业生产过程中，用人工视觉检查产品质量效率低且精度不高，用机器视觉检测方法可以大大提高生产效率和生产的自动化程度。而且机器视觉易于实现信息集成，是实现计算机集成制造的基础技术。

机器视觉是一项综合技术，包括图像处理、机械工程技术、控制、电光源照明、光学成像、传感器、模拟与数字视频技术、计算机软硬件技术(图像增强和分析算法、图像卡、 I/O卡等)。一个典型的机器视觉应用系统包括图像捕捉、光源系统、图像数字化模块、数字图像处理模块、智能判断决策模块和机械控制执行模块。

机器视觉系统最基本的特点就是提高生产的灵活性和自动化程度。在一些不适于人工作业的危险工作环境或者人工视觉难以满足要求的场合，常用机器视觉来替代人工视觉。同时，在大批量重复性工业生产过程中，用机器视觉检测方法可以大大提高生产的效率和自动化程度。

一个典型的工业机器视觉系统包括：光源、镜头（定焦镜头、变倍镜头、远心镜头、显微镜头）、相机（包括CCD相机和COMS相机）、图像处理单元（或图像捕获卡）、图像处理软件、监视器、通讯 / 输入输出单元等。

机器视觉的应用主要有检测和机器人视觉两个方面：

⒈ 检测：又可分为高精度定量检测（例如显微照片的细胞分类、机械零部件的尺寸和位置测量）和不用量器的定性或半定量检测（例如产品的外观检查、装配线上的零部件识别定位、缺陷性检测与装配完全性检测）。

⒉机器人视觉：用于指引机器人在大范围内的操作和行动，如从料斗送出的杂乱工件堆中拣取工件并按一定的方位放在传输带或其他设备上（即料斗拣取问题）。至于小范围内的操作和行动，还需要借助于触觉传感技术。

由于机器视觉系统可以快速获取大量信息，而且易于自动处理，也易于同设计信息以及加工控制信息集成，因此，在现代自动化生产过程中，人们将机器视觉系统广泛地用于工况监视、成品检验和质量控制等领域。但是机器视觉技术比较复杂，最大的困难在于人的视觉机制尚不清楚。人可以用内省法描述对某一问题的解题过程，从而用计算机加以模拟。但尽管每一个正常人都是“视觉专家”，却不可能用内省法来描述自己的视觉过程。因此建立机器视觉系统是十分困难的任务。

计算机视觉与机器视觉的异同

计算机视觉，图象处理，图像分析，机器人视觉和机器视觉是彼此紧密关联的学科。如果你翻开带有上面这些名字的教材，你会发现在技术和应用领域上他们都有着相当大部分的重叠。这表明这些学科的基础理论大致是相同的，甚至让人怀疑他们是同一学科被冠以不同的名称。

然而，各研究机构，学术期刊，会议及公司往往把自己特别的归为其中某一个领域，于是各种各样的用来区分这些学科的特征便被提了出来。下面将给出一种区分方法，尽管并不能说这一区分方法完全准确。

计算机视觉的研究对象主要是映射到单幅或多幅图像上的三维场景，例如三维场景的重建。计算机视觉的研究很大程度上针对图像的内容。

图象处理与图像分析的研究对象主要是二维图像，实现图像的转化，尤其针对像素级的操作，例如提高图像对比度，边缘提取，去噪声和几何变换如图像旋转。这一特征表明无论是图像处理还是图像分析其研究内容都和图像的具体内容无关。

机器视觉主要是指工业领域的视觉研究，例如自主机器人的视觉，用于检测和测量的视觉。这表明在这一领域通过软件硬件，图像感知与控制理论往往与图像处理得到紧密结合来实现高效的机器人控制或各种实时操作。

模式识别使用各种方法从信号中提取信息，主要运用统计学的理论。此领域的一个主要方向便是从图像数据中提取信息。

还有一个领域被称为成像技术。这一领域最初的研究内容主要是制作图像，但有时也涉及到图像分析和处理。例如，医学成像就包含大量的医学领域的图像分析。

对于所有这些领域，一个可能的过程是你在计算机视觉的实验室工作，工作中从事着图象处理，最终解决了机器视觉领域的问题，然后把自己的成果发表在了模式识别的会议上。

存在的主要问题

几乎在每个计算机视觉技术的具体应用都要解决一系列相同的问题。这些经典的问题包括：

识别

一个计算机视觉，图像处理和机器视觉所共有的经典问题便是判定一组图像数据中是否包含某个特定的物体，图像特征或运动状态。这一问题通常可以通过机器自动解决，但是到目前为止，还没有某个单一的方法能够广泛的对各种情况进行判定：在任意环境中识别任意物体。现有技术能够也只能够很好地解决特定目标的识别，比如简单几何图形识别，人脸识别，印刷或手写文件识别或者车辆识别。而且这些识别需要在特定的环境中，具有指定的光照，背景和目标姿态要求。

广义的识别在不同的场合又演化成了几个略有差异的概念：

识别（狭义的）：对一个或多个经过预先定义或学习的物体或物类进行辨识，通常在辨识过程中还要提供他们的二维位置或三维姿态。

鉴别：识别辨认单一物体本身。例如：某一人脸的识别，某一指纹的识别。

监测：从图像中发现特定的情况内容。例如：医学中对细胞或组织不正常技能的发现，交通监视仪器对过往车辆的发现。监测往往是通过简单的图象处理发现图像中的特殊区域，为后继更复杂的操作提供起点。

识别的几个具体应用方向：

基于内容的图像提取：在巨大的图像集合中寻找包含指定内容的所有图片。被指定的内容可以是多种形式，比如一个红色的大致是圆形的图案，或者一辆自行车。在这里对后一种内容的寻找显然要比前一种更复杂，因为前一种描述的是一个低级直观的视觉特征，而后者则涉及一个抽象概念（也可以说是高级的视觉特征），即‘自行车’，显然的一点就是自行车的外观并不是固定的。

姿态评估：对某一物体相对于摄像机的位置或者方向的评估。例如：对机器臂姿态和位置的评估。

光学字符识别对图像中的印刷或手写文字进行识别鉴别，通常的输出是将之转化成易于编辑的文档形式。

运动

基于序列图像的对物体运动的监测包含多种类型，诸如：

自体运动：监测摄像机的三维刚性运动。

图像跟踪：跟踪运动的物体。

场景重建

给定一个场景的二或多幅图像或者一段录像，场景重建寻求为该场景建立一个计算机模型/三维模型。最简单的情况便是生成一组三维空间中的点。更复杂的情况下会建立起完整的三维表面模型。

图像恢复

图像恢复的目标在于移除图像中的噪声，例如仪器噪声，模糊等。