计算机视觉的理论框架

（一）Marr的视觉理论框架 ——基于重构的计算机视觉理论

视觉是一个信息处理的过程，从三个不同的层次加以研究
- 信息处理的计算理论：对什么信息进行计算，为什么要进行这些计算
- 信息处理的表示或算法：如何进行所要求的计算，即设计特定的算法
- 实现机制或者硬件：实现某一特定算法的具体载体，如设备、装置等
计算机视觉完成上述信息处理过程的三个阶段
- 第一阶段：初始简图，又称为基元
  - 图像中亮度的变化和局部的几何特征，由两部分组成： ==第一部分：== 边缘、线条、斑点、端点等 —— 原始基元，对亮度变化的描述； ==第二部分：== 完全而明确地表示几何关系
    
    对原始基元进行选择、聚合和概括，形成尺度更大、更抽象的标记——轮廓和区域。
  - 初始简图是对二维图像特征的一种描述。
- 第二阶段：2.5维简图
  - 将场景分解为物体之前，先建立场景中可见表面的描述，即为2.5维简图的概念
  - 能够表示深度、局部表面方向、不连续点的信息、全局的深度描述
    
    在图像中用矢量线表示表面的倾斜程度和倾斜方向（该矢量是表面法线的投影）、表面方向的不连续边界用虚线表示、遮挡造成的边界用实线表示、各点的深度用某标量表示。
  - 这种表示是在以观察者为中心的坐标系中关于场景的三维特性描述
- 第三阶段：三维模型，又称全三维图
  - 建立适于视觉识别和理解的场景的三维形状描述
  - 这里以物体为中心建立坐标系，并包含尺度信息
  - 物体坐标系的建立：通常利用物体固有的突出的几何性质，比如有对称轴的物体。

（二）基于推理的视觉识别理论框架

视觉问题从本质上说是不适定的（ill-posed）
- 大多数视觉任务是一个逆向问题，由二维图像不能唯一确定三维场景。因为相同的图像可由不同的场景产生。
- 看到这些图像时，大多并不会产生多义性。表明人类视觉在理解图像时，利用了附加的高层信息即先验知识，或者利用了某些可以去除多义性解释的通用约束。
感知群能力
- 人类视觉系统具有：不知道图像内容的任何先验知识，可以从图像获得相对的聚类和结构的能力。比如说：对称性、平行性、连通性、重复纹理、共线性等。
- 主要强调视觉整体性和选择性。认为人的视觉中存在天然的对某种特定模式或概念的识别机制！好像已经有一种先验的模型存在那里进行描述！
- 在聚类和结构感知中起重要作用的因素：
  
  （1）接近性（proximity）：较为接近的元素倾向于聚集在一起；（2）相似性（similarity）：颜色、方向、大小等物理属性相似元素相聚集；（3）封闭性（closure）：曲线段在形成完成曲线时有形成封闭区域的倾向；（4）连续性（continuation）：位于同一直线或平滑曲线上的元素相聚集；（5）对称性（symmetry）：任何横向对称于某个轴的元素相聚集；（6）熟知性（familiarity）：经常看到在一起出现的元素相聚集。
感知群能力的基本原理
- 要解决的问题是：聚类过程的目的是什么？如何实现聚类过程？
  - 目的：发现图像元素之间的因果关系，或非偶然性关系。
    
    图像之间的关系不太可能是由于偶然因素产生的程度，决定了元素之间关系的显要性。如，图像中等间距共线三点，可以推测他们是空间中等间距共线三点的像。
  - 实现：与大多数逆问题一样，原始状态下的聚类是一个不适定的问题。
    
    引入目标函数来限制界的空间。按正则化理论，聚类是一个求能量极小的问题。
视觉识别与推理
- 先验知识：发现图像中的特征与环境中物体的先验表示之间的匹配对应，不需要完全重构环境物理参数，在识别过程中关于环境的先验知识会起到积极的作用。日常生活中所见的数量和种类繁多的物体与景物，先验知识的约束作用使得有些视觉问题可以有充分的约束而得到解决。
- 识别推理：识别超越了图像中的数据，能够根据小部分预期的匹配对应而实现可靠的识别，之后应用知识来推论视觉图像没有直接提供的场景的特性。表明视觉理解可以通过推理来完成。