《Fundamentals of Computer Graphics》5th(计算机图形学基础/虎书),中文翻译。
第 19 章 Visual Perception 视觉感知
计算机图形学的终极目标是为人们提供可视化的图像。因此,计算机图形系统的成功取决于它如何向人类观察者传达相关信息。物理世界的内在复杂性和显示设备的限制使得呈现给观察者与自然环境相同的光模式成为不可能。当计算机图形系统的目标是物理的真实感时,我们最希望的是该系统在感知上有效:显示的图像应该“看起来”如期望的那样。对于技术插图等应用程序,通常需要视觉上突出相关信息,从而使感知效果成为显式要求。
艺术家和插图者经验性地开发了广泛的工具和技术,以有效地传达视觉信息。改进计算机图形的知觉效果的一种方法是在自动化系统中利用这些方法。第二种方法直接基于对人类视觉系统的了解,通过将感知效果作为计算机图形系统设计的优化标准来实现。这两种方法并不完全不同。事实上,对视觉感知的最早系统检查可以在达芬奇的笔记本中找到。
本章的其余部分概述了人类视觉认知方面的已知内容。重点是人类视觉中最相关的方面,即与计算机图形学相关。人类视觉系统在其操作和架构上都非常复杂。这样的章节最多只能提供关键点的摘要,并且重要的是避免从这里呈现的内容过度概括。有关视觉感知的更深入的处理可以在 Wandell(1995) 和 Palmer(1999) 中找到;Gregory(1997) 和 Yantis(2000) 提供了其他有用的信息。例如 Forsyth 和 Ponce(2002) 等好的计算机视觉参考资料也很有帮助。需要注意的是,尽管经过 150 多年的密集研究,我们对视觉许多方面的认识仍然非常有限和不完美。
视觉通常被认为是人类中最强大的感官。视觉为世界提供的有用信息比听觉、触觉、嗅觉或味觉更多。这直接源于光的物理特性(图 19.1)。照明普遍存在,尤其是白天但也包括夜晚的月光、星光和人造光源。表面反射了入射照明的相当一部分,并以特定材料的独特方式进行反射,这取决于表面的形状。光线(大多数情况下)在空气中以直线行进,使得视觉可以从远处获取信息。
图 19.1 光的本质使视觉成为强大的感官。
对视觉的研究有着悠久而丰富的历史。关于眼睛的大部分知识可以追溯到 17 世纪哲学家和物理学家的工作。从 19 世纪中期开始,感知心理学家爆发了一系列探索视觉现象学和提出视觉功能模型的研究。20 世纪中期开始了现代神经科学的研究,该领域研究个体神经元的细致运作以及大规模的大脑和神经系统的结构组织。神经科学研究的相当一部分集中在视觉上。最近,计算机科学通过提供精确描述假设的视觉计算模型的工具,并允许对计算机视觉程序进行经验性检查,有助于理解视觉感知。术语视觉科学被创造出来,用于指涉涉及感知心理学、神经科学和计算分析的视觉感知的多学科研究。
视觉科学将视觉的目的视为从到达观察者的光模式中产生关于物体、位置和事件的信息。心理学家使用远程刺激这个术语来指称观察下的物理世界,而接近刺激指称视网膜图像。使用这种术语,视觉的功能是在给定接近刺激的情况下生成关于远程刺激方面的描写。当所生成的描写准确反映实际世界时,视觉感知被认为是真实的。在实践中,单独考虑对象、位置和事件的这些描述并没有太多意义。相反,视觉更好地在其所服务的运动和认知功能的背景下理解。
在计算机视觉中,场景通常用于指涉外部世界,而图像用于指涉场景对感应面的投影。
视觉系统基于入射照明的特性创建对视觉环境的描述。因此,了解人类视觉系统实际上可以检测到哪些入射照明的特性非常重要。关于人类视觉系统的一个关键观察是,它主要对光的模式而非绝对光能量大小敏感。眼睛不像光度计那样操作。相反,它检测到视网膜上成像的光的空间、时间和光谱模式,这些光的模式的信息构成了所有视觉感知的基础。
视觉系统对空间和时间上光照变化的敏感性有明显的生态效用。准确地感知环境中的变化对我们的生存至关重要 [2]。与测量光能量大小相比,测量光能量变化的系统在工程上也更为合理,因为它使得更容易检测大范围内的光强度变化。对于计算机图形学来说,视觉以这种方式运作是一件好事。显示设备在投射具有自然场景典型功率和动态范围的光方面受到物理限制。如果需要产生与相应的物理世界完全相同的光模式,则图形显示将无效。幸运的是,所需的仅是显示器能够产生与真实世界类似的空间和时间变化模式。
[2] 有时会说,视觉的主要目标是支持进食、避免被捕食、繁殖以及在移动时避免灾难。将视觉视为目标导向的活动通常很有用,但需要在更详细的层面上进行。
在明亮的光线下,人类视觉系统能够区分由高对比度的平行黑白条纹组成的光栅,其细度为 50-60 个周期/度。(在这种情况下,“一个周期”由相邻的一组黑白条纹组成。)作为对比,最好的目前可用的液晶显示器,在正常观看距离下,可以显示约 20 个周期/度的模式。在亮光下,人类视觉系统能够检测到边缘处的最小对比度差异大约为边缘上平均亮度的 1%。在大多数 8 位显示器中,由于从灰度级映射到实际显示亮度的方式,单个灰度级的差异通常至少在某些光强度范围内是可察觉的。
表征视觉系统检测细小尺度模式(视力)和检测亮度变化的能力比相机和类似的图像采集设备要复杂得多。如图 19.2 所示,人类视觉中存在对比度和敏锐度之间的相互作用。在该图中,图案的尺度从左到右逐渐减小,而对比度从上到下逐渐增加。如果您以正常的观察距离查看该图,将清楚地看到可见图案的最低对比度是图案的空间频率的函数。
图 19.2 对比度随着条纹数目的减少而增加,然而可见阈值随着频率的变化而变化。
光强度 从世界中特定表面点到达眼睛,光强度 照射该表面点,以及被观察点处表面反射率 之间存在线性关系,如公式(19.1)所示:
其中 取决于表面几何形状、入射照明模式和观察方向之间的关系。虽然眼睛只能直接测量 L,但人类视觉在估计 方面比 更好。为了看清这一点,可以在明亮的直接光线下观察图 19.3。用手遮住其中一个图案,让另一个直接照亮。尽管两个图案反射出的光会有显著不同,但两个中心正方形的表面亮度似乎几乎相同。术语亮度通常用于描述表面的表观亮度,与其实际亮度不同。在许多情况下,亮度对大范围的照明变化是不变的,这种现象称为亮度恒常性。
图 19.3 在明亮的直接光线下查看以此展示亮度感知的能力。
人类视觉系统如何实现亮度恒常性的机制尚不清楚。如图 19.2 所示,视觉系统对缓慢变化的光模式相对不敏感,这可能有助于抵消缓慢变化的照明效果。环境中周围区域的亮度影响表观亮度(图 19.4)。当区域照明不同时,这可以有助于亮度恒常性。虽然这种同时对比效应通常被描述为基于周围区域的对比亮度修改一个区域的感知亮度,但它实际上比这更复杂(图 19.5 和 19.6)。有关亮度感知的更多信息,请参见(Gilchrist 等,1999)和(Adelson,1999)。
图 19.4。 (a) 同时对比效应:中央条的表观亮度受周围区域亮度的影响;(b) 没有变量环绕的相同条形。
图 19.5。Munker-White 幻觉展示了同时对比效应的复杂性。在图 19.4 中,当周围区域较暗时,中央区域看起来更亮。在(a)中,左侧的灰色条看起来比右侧的灰条亮,尽管它们几乎被白色区域所包围;(b)显示没有黑线的灰色条。
图 19.6。亮度感知受 3D 结构感知的影响。标记为 (a) 的两个表面具有相同的亮度,标记为 (b) 的两个表面也是如此(来源:Adelson(1999))。
视觉系统在很大程度上忽略缓慢变化的强度模式,但对由亮度不连续性的线条组成的边缘非常敏感。成像光强度上的边缘通常与表面边界或其他重要特征相对应(图 19.7)。视觉系统还可以检测到局部运动、立体差异、纹理和几种其他图像属性的差异。然而,当没有伴随着这些其他属性的差异时,视觉系统几乎不能检测到颜色上的空间不连续性。
边缘的感知似乎与形状的感知相互作用。尽管边缘为视觉系统提供了识别形状所需的信息,但如果结果边缘创建了更完整的形状,则缓慢变化的亮度可能会出现为锐利的边缘(图 19.8)。图 19.9 显示主观轮廓,这是这种效应的一种极端形式,即即使实际图像中不存在这样的轮廓,也会看到闭合的轮廓。最后,视觉系统对边缘的敏感度似乎也是涉及亮度感知的机制的一部分。请注意,在图 19.9 中主观轮廓所围绕的区域看起来比页面周围区域略微更亮。图 19.10 显示了边缘和亮度之间的不同相互作用。在这种情况下,边缘处的特定亮度剖面对边缘两侧表面的表观亮度产生了显着影响。
图 19.7。(a) 原始灰度图像,(b) 图像边缘,它们是某些方向上高空间变异性的线条。
图 19.8。在没有亮度的急剧不连续性的情况下,视觉系统有时会看到“边缘”,例如在该图像中央图案的右侧。
图 19.9。有时,即使没有任何亮度变化,视觉系统也会“看到”主观轮廓。
图 19.10 感知亮度更多地取决于边缘处的局部对比度,而不是表面上的亮度。尝试用一支铅笔覆盖图中间的垂直边缘。这张图是 Craik-O’Brien-Cornsweet 幻觉的一个例子。
如上所示,人们可以检测到两个相邻区域之间的亮度差异,如果差异至少为平均亮度的 1%。这是韦伯定律的一个例子,该定律规定,在一个刺激中,可察觉的差异(jnd)的大小与刺激的大小之间有一个恒定的比率:
其中 是刺激的大小, 是可察觉的差异的大小, 是特定于刺激的常数。韦伯定律最初是在 1846 年提出的,仍然是许多感知效应的有用描述。费希纳定律于 1860 年提出,以一种方式对韦伯定律进行了泛化,使其能够描述任何感官经验的强度,而不仅仅是 jnd's:
其中 是感官经验的感知强度, 是相应刺激的物理大小, 是特定于刺激的缩放常数。目前的做法是使用幂函数(史蒂文斯定律)来建立感知和实际刺激强度之间的关联:
其中 和 与之前相同, 是另一个缩放常数, 是特定于刺激的指数。对于涉及视觉的许多感知量,。在 CIE 颜色空间中,描述别间亮度值的感知差异使用了经过修改的史蒂文斯定律表示。请注意,在前两个刺激感知强度的特征化以及 Stevens's Law 中,当 时,当刺激具有较小的平均大小时,对刺激进行的小物理变化会产生比具有较大大小的刺激进行的相同物理变化更大的感知效应。
上述“定律”不是感知运作方式的物理限制。相反,它们是关于感知系统如何响应特定物理刺激的总结。在感知心理学领域,研究物理刺激及其感知效应之间关系的数量级称为心理物理学。虽然心理物理学规律是经验性的观察结果,而不是机制性的解释,但如此多的感知效应可以被简单的幂函数所描述,这一点非常引人注目,并且可能提供了涉及的机制的见解。
1666 年,艾萨克·牛顿使用棱镜展示了表面上白色的阳光可以分解成一系列颜色,并且这些颜色可以重新组合以产生看起来是白色的光。我们现在知道,光能由一系列具有特定波长的光子构成。在自然照明中,反射到表面上的光的光谱分布因表面材料而异。对该光谱分布的表征因此可以为环境中表面性质提供视觉信息。
大多数人在观察世界时都有一种普遍的颜色感。颜色感知取决于光的频率分布,对于人类来说,可见光谱范围从约 370 nm 的波长到约 730 nm 的波长(见图 19.11)。视觉系统从这个光谱分布中获取颜色感知的方式最初在 1801 年进行了系统研究,并保持极具争议 150 年。问题在于,视觉系统对光谱分布的模式与亮度分布的模式有非常不同的响应。
图 19.11。可见光谱。波长以纳米为单位。
即使考虑到像亮度恒常性这样的现象,完全不同的空间分布几乎总是看起来完全不同。更重要的是,鉴于视觉系统的目的是根据近端刺激产生关于远端刺激的描述,感知到的亮度模式至少大致对应于环境中表面上的亮度模式。颜色感知则不然。许多完全不同的光谱分布可以产生特定颜色的感觉。相应地,表面是特定颜色的感觉提供了很少的有关来自表面的光谱分布的直接信息。例如,由 700 nm 和 540 nm 波长的光以适当选择的相对强度组成的光谱分布将看起来与单一波长为 580 nm 的光无法区分(具有不同光谱组成的感知上无法区分的颜色称为变色龙)。如果我们看到“黄色”,我们就无法知道它是由这些分布中的哪个产生的,还是由无限家族的其他光谱分布产生的。因此,在视觉上,术语“颜色”指的是纯粹的感知品质,而不是物理属性。
“颜色视觉研究的历史以其尖锐程度著称。” —— 理查德·格雷戈里(1997)
人类视网膜中有两类光感受器。锥细胞参与颜色感知,而棒状细胞对可见范围内的光能敏感,不提供有关颜色的信息。有三种类型的锥细胞,每种具有不同的光谱敏感性(图 19.12)。 锥细胞响应于可见光谱中蓝色范围的短波长。 锥细胞响应于可见光谱中间(绿色)区域的波长。 锥细胞响应于稍长的波长,包括可见光谱中的绿色和红色部分。
图 19.12。人类视网膜中短、中、长锥细胞的光谱敏感性。
在人类视网膜中,虽然通常将三种锥细胞描述为红色、绿色和蓝色,但这既不是正确的术语,也无法准确反映图 19.12 所显示的锥细胞敏感性。 锥细胞和 锥细胞广泛调谐,意味着它们对广泛的频率范围做出反应。三种锥细胞类型的敏感度曲线之间也存在重叠。这两个属性共同意味着,根据三种锥细胞类型的反应来重建原始光谱分布的近似值是不可能的。这与视网膜(以及数字相机)中的空间采样是相反的,在这些情况下,受体在其空间敏感度方面被狭窄地调谐,以便能够检测到局部对比度的细节。
人类视网膜中仅有三种颜色敏感的光感受器,这极大地简化了在计算机显示器和其他图形显示器上显示颜色的任务。计算机显示器将颜色显示为三个固定颜色分布的加权组合。最常见的三种颜色是明显的红色、明显的绿色和明显的蓝色。因此,在计算机图形中,颜色通常由红-绿-蓝(RGB)三元组表示,表示显示特定颜色所需的红、绿和蓝原色的强度。三种基础颜色足以显示大多数可感知的颜色,因为适当加权的三个适当选择的颜色的组合可以产生这些可感知颜色的变色龙。
RGB 颜色表示法至少存在两个重要问题。第一个问题是不同的显示器对其红、绿、蓝原色具有不同的光谱分布。因此,感知正确的颜色再现涉及重新映射每个显示器的 RGB 值。当然,这只有在原始 RGB 值满足某些明确定义的标准时才可能实现,而这通常并非如此。(有关此问题的更多信息,请参见第 18 章。)第二个问题是 RGB 值不以与主观感知相对应的方式定义特定颜色。当我们看到“黄色”时,我们没有感觉它是由红光和绿光的等量部分组成的。相反,它看起来像是一种单一的颜色,具有亮度和“颜色数量”的其他属性。将颜色表示为 锥细胞、 锥细胞和 锥细胞的输出也没有用处,因为我们对这些属性所描述的颜色的现象学感知与以 RGB 显示属性为特征的感知一样少。
有两种不同的方法可以更接近地反映人类感知来描述颜色。各种 CIE(国际照明委员会)颜色空间旨在“感知上均匀”,以便代表两种颜色的值之间的差异大小与感知到的颜色差异成比例(Wyszecki&Stiles,2000)。事实证明,这是一个难以实现的目标,并且多年来对 CIE 模型进行了几次修改。此外,虽然 CIE 颜色空间的一个维度对应于感知亮度,但另外两个指定色度的维度没有直观含义。
第二种更自然地描述颜色的方法始于观察到有三种明显且独立的属性主宰着颜色的主观感知。已经讨论过的光度(lightness)是表面的明亮程度。饱和度(saturation)是指颜色的纯度或生动性。颜色可以从完全不饱和的灰色到部分饱和的淡彩色到完全饱和的“纯”颜色范围。第三个属性色调(hue)最接近单词“颜色”的非正式感觉,并且类似于可见光谱中的颜色,从深紫色到深红色。图 19.13 显示了色调-饱和度-光度(HSV)颜色空间的绘图。由于亮度和光度之间的关系既复杂又不太清楚,HSV 颜色空间几乎总是使用亮度而不是尝试估计光度。但是,与光谱中的波长不同,色调通常以反映可见光谱极端实际相似性的方式表示(图 19.14)。特定颜色值的 RGB 和 HSV 表示之间存在简单的转换。因此,虽然 HSV 颜色空间受到感知考虑的推动,但它不包含比 RGB 表示更多的信息。
图 19.13. HSV 颜色空间。色调沿着圆圈变化,饱和度随半径变化,亮度随高度变化。
图 19.14。哪种颜色更接近于红色:绿色还是紫色?
描述颜色的色调-饱和度-光度方法基于单个点上的光谱分布,因此仅近似于分布在空间上的光谱分布的感知响应。颜色感知受到类似于亮度/明度的恒常性和同时对比效应的影响,这两者都没有在 RGB 表示中捕捉到,因此也没有在 HSV 表示中捕捉到。关于颜色恒常性的一个例子,看看室内白纸在白炽灯下和户外阳光直射下的情况。纸张在两种情况下看起来都是“白色”,即使白炽灯具有明显的黄色色调,因此反射在纸张上的光也会有黄色色调,而阳光具有更为均匀的颜色谱。
颜色感知中另一个未被 CIE 颜色空间或 HSV 编码所捕捉的方面是,当我们看连续的可见光谱(图 19.11)或自然出现的彩虹时,我们只看到少量不同的颜色。对于大多数人来说,可见光谱似乎被分成四到六种不同的颜色:红色、黄色、绿色和蓝色,再加上淡蓝色和紫色。考虑非光谱颜色,英语中通常使用的基本颜色术语仅有 11 个:红色、绿色、蓝色、黄色、黑色、白色、灰色、橙色、紫色、棕色和粉色。将固有连续的光谱分布空间划分为与明确定义的语言术语相关联的相对较小的一组感知类别似乎是感知的基本属性,而不仅仅是文化产物(Berlin&Kay,1969)。然而,这个过程的确切性质尚不清楚。
自然照明强度在 6 个数量级内变化(图 19.15)。人类视觉系统能够在这些亮度级别的整个范围内运作。然而,在任何一个时间点,视觉系统只能检测到光强度变化的一个更小的范围。随着视觉系统暴露于平均亮度的变化,可区分亮度范围以相应方式改变。如果我们迅速从明亮的室外区域移动到非常黑暗的房间,则产生的影响最为明显。起初,我们几乎看不到东西。然而,一段时间后,房间中的细节开始变得明显起来。发生的暗适应涉及眼部的许多生理变化。需要几分钟才能进行重要的暗适应,完全的暗适应需要大约 40 分钟左右。如果我们再次回到明亮的光线下,不仅视力困难,而且实际上可能会感到疼痛。要再次清晰地看见,需要进行光适应。与暗适应相比,光适应更快,通常需要不到一分钟。
图 19.15。不同类型照明下白色表面的大致亮度水平,以每平方米坎德拉 () 表示。(Wandell,1995)。
人类视网膜中的两类光感受器对不同范围的亮度敏感。圆锥体提供了大部分我们认为是正常照明条件下的视觉信息,范围从强烈的阳光到昏暗的室内照明。棒状细胞仅在非常低的光水平下有效。光视觉涉及只有圆锥细胞有效的亮光。暗视觉涉及仅棒状细胞有效的黑暗光。存在一定范围的强度,在此范围内圆锥细胞和棒状细胞对光的变化都很敏感,这被称为略微超过用于指视力的 thumb 指在伸出手臂的位置,即介于光和暗之间的 mesopic 条件(参见第 21 章)。
人类视觉系统中的每只眼睛具有约 160°水平和 135°垂直的视场。通过双眼观察,两只眼睛的视野部分重叠。这导致总的视野范围更广(大约 200°水平和 135°垂直),重叠区域大约为 120°水平和 135°垂直。
正常或矫正到正常视力时,我们通常有一种主观体验,认为无论我们看哪里都能看到相对精细的细节。然而,这只是一种幻觉。每只眼睛的视野实际上只对微小的细节敏感。要看到这一点,请将一张覆盖了普通大小文字的纸片伸到手臂长度处,如图 19.16 所示。用另一只手遮住另一只眼睛,注视拇指并不移动眼睛,注意到拇指上方的文本是可读的,而两侧的文本则不能读取。高分辨率视觉仅限于视觉角略大于您伸出手臂时的拇指大小。我们通常没有注意到这一点,是因为眼睛通常频繁移动,允许以高分辨率查看不同区域的视野。然后,视觉系统会随着时间的推移整合这些信息,产生关于整个视野以高分辨率被看到的主观体验。
图 19.16。如果您将一张文字页面伸到手臂长度处并注视拇指,只有靠近拇指的文本是可读的。照片由 Peter Shirley 提供。
人类视皮层中没有足够的带宽来处理整个视网膜上图像强度的密集采样所产生的信息。视网膜中密集包装的光感受器和快速眼动指向感兴趣区域的机制结合在一起,提供了同时优化视力和视野的方式。其他动物已经进化出不依赖于快速眼动的平衡视力和视野的不同方式。有些动物只有高分辨率视觉,但视野范围狭窄。其他动物具有广泛的视野,但能力有限,无法看到细节。
将环境中的感兴趣区域对准视网膜斑点的眼球运动称为瞬目。瞬目非常迅速。从触发刺激到眼球运动完成的时间为 150-200 毫秒。其中大部分时间花费在视觉系统规划瞬目上。实际运动平均需要 20 毫秒左右的时间。在瞬目期间,眼睛移动非常快,最大旋转速度通常超过每秒 500 度。在瞬目之间,眼睛指向感兴趣的区域(凝视),需要大约 300 毫秒来获取细节的视觉信息。多个凝视被整合成为一个关于宽视野下精细细节的主观感觉的机制尚不清楚。
图 19.17 显示了人类视网膜中圆锥体和棒状细胞的可变包装密度。圆锥体负责正常照明下的视觉,最紧密地包装在视网膜的斑点处(图 19.17)。当眼睛在环境中固定在一个特定点上时,该点的图像落在斑点上。在斑点处圆锥体的高包装密度导致对成像光的更高采样频率(参见第 9 章),因此采样模式中具有更多的细节。斑点视觉范围约为 1.7°,与您伸出手臂时拇指的宽度相同。
图 19.17。人类视网膜中的棒状细胞和锥体密度(摘自 Osterberg(1935))。
虽然图 19.17 的某个版本出现在大多数介绍人类视觉感知的教材中,但它只提供了关于视力神经生理限制的部分解释。在光信息传送到视觉皮层之前,眼睛中的神经互连以各种方式汇集了单个棒状细胞和锥体的输出。这种汇集通过滤波光模式所提供的信号,以一种对可检测的光模式产生重要影响的方式。特别是,远离中央凹时,亮度平均的面积越大,空间分辨率随着距离中央凹的增加急剧下降。大多数显示棒状细胞和锥体包装密度的图形都指出视网膜盲点的位置,那里眼睛到大脑传递光学信息的神经束穿过视网膜,在那里没有光敏感性。总的来说,视网膜盲点对现实世界的感知唯一的实际影响是在介绍感知教材中作为一种幻觉使用,因为正常的眼动在其他情况下会弥补信息的暂时丧失。
如图 19.17 所示,棒状细胞包装密度在中央凹的中心降至零。远离视网膜中央凹,棒状细胞密度先增加后减小。这导致在光照非常低的情况下不存在中央凹视觉。在月黑风高的夜晚,远离城市灯光,可以通过观察夜空来证明中央凹中没有棒状细胞。有些星星会非常微弱,如果你看向星星稍微偏离一点的地方,它们会可见,但如果你直接看它们,它们将消失。这是因为当您直接观察这些特征时,特征的图像只落在视网膜中的锥体上,而锥体对于检测特征的光线不够敏感。稍微向旁边看会使图像落在更敏感的锥体上。在某种程度上,暗视觉也受到分辨率的限制,部分原因是视网膜上的棒状细胞密度较低,并且更多的信号汇集来自视网膜,以增加传回大脑的视觉信息的光敏感性。
本节讨论了我们检测视觉运动的能力。在视网膜上落下的光模式不断变化,因为眼睛和身体的运动以及世界中物体的运动。视觉系统通过三种方式实现稳定视觉:减少扫视期间的对比度敏感度;在扫视之间,通过各种复杂机制调整眼部位置以弥补头部、身体运动以及世界中感兴趣的物体的运动;利用有关眼睛位置的信息将多次注视的高分辨率小图像拼接成一个单一的、稳定的整体。
直线和边缘的运动是模糊的,如果没有端点或角落可见,这种现象被称为光圈问题(图 19.18)。光圈问题的产生是因为平行于线或边缘的运动不会产生任何视觉变化。然而,在实践中,由于真实世界的几何形态足够复杂,这很少会引起困难,除非是像理发杆这样的有意诱导的幻觉。但是,在某些计算机图形渲染中发现的简化几何形态和纹理可能会引入感知运动的不准确性。
图 19.18。光圈问题:(a)如果一条直线或边缘的端点被隐藏,那么视觉信息不足以确定该线的实际运动。(b)如果在线上有任何转角或其他特殊标记,则二维线性运动是明确无误的。
实时计算机图形、电影和视频不能没有一个重要的知觉现象:不连续运动,即一系列静态图像在离散的时间间隔内可见,然后通过离散的空间间隔移动,几乎与连续运动无法区分。这种效果被称为表观运动,以突出连续运动的外观是一种幻觉。
图 19.19 说明了连续运动(真实世界的典型运动方式)和表观运动(由几乎所有动态图像显示设备生成)之间的区别。图 19.19(b)中绘制的运动由与图 19.19(a)中所示的平均运动相当的高空时频率调制,该频率解释了不断地在静止图案和将它们不连续地移动到新位置之间切换。连续运动的表观感知是因为视觉系统对运动的高频成分不敏感。
图 19.19。 (a)连续的运动。(b)平均速度相同的不连续运动。在某些情况下,这两种运动模式的感知可能相似。
当单个图像出现的速率高于约 10 Hz 时,并且连续图像之间的位置变化不太大时,就会产生明显的表观运动感。然而,对于大多数图像显示设备来说,这个速率不够快以产生令人满意的连续运动感。几乎所有这样的设备在切换到下一个图像时都会引入亮度变化。在良好照明条件下,人类视觉系统对最高达 80 Hz 的变化速率敏感。在低光条件下,检测能力可达 40 Hz。当交替亮度的速率足够高时,闪烁融合发生,变化不再可见。
因此,要产生强烈的视觉运动感,图像显示必须满足两个单独的约束条件:
一种解决方案是要求图像更新速率大于或等于 。然而,在许多情况下,这是不可能的。对于计算机图形显示,帧计算时间通常比 12-15 毫秒要长得多。传输带宽和较旧监视器技术的限制使正常广播电视限制为每秒 25-30 幅图像(某些 HDTV 格式以每秒 60 幅图像运行)。由于曝光时间要求和物理上不能更快地移动电影胶片的机械困难,电影以每秒 24 帧更新图像。
不同的显示技术通过不同的方式解决了这个问题。计算机显示器以大约 刷新显示的图像,而不管图像内容的更改频率如何。对于这样的显示,帧率一词是含糊的,因为需要两个值来描述此显示:刷新速率,表示图像重新显示的速率;帧更新率,表示为显示生成新图像的速率。标准的非 HDTV 广播电视使用 (NTSC,在北美和其他一些地区使用)或 (PAL,在世界其他大部分地区使用)的刷新率。帧更新速率是刷新率的一半。不是两次显示每个新图像,而是将交替的水平图像行分成偶数和奇数字段,并交替显示这些偶数和奇数字段,从而避免闪烁。在电影中使用机械快门在移动到下一帧之前使电影的每帧闪烁三次,从而产生 的刷新率,同时保持 的帧更新速率。
使用表观运动来模拟连续的运动有时会产生不良的伪影。其中最为人所知的是车轮幻觉,其中旋转车轮的辐条看起来会以与车轮平移运动相反的方向旋转。车轮幻觉是时间混叠的一个例子。车轮或旋转盘上的其他空间周期图案对于相对于车轮或盘中心固定的观察位置产生一个时间周期信号。固定的帧更新速率在时间上对这个时间周期信号进行采样,并且如果采样的模式的时间频率太高,则会产生混叠现象,导致显示图像时出现较低的时间频率。在某些情况下,时间频率的扭曲会导致空间扭曲,使车轮看起来向后移动。车轮幻觉比视频更容易发生,因为时间采样率较低。
在将表观运动图像从一种媒介转换为另一种媒介时也可能会出现问题。当 的电影转换为视频时,这尤其令人担忧。不仅需要将非交错格式转换为交错格式,还没有直接的方法可以从每秒 24 帧转移到每秒 50 或 60 个场。一些高端显示设备具有部分补偿将电影转换为视频时引入的伪影的能力。
视觉系统执行的关键操作之一是估计可见环境的几何属性,因为这些属性对于确定有关对象、位置和事件的信息至关重要。有时将视觉描述为反向光学,以强调视觉系统的一个功能是反转图像形成过程,以确定产生在视网膜上的特定光图案的几何形状、材料和照明。视觉系统的中心问题是,可见环境的属性在成像在视网膜上的光模式中混淆。亮度是照明和反射的函数,并且由于光传输的复杂性,可以依赖于跨越大空间区域的环境属性。投影的环境位置的图像位置最多只能用于将该位置的位置约束为半线。因此,很少有可能唯一地确定产生特定成像光模式的世界的性质。
确定表面布局 —— 环境中可见表面的位置和方向——被认为是人类视觉的关键步骤之一。关于视觉系统如何从它接收到的光模式中提取有关表面布局信息的大多数讨论将问题分成了一组视觉线索,每个线索描述了一个特定的视觉模式,可以用来推断表面布局的属性以及所需的推理规则。由于通常无法准确且明确地仅通过视觉确定表面布局,因此推断表面布局的过程通常需要额外的非视觉信息。这些信息可以来自其他感官或对现实世界可能发生的假设。
视觉线索通常分为四类。眼运动线索涉及有关眼睛位置和聚焦的信息。视差线索涉及从两只眼睛观察同一表面点中提取的信息,超出眼睛定位提供的信息。运动线索提供有关世界的信息,这些信息来自于观察者的运动或物体的运动。图像线索是由将三维表面形状投影到落在视网膜上的二维光模式的过程产生的。本节介绍与从表面的个别点提取几何信息相关的视觉线索。关于位置和形状信息的更一般的提取在第 19.4 节中涵盖。
在可见表面上描述点的位置和方向必须在特定参考系的背景下进行,该参考系指定了用于表示几何信息的坐标系的原点、方向和缩放。人类视觉系统使用多个参考系,部分是由于不同的视觉线索提供了不同类型的信息,部分是由于信息被用于不同的目的(Klatzky,1998)。以观察者身体为基础的自我中心表示与眼睛、头部或身体固定的坐标系相对应。与自己无关的外禀中心表示与观察者外部的某些对象有关。外禀中心参考系可以局限于环境中某些物体的配置,也可以基于显著位置、重力或地理属性进行全局定义。
从观察者到环境中特定可见位置的距离,在自我中心表示中表示为深度,常常在感知文献中被提到。表面方向可以用自我中心或外禀中心坐标表示。在方位角的自我中心表示中,倾斜(slant)一词用来表示视线到点之间的角度和点处的表面法线之间的夹角,而倾斜(tilt)一词则用来表示投影在垂直于视线的平面上的表面法线方向。
距离和方向可以用各种测量尺度来表示。绝对描述使用的是非感知信息本身的标准来进行指定。这些可以是文化上定义的标准(例如米),也可以是相对于观察者身体的标准(例如眼睛高度,肩膀宽度)。相对描述将一个感知到的几何属性与另一个相关联(例如点 a 比点 b 远两倍)。序数描述是相对测量的一种特殊情况,在其中只有关系的符号而不是大小被表示。表 19.1 提供了最常考虑的视觉线索列表,以及它们可能提供的信息类型的描述。
表 19.1。绝对深度 (a)、相对深度 (r) 和序数深度 (o) 的常见视觉线索。
关于深度的眼动信息直接来自于眼睛的肌肉控制。有两种不同类型的眼动信息:调节是眼睛在特定距离处进行光学聚焦的过程,而汇聚(通常称为偏置)是两只眼睛指向三维空间中同一点的过程。调节和汇聚都有可能提供有关深度的绝对信息。
从生理上讲,人类眼睛的聚焦是通过扭曲眼前的透镜形状来实现的。视觉系统可以从这种扭曲的程度中推断出深度信息。调节是一个相对较弱的距离线索,在超过约 2 米的距离时失效。大多数人在超过 45 岁之后,在一定距离范围内对聚焦越来越困难。对他们来说,调节功能甚至更加无效。
那些不熟悉视觉感知细节的人有时会混淆调节产生的深度估计与由于眼睛有限景深所带来的模糊产生的深度信息。调节深度线索提供有关其聚焦区域的距离信息。除了模糊用于视觉系统调整焦点之外,它不依赖于其他视野部分的模糊程度。景深似乎提供了一定程度的序数深度信息(图 19.20),尽管这种效应受到限制性的调查。
图 19.20。中央正方形是出现在圆圈图案前面,还是被视为从圆圈图案的正方形孔中出现?这两个图像唯一不同的是线条和圆圈图案之间边缘的锐度(Marshall、Burbeck、Arely、Rolland 和 Martin (1999),获得允许后使用)。
如果两只眼睛聚焦于空间中的同一点,可以使用三角函数来确定观察者到观察位置的距离(图 19.21)。对于最简单的情况,即感兴趣的点直接在观察者前方,
图 19.21。两只眼睛的汇聚提供了关于眼睛注视点距离的信息。
其中 是世界上一个点的距离, 是表示眼睛之间距离的瞳距, 是表示眼睛相对于直前方向的朝向的偏置角度。对于人眼的几何配置, 很小时(用弧度表示时),。因此,汇聚角度的差异通过以下关系指定深度的差异:
随着θ以均匀步长趋近于 , 变得越来越大。这意味着当整体深度增加时,立体视觉对深度变化的敏感性降低。实际上,汇聚只为距离超过几米的绝对深度提供信息。超出这个范围后,距离的变化产生的偏置角度太小而无法使用。
在人类视觉系统中,调节和汇聚之间存在互动:调节用于帮助确定适当的汇聚角度,而汇聚角度用于帮助设置焦点距离。通常情况下,在设置调节或偏置时存在不确定性时,这有助于视觉系统。然而,立体投影计算机显示打破了在现实世界中焦点和偏差之间的关系,导致许多感知困难(Wann、Rushton 和 Mon-Williams, 1995)。
当眼睛对准空间中的一个共同点时,汇聚角度只是视觉系统从双眼立体感知中确定深度的一种方式。第二个机制涉及比较两只眼睛的视网膜图像,不需要有关眼睛指向的信息。一个简单的例子可以证明这种效应。将手臂伸直在你前面,大拇指向上。盯着你的大拇指,然后闭上一只眼睛。现在,同时打开那只闭上的眼睛,并关闭原来打开的眼睛。你的大拇指看起来更加稳定,而看到大拇指后面更远处的表面则会从左到右移动(图 19.22)。在左右眼之间场景中某些点的视网膜位置的改变称为差异。
图 19.22。双眼差异。左右眼的视角显示了与固定点深度不同的表面点的偏移。图片由 Peter Shirley 提供。
双眼差异线索要求视觉系统能够将世界上某些点在一个眼睛中的图像与这些点在另一个眼睛中的成像位置匹配,这个过程被称为对应问题。这是一个相对复杂的过程,目前只有部分得到了理解。一旦建立了对应关系,特定点在世界上的相对位置投射到左右视网膜上的位置指示这些点比固定点更近或更远。当对应点相对于中央凹向外偏离时,发生穿越差异,表示表面点比固定点更近;当对应点相对于中央凹向内偏移时,则会出现未穿越差异,表示表面点比固定点更远(图 19.23)[4]。双眼差异是一种相对深度线索,但当通过汇聚进行缩放时,它也可以提供有关绝对深度的信息。公式(19.5)适用于双眼差异和双眼汇聚。与汇聚类似,双眼差异对深度变化的敏感性随深度增加而降低。
图 19.23。靠近视线的表面点,产生穿越差异的表面点比固定点更近,而产生未穿越差异的表面点则比固定点更远。
[4] 从技术上讲,穿越和未穿越差异表示生成差异的表面点比水平面更接近或更远。水平面并不是离眼睛的固定距离,而是通过固定点的一个曲面。
眼睛和可见表面之间的相对运动将在视网膜上的表面图像中产生变化。眼睛与表面点之间的三维相对运动会产生投影到视网膜上的二维运动。这种视网膜运动被称为光流。光流是几种深度线索的基础。此外,光流可以用于确定个人在世界中的移动方式以及是否即将发生碰撞(第 19.4.3 节)。
如果一个人向一侧移动,同时继续注视某个表面点,则光流提供了类似于立体差异的深度信息。这被称为运动视差。对于那些投影到靠近固定点视网膜位置的其他表面点,零光流指示与固定点等价的深度;头部平移方向相反的流量指示更近的点,相当于穿越差异;而与头部平移方向相同的流量则指示更远的点,相当于未穿越差异(图 19.24)。运动视差是一个强有力的相对深度线索。原则上,如果视觉系统可以访问头部运动速度的信息,运动视差可以提供绝对深度信息。实际上,运动视差最多只能提供较弱的绝对深度提示。
除了由运动视差产生的自我中心深度信息之外,视觉运动还可以提供有关相对于观察者移动的物体的三维形状的信息。在感知文献中,这被称为动态深度效应。在计算机视觉中,则称之为运动结构。动态深度效应认为物体运动的一个组成部分是深度旋转,这意味着围绕垂直于视线的轴的旋转分量。
图 19.24。(a)向右侧移动并注视一个扩展的地面平面时产生的运动视差。(b)相同的运动,固定点进行眼球追踪。
光流还可以提供有关表面边界的形状和位置的信息,如图 19.25 所示。光流中的空间不连续性几乎总是与深度的不连续性相对应或由于独立移动的物体而引起。简单比较光流的大小是不足以确定深度变化符号的,除非在观察者在其余世界中静止不动的特殊情况下。然而,即使存在独立移动的物体,也经常可以通过其他方式确定表面边界上深度变化的符号。运动通常会改变表面边界处可见的更远表面的部分。由于近处遮挡表面逐渐揭开或覆盖更远的被遮挡表面的一部分,因此表面纹理的出现(添加)或消失(删除)会发生。在纹理添加或删除的情况下,在边界两侧表面纹理的运动比较也可以用于推断序数深度。光流中的不连续性和表面纹理的添加/删除称为动态遮挡线索,是关于环境空间结构的另一个强大信息来源。
图 19.25。光流中的不连续性信号表面边界。在许多情况下,可以确定深度变化的符号(即序数深度)。
从视觉运动本身无法确定观察者相对于世界上的点移动的速度(见第 19.4.3 节)。尽管存在这种限制,但即使不能确定速度,也可以使用视觉信息确定到达世界上可见点所需的时间。当速度恒定时,接触时间(通常称为碰撞时间)由观察者向其移动的实体的视网膜大小除以该图像大小增加的速率给出 [5]。在生物视觉文献中,这通常被称为τ函数(Lee&Reddish,1981)。如果可用于基于碰撞时间估计的世界结构的距离信息,则可以使用它来确定速度。
[5] 接触时间和碰撞时间这些术语是具有误导性的,因为只有在观察者的轨迹实际经过或靠近所观察的实体时才会发生碰撞。
即使没有双眼立体或运动,图像仍然可以包含有关其来源的世界的空间结构的大量信息。作为这一点的证据,请注意,即使我们闭上一个眼睛,保持头部静止,环境中没有任何运动,世界仍然呈现出三维效果(如第 19.5 节所讨论的,在照片和其他显示的图像的情况下,情况更加复杂)。这样的图像深度提示分为三类。其中最广为人知的是线性透视。还有许多遮挡线索,即使在没有透视的情况下也提供序数深度信息。最后,涉及明暗、阴影和内反射的照明线索以及大气透视也提供关于空间布局的视觉信息。
线性透视这个术语通常用于指涉及图像中物体大小与距离成比例、平行线汇聚、地面平面延伸到可见的地平线以及地平线相对于地面平面上物体的距离与其图像位置之间的关系等图像属性(图 19.26)。更正式地说,线性透视线索是利用以下事实的那些视觉线索:在透视投影下,从世界上点投影到的图像位置按比例缩放,其比例因子为 ,其中 是从投影点到环境中的点的距离。这种关系的直接结果是远离观察者的点投影到更接近图像中心的点(平行线汇聚)[6],并且更远世界点的图像之间的间距随着距离的增加而减小(图像中物体大小与距离成比例)。无限平坦表面的图像在有限地平线处结束的事实可以通过检查透视投影方程 来解释。
[6] 分析生物视觉具体问题的实际数学方法不同,因为眼睛不适用计算机图形学和大多数其他成像应用中使用的平面投影公式。
图 19.26。经典的线性透视效果包括物体大小与距离成比例、平行线汇聚、地面平面延伸到可见的地平线以及相对于地平线上的位置。图片由 Sam Pullara 提供。
除了第 19.4.2 节中描述的与大小相关的效应外,大多数涉及线性透视的图像深度提示都依赖于感兴趣的对象接触地面平面。实际上,这些线索估计的不是物体的距离,而是接触点到地面上的距离。假设观察者和物体都在水平地面上,则视图较低的地面上的位置会更接近。图 19.27 定量地说明了这种效应。对于一个高度为 且地面上感兴趣点与地平线之间的倾角为θ的视点,该问题的点距离观察者所站的点有一个距离 。倾角提供任意固定视点的相对深度信息,并且当通过眼高()进行比例缩放时,可以提供绝对深度信息。
图 19.27。可以根据相对于地平线的倾角和眼高确定地面上位置的绝对距离。
虽然人类视觉系统几乎肯定利用了倾斜角作为深度线索,但获取所需信息的确切机制尚不清楚。角度θ可以相对于重力或可见地平线进行测量。一些证据表明在人类视觉中两者都被使用。眼高 可以基于身姿,通过观察自己脚下的地面来进行视觉测量,或通过经验学习并被认为是恒定的。虽然许多研究人员已经调查了这个问题,但是否以及如何确定这些值尚不确定。
阴影提供了有关三维空间布局的各种类型的信息。连接阴影表示物体与另一个表面(通常由地面平面组成)接触。脱落阴影表示物体靠近某个表面,但未与该表面接触。阴影可以通过使物体看起来位于地面平面上阴影所在位置的深度而作为间接的深度提示(Yonas、Goldsmith 和 Hallstrom,1978)。当利用此线索时,视觉系统似乎假定光源来自正上方(图 19.28)。
图 19.28。阴影可以通过将物体深度与地面平面上的位置相关联而间接作为深度提示(来自 Kersten、Mamassian 和 Knill(1997))。
视觉不仅提供有关距离的信息,还提供有关表面方向的信息。通常用倾斜度表示视觉确定的表面方向,倾斜度定义为表面法线在图像中的投影方向,而倾斜度定义为表面法线与视线之间的夹角。
可见表面地平线可用于找到(有效无限的)表面相对于观察者的取向。确定倾斜度很简单,因为表面的倾斜度是可见地平线的方向。倾斜度也可以恢复,因为从视点到地平线的视线定义了与表面平行的平面。在许多情况下,表面地平线不可见或表面足够小以至于其远端与实际地平线不对应。在这种情况下,可见纹理仍然可以用于估计方向。
在感知的背景下,术语“纹理”指由一些子模式构成且被复制到一个表面上的视觉模式。子模式及其分布可以是固定和规则的,如棋盘格,也可以在更统计意义上保持一致,如草地的视图 [7]。当以斜角观察纹理表面时,与表面实际标记相比,纹理的投影视图会发生扭曲。两种截然不同的扭曲类型发生(Knill,1998),均受倾斜度的影响。纹理元素的位置和大小受到上述线性透视效应的影响。这会产生一个由于元素大小和间距随距离而减小的纹理梯度(Gibson,1950)(图 19.29(a))。在斜视下,单个纹理元素的图像和元素分布都被扭曲了(图 19.29(b))。这会导致在倾斜方向上的压缩。例如,斜视的圆看起来像一个椭圆形,其短轴和长轴之比等于斜度的余弦。请注意,扭曲本身不是线性透视的结果,但在实践中,线性透视和扭曲都提供有关倾斜度的信息 [8]。
[7] 在计算机图形学中,“纹理”一词具有不同的含义,指应用于渲染过程中作为表面的任何图像。
[8] 当以斜视方式查看具有明显 3D 表面起伏的表面时,第三种形式的视觉扭曲发生(Leung 和 Malik,1997),如图 19.29(c) 所示。目前不知道人类视觉系统是否或如何利用此效应来确定倾斜度。
图 19.29。倾斜度的纹理提示。 (a)表面近处出现压缩和纹理梯度;(b)表面远处仅显示压缩;(c)具有规则几何变化的近表面外观的可变性。
为了使纹理梯度成为表面倾斜的提示,纹理元素的平均大小和间距必须在整个纹理表面上保持一致。如果图像中大小和间距的空间变异性并非完全由投影过程引起,则尝试反转投影效应将会产生有关表面方向的错误推断。同样地,如果纹理元素的形状不是各向同性的,则扭曲提示会失败,因为在没有斜视视图的情况下会出现不对称的纹理元素图像形状。这些都是常常需要满足的假设,以使空间视觉线索有效。这些假设在一定程度上反映了世界中普遍存在的特征,因此是合理的。
着色也提供有关表面形状的信息(图 19.30)。表面上视图点的亮度取决于表面反射率以及表面与定向光源和观察点的方向关系。当物体的相对位置、视点方向和照明方向保持不变时,恒定反射率表面上亮度的变化表示物体表面方向的变化。从着色中恢复表面形状的过程称为从着色中恢复形状。几乎无法仅通过着色恢复出表面的实际方向,但是着色通常可以与其他线索结合使用,提供表面形状的有效指示。对于具有细粒度几何变化的表面,着色可以为二维表面上渲染的图像提供引人注目的三维外观(图 19.31)。
图 19.30。从着色中恢复形状。(a)和(b)中的图像由于表面亮度变化率的差异而呈现出不同的三维形状。
图 19.31。着色可以生成强烈的三维形状感知。在该图中,如果您用一只眼睛从几米远的地方查看图像,则效果会更强。如果在图形前面放置一个尺寸略小于图片的孔的硬纸板,则效果会更强(请参见第 19.5 节)。图像提供者:Albert Yonas。
存在许多描绘深度顺序信息的绘画线索,而没有直接指示实际距离。在线描绘中,不同类型的连接点为可能生成绘画的 3D 几何提供约束条件(图 19.32)。这些效应在更自然的图像中也经常发生。连接点线索中最具有感知效果的是 T 型连接点,它们是强烈的指标,表示 T 字干相对的表面遮挡着至少一个较远的表面。T 型连接点通常会产生无模式完成感,其中一个表面被认为在近处遮挡了一个更远的表面(图 19.33)。
图 19.32。 (a)连接点提供有关遮挡和角落的凸度或凹度的信息。 (b)平面表面对象的常见连接点类型。
图 19.33。T 型连接点使左边的圆盘似乎在矩形后面继续存在,而右边的圆盘则出现在矩形前面,而矩形被认为在圆盘后面继续存在。
大气效应会导致视觉变化,可以提供深度信息,特别是在户外长距离上。莱昂纳多·达·芬奇首次描述了空气透视(也称为大气透视),其中散射减少场景远处部分的对比度,并使它们看起来比近处更蓝色(达芬奇,1970)(请参见图 19.34)。空气透视主要是相对深度线索,尽管有一些推测认为它也可能影响绝对距离的感知。虽然许多人认为由于大气效应更远的物体看起来更模糊,但大气散射实际上并没有引起太多模糊。
图 19.34。大气透视,其中大气效应降低了对比度并使颜色偏向蓝色,提供了长距离的深度线索。
尽管当前的视觉科学家普遍认为视觉的目的是提取有关物体、位置和事件的信息,但关于提取哪些信息、如何提取以及如何使用该信息执行任务的关键特征存在很少共识。关于物体识别的本质以及物体识别与感知的其他方面之间潜在的相互作用存在重大争议。我们对位置的了解大多涉及低级空间视觉,而不涉及复杂对象之间的空间关系或在复杂环境中导航所需的视觉过程。我们对人们如何感知自己在世界上移动时的速度和航向有相当多的了解,但对实际事件感知的理解却有限。视觉注意涉及到物体、位置和事件的感知方面。虽然有很多数据描述相对简单且良好控制的刺激下视觉注意的现象学特征,但我们对视觉注意如何服务于高层次的感知目标知之甚少。
物体识别涉及将图像分离成对应于不同物理实体的组成部分,并确定这些实体的身份。图 19.35 说明了此过程涉及的一些复杂性。即使我们以前从未见过车辆的这个特定视角或大多数人通常不会将车辆与此上下文联系起来,我们仍然很容易识别左侧的图像是某种车辆。右侧的图像不太容易被认出,直到把页面颠倒过来,这表明人类物体识别具有方向偏好。
图 19.35。物体识别的复杂性。(a)即使我们以前可能从未见过车辆的这个特定视角,我们仍然能够识别出类似于车辆的对象。(b)根据快速浏览很难识别图像。如果将书倒置,它会变得更容易识别。
认为物体识别涉及两个相当不同的步骤。第一步将视觉场景组织成可能对应于物体和表面的分组。这些分组过程非常强大(见图 19.36),尽管没有意识到产生分组效果的低级图像特征。9 分组基于近义词的复杂交互,包括接近程度、图像中原始结构的亮度、颜色、形状和方向的相似性、共同运动以及各种更复杂的关系。
图 19.36。基于一组复杂的相似性和组织标准,图像被感知地组织成分组。(a)亮度相似性导致四个水平分组。(b)接近程度导致三个垂直分组。
物体识别的第二步是将分组解释为已识别的对象。计算分析表明,有许多明显不同的方法可以识别一个物体。感知数据不清楚人类视觉实际使用哪些方法。物体识别要求视觉系统具有足以将每个对象类与所有其他类区分开的描述。关于物体识别的理论在描述每个类的信息性质和用于将这些描述与世界实际视图匹配的机制方面存在差异。
9 最常见的视觉伪装形式涉及添加视觉纹理,以欺骗感知分组过程,使得无法按照分离被伪装物体的方式组织世界视图。
有三种一般类型的描述方法。模板根据每个类中对象的原型视图来表示对象类。图 19.37 展示了一个简单的例子。结构描述根据每个类的特征来表示对象类,这些特征可能在对象的视图中易于检测,并包含有关特征之间几何关系的信息。结构描述可以用 2D 或 3D 表示。对于对象类型的 2D 模型,必须为每个明显不同的潜在视图分别提供描述。对于 3D 模型,有两种不同的匹配策略可供选择。在一种策略中,在分类之前确定所观察到的物体的三维结构,使用任何可用的空间线索,然后将此视图的 3D 描述与已知对象的 3D 原型进行匹配。另一个可能性是某些机制允许确定尚未识别的物体在视图下的方向。使用此定向信息将潜在的 3D 描述旋转和投影,以便对描述和视图的 2D 进行匹配。最后,描述对象类属性的最后一个选项涉及描述对象类的不变特征,特别是那些可能对对象的不同视图不敏感的更通用的几何属性。
图 19.37。模板匹配。右侧图像中的亮点指示与左侧图像中模板的最佳匹配位置。图像由国家档案和记录管理局提供。
在没有更明确的深度信息的情况下,投射到视网膜较大区域的物体看起来比投射到较小视网膜区域的物体更近,这种效应称为相对大小。更强大的线索涉及熟悉的大小,可以提供对已知大小的可识别对象的绝对距离信息。熟悉大小作为深度线索的强度可以在如图 19.38 所示的幻觉中看到,其中它与基于地平面透视的深度线索产生冲突。熟悉大小是大小-距离关系的一部分,涉及物体的物理大小、同一物体在视网膜上投影的光学大小以及物体与眼之间的距离(见图 19.39)。
图 19.38。左图:透视和熟悉大小线索一致。右图:透视和熟悉大小线索不一致。图片由 Peter Shirley,Scott Kuhl 和 J. Dylan Lacewell 提供。
图 19.39。大小-距离关系允许基于物体所围视角来确定已知大小的对象的距离。同样,可以根据物体所围视角来确定已知距离处物体的大小。
当物体位于平坦地面上时,会出现其他深度信息来源,特别是当地平线可见或可从其他透视信息推导出时。接触点到地面的倾角是相对深度线索,并在经过眼高缩放后提供绝对视角距离,如图 19.27 所示。地平线比率将对象的完整可见高度与出现在地平线下方的那部分对象的可见范围进行比较,即使不知道到对象的距离也可以用来确定对象的实际大小(见图 19.40)。地平线比率的基础是对于平坦地面,视线到地平线的交点与物体相交的位置恰好是地面上方的眼高。
图 19.40。 (a)地平线比率可以通过比较地平线以下的对象的可见部分与该对象的总垂直可见范围来确定深度。(b)现实世界的例子。
人类视觉系统足以确定大多数被观察物体的绝对大小;我们对大小的感知主要受到实际物理大小的影响,几乎没有对相应视网膜大小的意识。这类似于之前讨论的亮度恒常性,因为我们的感知受到了推断出的世界属性的支配,而不是视网膜中光感受器实际感受到的低级特征。Gregory(1997)描述了大小恒常性的一个简单例子。将您的两只手放在身前,一只手在臂长处,另一只手在离您半个臂长的距离处(图 19.41(a))。尽管视网膜大小相差一倍,但您的两只手看起来几乎一样大。如果更近的一只手部分遮挡了更远的一只手,特别是如果您闭上一只眼睛,则效果会弱得多(图 19.41(b))。视觉系统还表现出形状恒常性,在其中几何结构的感知接近于实际物体几何,尽管由于透视引起的视网膜图像的扭曲比预期的更大(见图 19.42)。
图 19.41。 (a)大小恒常性使距离眼睛不同的手看起来在真实世界观察时几乎相同大小,尽管视网膜大小非常不同。(b)当一只手部分被另一只手遮挡时,特别是当闭上一只眼睛时,效果会减弱。图片由 Peter Shirley 和 Pat Moulis 提供。
图 19.42。形状恒常性-桌子看起来是矩形的,即使它在图像中的形状是一个不规则的四边形。
大多数事件感知方面超出了本章的范围,因为它们涉及复杂的非视觉认知过程。 然而,有三种类型的事件感知主要是视觉的,并且也与计算机图形学具有明显的相关性。 视觉能够提供关于人在世界中移动方式、世界中独立运动物体的存在以及由于观察者运动或由于物体向观察者移动而造成的碰撞的潜力的信息。
视觉可以用于确定旋转和相对于环境的平移方向。 最简单的情况涉及朝向垂直于视线的平坦表面的运动。 假设有足够的表面纹理以恢复光流,则流场将形成对称模式,如图 19.43(a)所示。 光流场的焦点在视场中的位置将有一个与平移方向相对应的视线。 虽然光流可以用于视觉上确定运动方向,但它不包含足够的信息来确定速度。 要了解这一点,请考虑以下情况:世界变为两倍大,观察者移动速度也加倍。 由于距离加倍而导致的流值大小的减小正好被由于速度加倍而导致的流值大小的增加所抵消,从而产生相同的流场。
图 19.43。 (a)朝向平坦纹理表面的运动会产生扩展的光流场,其中扩展焦点指示与运动方向相对应的视线。(b)在垂直于视线的平坦表面上观察时,绕垂直轴旋转所产生的光流场。(c)平行于平坦纹理表面的平移所产生的光流场。
图 19.43(b)显示了观察者(或更准确地说,观察者的眼睛)绕垂直轴旋转所产生的光流场。 与平移运动相比,光流提供足够的信息来确定旋转轴和旋转(角)速度。 利用这一点的实际问题是,纯粹围绕垂直于视线的轴旋转所产生的流与沿垂直于视线和旋转轴的方向进行纯平移所产生的流非常相似,使得难以在视觉上区分两种非常不同类型的运动(见图 19.43(c))。 图 19.44 显示了通过更真实的环境移动产生的光流模式。
图 19.44。通过移动静止环境生成的光流提供有关相对于环境的运动和环境中点的距离的信息。 在这种情况下,视线方向朝向地平线以下,但如扩展焦点所示,运动是平行于地面平面的。
如果观察者完全静止不动,则可以轻松地检测到移动物体,因为这些物体将与视野中唯一的非零光流相关。 当观察者在移动时,情况要复杂得多,因为视野将被非零流所主导,其中大部分或全部是由观察者和静态环境之间的相对运动引起的(Thompson&Pong,1990)。 在这种情况下,视觉系统必须对光流场中与观察者相对于静态环境的运动相关的流场不一致的模式敏感(见图 19.45)。
图 19.45。从移动的观察点进行移动物体的视觉检测需要识别光流中无法与通过静态环境运动相关联的模式。
第 19.3.4 节描述了如何使用视觉来确定与环境中某个点的接触时间,即使速度未知。 假设一个以直线、恒定速度轨迹移动的观察者,并且世界上没有独立运动的物体,则在与对应于扩展焦点方向的视线方向接触的表面上,将在τ关系指示的时间内完成接触。独立运动的物体会使确定是否实际发生碰撞变得更加复杂。 水手使用一种检测潜在碰撞的方法,该方法也可以在人类视觉系统中使用:对于非加速直线运动,将发生与视觉扩展但在自我中心参考系中仍保持视觉静止的对象的碰撞。
这里值得讨论的另一种更复杂的事件感知形式是与人类运动相对应的运动,因为它在交互式计算机图形中非常重要。 当只有行走者关节上的灯光可见时,就可以识别出运动,这被称为步态识别(Johansson,1973)。 这种移动的光显示甚至足以识别行走者的性别和行走者可能携带的负载重量等属性。 在计算机图形渲染中,观众将注意到即使是小的动画角色不准确,特别是如果它们旨在模仿人类运动。
视觉注意力这个术语涵盖了一系列现象,包括我们将目光集中到哪里,涉及复杂场景中我们注意到的内容以及如何解释我们注意到的信息的认知效应(Pashler,1998)。 图 19.46 提供了一个示例,说明即使对于非常简单的图像,注意过程也会影响视觉。 在左侧两个面板中,与其他图案形状或颜色不同的那个立即“突出”并容易被注意到。 在右侧面板中,既具有形状又具有颜色不同之处的一个图案更难找到。 原因在于,视觉系统可以对通过单独属性区分的项目进行并行搜索,但是在寻找需要通过两个区分特征同时存在来指示项目时,需要更多的认知、顺序搜索。 基于图形的人机界面应该(但经常没有!)设计为理解如何利用人类的视觉注意力过程,以便快速有效地传达重要信息。
图 19.46。在(a)和(b)中,视觉注意力很快被吸引到形状或颜色不同的项目上。在(c)中,似乎需要顺序搜索才能找到在形状和颜色上都不同的一个项目。
第 19.5 节图片感知。到目前为止,本章讨论了当世界直接被人眼成像时发生的视觉感知。当我们查看计算机图形的结果时,当然,我们正在查看渲染图像而不是真实世界。这具有重要的知觉意义。原则上,应该可以生成外观与真实世界无法区分的计算机图形,至少对于单眼观察而言,不需要物体或观察者运动。想象通过玻璃窗户望向世界。现在,考虑将窗户上每个点的颜色精确地涂成最初在该点处看到的世界的颜色 [10]。这种操作不会改变到达眼睛的光线,这意味着无论查看涂漆玻璃还是查看真实世界通过窗户,视知觉应该是相同的。计算机图形的目标可以被认为是产生涂有颜色的窗户,而不必实际拥有相等的真实世界视图。
[10] 这个想法最初由画家 Leon Battista Alberti 于 1435 年描述,现在被称为 Alberti 的窗户。它与暗箱相似。
计算机图形和其他视觉艺术的问题在于,实际上我们无法通过着色平坦表面来匹配真实世界的视图。真实世界中光的亮度和动态范围无论使用任何当前的显示技术都无法再现。渲染图像的分辨率通常也不及人类视觉可感知的最精细细节。亮度和颜色恒定性在图片中比真实世界中少得多,这可能是因为视觉系统试图根据查看环境的环境照明而不是与渲染图像相关联的照明来补偿照明的亮度和颜色的可变性。这就是为什么照片中实际颜色的逼真外观取决于拍摄照片时存在的胶片颜色平衡以及视频中逼真颜色需要进行白平衡步骤的原因。虽然对于限制分辨率、亮度和动态范围如何影响简单模式的可检测性已知很多,但几乎没有了解这些显示属性如何影响空间视觉或对象识别。
我们对这个问题的其他方面有了更好的理解,心理学家称之为图形空间知觉(S. Rogers,1995)。在查看图像和查看真实世界之间的一个区别是,调节、双目立体视觉、运动视差以及可能的其他深度线索可以表明视野下的表面与它所代表的世界中的距离非常不同。在这种情况下看到的深度往往处于图像中指示的深度和到图像本身的距离之间。当查看照片或计算机显示屏时,这通常会导致感觉比预期的要小。另一方面,在大屏幕电影院看电影会产生比在电视上看同样的电影更强烈的广阔感,即使到电视的距离使得视角相同,因为电影屏幕更远。
使用透视投影渲染的计算机图形具有一个视点,在模型空间中指定为位置和方向,以及一个视锥体,它指定了水平和垂直视野以及查看变换的几个其他方面。如果从正确的位置未查看渲染的图像,则图像边缘的视角将不匹配用于创建图像的视锥体。图像中所有视角也会失真,导致所有基于线性透视的图像深度和方向提示都失真。当观众站在照片或显示屏太近或太远的位置时,这种效应经常发生。如果观众离得太近,则深度的透视提示将被压缩,并且表面倾斜的提示将表明表面比实际情况更接近于垂直于视线。如果观众离照片或屏幕太远,则情况将反转。如果视线不通过查看区域的中心,情况会更加复杂,这在各种查看情况中通常是常见的。
人类视觉系统能够部分补偿由于在错误位置查看图像而导致的透视扭曲,这就是为什么我们能够坐在电影院的不同座位上,体验到类似的描绘空间感的原因。当控制查看位置特别重要时,可以使用查看管。这些是适当大小的管子,安装在相对于显示器的固定位置上,通过它们观察者看到显示器。观察管约束了观察点的(希望是)正确位置。观察管也非常有效地减少了图像中的图形线索和实际显示表面之间深度信息的冲突。它们消除了立体视觉和运动视差,如果存在,它们将对应于显示表面而不是渲染视图。如果它们直径足够小,则它们还通过隐藏图片框架或显示设备的边缘来减少其他指向显示表面位置的线索。头戴式显示器(HMD)等奇特的视觉沉浸式显示设备更进一步尝试隐藏指向显示表面位置的视觉线索,同时添加与正在渲染的世界几何一致的双目立体视觉和运动视差。
本文作者:青波
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!