摘要

本文采用高级视觉模型来描述灵长类视觉系统中的信息传递和连接。信息链接方案，如状态相关模块化和时间同步，被视为视觉系统使用期望组合信息的方法，以填充缺失信息和删除不需要的信息。研究了使用基于生理学理论模型的链接方法结合当前图像处理技术进行模式识别的可能性。这些图像处理技术是变换，例如（但不限于）小波滤波器、命中或未命中滤波器、形态滤波器和高斯差分滤波器。选择这些特殊的过滤器是因为它们模拟灵长类视觉系统中执行的功能。为了实现生理激励的连接方法，选择脉冲耦合神经网络（PCNN）作为视觉模型的基本构建块，在神经元脉冲水平上执行连接。最后，描述了一种基于PCNN的融合信息网络，并给出了初步结果。

介绍

基于计算机的数字滤波通常用于乳腺癌检测和自动目标识别等应用中的目标检测。过滤通常用于从图像中删除不需要的信息，希望剩余的信息将允许模式识别过程识别所需的对象。数字滤波器设计为对对象中包含的特定频率组或模式具有选择性。一般来说，没有一个过滤器可以对对象中的所有模式进行选择，并且仍然能够很好地去除不需要的信息。通常，使用多个过滤器并将结果合并。为了组合结果，使用简单的线性数学运算符（如AND运算符）或更复杂的方案（如图像金字塔法）。

人类视觉系统过滤不需要的信息，并以一种允许我们识别周围物体的方式组合结果。它结合了多种视觉信息来构建我们对外部世界的看法。形状、运动、颜色和纹理都经过过滤和组合，使我们能够学习和识别物体。每天都有新的事物被学习，新的记忆被形成。随着每一个新记忆的形成，我们的识别过程都会发生变化，以融入这种记忆。识别不仅仅是记忆与视觉系统产生的形式、运动、颜色和纹理的简单匹配。简单的实验将表明，记忆可以增强或抑制现有的视觉信息，同时填充预期但实际场景中不存在的信息。这种期望驱动的识别是视觉识别中一个重要但鲜为人知的部分。

背景

尽管灵长类大脑皮层视觉系统极其复杂，但研究表明，它可以由两种基本的层次性通路来建模，即小细胞通路和大细胞通路[10]。第一条路径主要处理颜色信息，其他路径处理形状和运动。

灵长类视觉系统的模型

图1显示了这两种途径的模型。图像进入模型的入口点是视网膜。生物视网膜具有亮度和颜色检测器，用于解释光图像，并在将图像转发给其他视觉系统之前对图像进行预处理。区域标记的LGN模拟生物外侧膝状体核。在人类视觉皮层中，模型区域标有以字母V开头的名称，模型特定区域。这些区域中的每一个都被认为保持着一个或多个经过处理但在地形上正确的落在视网膜上的光模式图像。本文稍后将讨论应用于图像的处理。第六区代表纹状体视觉皮层。区域V3、V4和V5被称为专业区域，因为人们认为它们仅分别处理形状、颜色和运动等选择性信息。此后，由每个视觉皮层区域维持的视觉图像将被称为视觉地图，或简称为地图。

图1中LGN、Vi和V2框中的名称表示该区域功能不同的部分。早期的研究人员使用细小、巨大、斑点、中间、薄条纹、粗条纹和中间成熟等术语来描述这些视觉区域的生物学上不同的部分。这些术语至今仍在使用，用于将视觉模型与生物视觉系统联系起来。每个方框代表一个独特的视觉地图，该地图被认为保存在视觉区域的相应部分[11178]。椭圆表示每个地图中包含的特定类型的信息。可视区域几乎完全连接，图中未显示。为清楚起见，该图仅显示与模型相关的更强连接。

信息反馈

图2显示了用于将信息传输回相关区域地图的可重入连接。这些可重入连接的一个功能是提供信息，以解决较低级别中可能存在的任何冲突[12]。如图2所示，来自可视区域的可重入连接不限于提供其输入的区域。这些额外的联系对于解决具有不同能力但对相同刺激作出反应的地区之间的冲突至关重要[11，330]。

图3显示了将每个可视区域的输出反馈（重入）到先前层次级别的区域地图中。每个图中显示的实心黑色椭圆表示在特定图上操作的处理单元的感受野大小。在每个连续的层级上，感受野变大，每个层级将其输出信息重新输入到较低的层级，以解决可能存在的任何冲突[11]。需要注意的是，许多区域接收的信息不是该区域通常处理的类型。例如，区域Vi的第4B层包含主要具有方向选择性的单元单元。这些处理单元既不是波长选择性的，也不是方向选择性的，但仍然从区域V4和V5接收此类信息。该信息不会被忽略，而是与方向信息相结合（链接），以消除任何歧义或冲突。

神经元处理单元滤波器

本文观察到这样一个假设：神经元处理单元最好被描述为沿着多个刺激方向选择性的过滤器[9]。表2给出了可用于近似每个可视区域的可能过滤器列表。表中包括引用这些过滤器的参考。

感知、认知和期望

期望可以通过将识别过程的结果映射回视觉系统来建模。这种重新进入将导致部分识别来填充图像缺失的细节。正如本文后面讨论的，这些期望可以强调感兴趣的对象，同时抑制不必要的信息。

生理性连接

脉冲耦合神经网络

一个生理激励的人工神经网络，脉冲耦合神经网络（PCNN），可以连接起来创建一个高度灵活的生理滤波器。PCNN对灵长类视觉皮层中观察到的脉冲高度、持续时间、重复频率和神经间联系进行建模。该模型不仅能满足我们视觉模型的滤波要求，还能产生所需的连接和脉冲，以模拟依赖于状态的调制和时间同步。图4显示了PCNN中单个神经元的框图。

有关PCNN的更多讨论，请参见参考文献[3]和[5]。表2显示了实现离散时间PCNN所需的方程式。

在该模型中，PCNN神经元接收来自前一层次结构层的馈电输入（X2），并接收来自其自身和其他层的链接输入（Y）。可重入输入将被视为链接输入。图5显示了样本PCNN中单个神经元的馈电和连接。

PCNN滤波器

单个PCNN神经元的滤波特性由馈电输入的模式和应用于这些输入的权重决定。滤光片的感受野由前一层馈电输入连接的形状决定。滤波特性由应用于进给输入的权重确定。例如，一个具有高斯（椭圆形）感受野的神经元将具有以椭圆形模式连接到前一层的馈电输入。在该椭圆模式中，应用于进给输入的权重（M2）在中心处为单位，并随着朝向椭圆边缘的高斯曲线而减小。

pcnn用于目标分割

PCNN的特征提取和对象分割特性来自神经元的脉冲频率。具有相关进食输入特征（颜色、强度等）的神经元具有相似的脉冲率。连接连接导致神经元紧密接近，相关特征一致脉冲（同步）。连接模式、权重（Wf）和连接系数（i:3）决定了连接输入影响神经元输出的接近度和程度。较大的链接字段往往会对图像产生平滑效果。较大的权重和连接系数（假设标准化，接近1）往往会导致相关特征较少的神经元同步。PCNN神经元（无连接）的脉冲重复率由馈电输入的大小决定。输入较大的神经元比输入较小的神经元脉冲频率更高。缺乏连接输入将导致具有相同馈电输入强度的神经元一致脉冲。对象分割高度依赖于链接系数8的值。

pcnn用于图像处理

以下PCNN配置已成功用于图像平滑和分割[7]。PCNN中的神经元数量等于输入图像中的像素数量。神经元被排列成一个具有横向连接的单层网络。每个神经元接收R半径内所有相邻神经元的链接输入。每个神经元只接收一个馈电输入，即输入图像中对应像素的强度。馈电输入上没有泄漏积分器。所有权重都设置为统一。

时间同步

1987年，在猩猩和猫的初级视觉皮层中发现了刺激相关的神经振荡。这些发现和理论建议（例如Grossberg 1983；Reitboek 1983，1989；von der Malsburg 1985；Damasio 1989）支持同步可能是将局部视觉特征连接到连贯的全局感知的机制的假设。两种类型的同步已经被理论化，刺激强迫同步和刺激诱导同步。第一类是输入刺激的直接结果。它不是振荡的，而是跟随刺激瞬变的时间过程。这种同步被认为在视觉皮层的所有区域都起着重要作用。第二类，刺激诱导的同步被认为是通过相互连接的局部神经振荡之间的自组织过程产生的。据认为，刺激诱导的同步主要支持更复杂的“注意知觉”的形成，这需要不同加工水平和记忆之间的迭代交互。[4]

PCNN支持本节讨论的两种类型的同步。馈电输入产生刺激强制同步，连接输入产生刺激诱导同步。前者表现为多个神经元之间的共同脉冲重复频率，后者表现为多个神经元之间单个脉冲的同步。图6显示了单个PCNN神经元的内部活动，该神经元在时间0时受到刺激，在时间250时被移除。每当内部神经元电位达到或超过触发阈值时，就会产生一个输出脉冲。

状态相关调制

视觉系统执行的处理包括一个实质性的编辑过程，该过程强调无关信息，并增加对目标信息含义的解释和推断。即使是早期的处理阶段，也不能给予视网膜图像的所有部分同等的权重。优先考虑观察者关注的那些元素。当刺激成为注意的目标时，许多神经元的反应会加倍。状态依赖信号被认为是导致这种优惠待遇的刺激。这些信号来自视网膜以外的其他来源。许多信号来自顶叶和颞叶的高级处理区。这些信号调节神经元对其感受野内刺激的反应。这些调制被认为可以过滤掉不相关的信号，并添加关于被记忆或推断存在的物体的信息。状态相关调制是一种处理层将其发现或期望叠加到另一个处理区域的方法。[6]

如表2中的方程式所示，PCNN的连接输入调制馈电输入。此过程模拟在视觉系统中观察到的状态相关调制。通过这种机制，发现、期望和记忆可以在处理区域之间以迭代的方式进行传递，直到所有的结果、期望和记忆都被整合到处理层次结构的每个层次。

结果

对乳腺癌图像的多个视图进行处理，以研究使用PCNN进行图像融合的可行性。图7显示了用于融合乳腺癌图像的PCNN的连接架构。原始图像的过滤版本使用PCNN链接输入链接到原始图像。这些图像代表了融合过程的预期结果。PCNN的链接机制使用时间同步和状态相关调制来增强滤波图像所表示的感兴趣对象。图7a显示了每个PCNN中使用的连接和馈电连接。图Th显示了用于融合每个PCNN产生的基于脉冲的信息的连接结构。