融合多区域信息的fMRI低级视觉区编码模型

赵未辰 ,  刘天源 ,  闫镔

信息工程大学学报 ›› 2025, Vol. 26 ›› Issue (06) : 646 -651.

PDF (3097KB)
信息工程大学学报 ›› 2025, Vol. 26 ›› Issue (06) : 646 -651. DOI: 10.3969/j.issn.1671-0673.2025.06.003
信息与通信工程

融合多区域信息的fMRI低级视觉区编码模型

作者信息 +

Encoding Model of fMRI Low-Level Visual Areas with Multi-Region Information Fusion

Author information +
文章历史 +
PDF (3170K)

摘要

针对人脑各视觉区功能磁共振成像(fMRI)信号具有异质性,且现有单区域建模方法忽略其他脑区影响、无法有效预测fMRI信号的问题,提出了一种基于多门混合专家(MMoE)的跨区域视觉编码方法。首先,该方法将相邻视觉皮层编码转换为多任务学习问题来模拟跨区域交互;其次,构建并行专家网络,通过该网络捕获跨区域共性特征与区域特异性信息;最后,设计自适应的门控函数,利用该函数动态融合专家输出,进而模拟生物视觉系统的跨区域交互机制。实验结果表明,模型在V1~V3各子区域预测准确率较单区域基准模型显著提升(V1v、V1d的优势体素占比达81.96%、92.38%),验证了融合多区信息的视觉编码方法的有效性。

Abstract

A cross-regional visual encoding method based on multi-gate mixture-of-experts (MMoE) is proposed to address the problem that functional magnetic resonance imaging (fMRI) signals of various visual regions in the human brain are heterogeneous, and existing single-region modeling methods ignore the influence of other brain regions and fail to effectively predict fMRI signals. First, the encoding of adjacent visual cortices is converted into a multi-task learning problem to simulate cross-regional interactions. Second, a parallel expert network is constructed to capture cross-regional shared features and region-specific information. Finally, an adaptive gating function is designed to dynamically fuse the outputs of experts, further to simulate the cross-regional interaction mechanism of the biological visual system. Experimental results demonstrate that the prediction accuracy of the model in each subregion of V1~V3 is significantly higher than that of the single-region baseline model, with the proportion of dominant voxels in V1v and V1d reaching 81.96% and 92.38%, respectively, validating the effectiveness of the visual encoding method integrating multi-region information.

Graphical abstract

关键词

功能磁共振成像 / 低级视觉区 / 视觉编码模型 / 多门混合专家网络 / 跨区域信息融合

Key words

functional Magnetic Resonance Imaging / low-level visual area / visual encoding model / multi-gate mixture-of-experts network / cross-regional information fusion

引用本文

引用格式 ▾
赵未辰,刘天源,闫镔. 融合多区域信息的fMRI低级视觉区编码模型[J]. 信息工程大学学报, 2025, 26(06): 646-651 DOI:10.3969/j.issn.1671-0673.2025.06.003

登录浏览全文

4963

注册一个新账户 忘记密码

功能磁共振成像(functional Magnetic Resonance Imaging, fMRI)基于血氧水平依赖(Blood Oxygenation Level Dependent, BOLD)效应,可通过检测神经元活动引发的血流动力学变化,对大脑视觉通路进行非侵入式观测。凭借毫米级空间分辨率与全脑覆盖能力[1-2],fMRI已成为解析视觉皮层层级组织结构的核心技术,既能精确定位视觉皮层V1、V2、V3等视觉分区边界,捕获多脑区协同激活模式[3],也为跨区域神经信息交互研究提供重要实验范式。近年来7 T超高场强fMRI更提升了丘脑皮层环路可视化精度[4],进一步推动了精细化多区域视觉编码模型的研究。
基于fMRI的视觉编码模型旨在建立视觉刺激到大脑响应的数学映射,通过计算模型预测脑区体素激活模式,揭示视觉表征层次,推动计算神经科学发展。目前已有众多研究围绕该方向展开,构建了涵盖单一视觉区域信息处理至跨视觉区域信息流循环等多层面的计算模型[5-10]。然而,当前主流数据驱动型编码模型多聚焦于单一低级视觉皮层区域建模,与视觉系统实际工作机制存在显著脱节,视觉皮层由多个解剖学可区分且紧密连接的区域构成[11-12],视觉信息会在约100 ms内从初级视觉皮层V1经V2逐步传递至高级视觉皮层,表征过程不断复杂化、抽象化[13],且区域间存在直接信息交互,如Zhong等[14]2021年发现V1区部分信息传入V2区参与编码。这种单区域建模的局限具体体现在两方面:一是不同皮层子区域对相同刺激的响应模式具有特异性,比如V1区编码方向/空间频率,V2区加工形状/颜色等复杂特征[15];二是层级间功能分工与跨区交互形成双重信息传递路径,单区域建模割裂跨区信息协同,导致表征完整性缺失,而全局连接的多区域整合又易诱发特征混淆,无法兼容子区域功能特异性,导致模型难以高效实现多脑区协同编码,编码性能不佳。
为突破单区域建模瓶颈,近年来跨脑区视觉编码模型研究取得显著进展。相关团队从不同角度展开探索,部分研究构建仿生视觉处理框架以模拟视网膜至视觉皮层的信息传递链路,利用脉冲相机获取视觉信息并模拟后续传递过程[16];另有研究聚焦视觉图像编码重建,提出双阶段fMRI表征学习框架,通过交叉注意力机制融合不同功能脑区信号,提升图像重建质量[17];还有研究创新性构建层级化类脑视觉模型,引入脉冲神经网络模拟从低级视觉脑区(V1)至高级语义处理脑区(IT)的特征传递,以更真实复现大脑视觉信息处理机制[18]。但这些跨脑区模型仍存在共性局限:均难以充分适配视觉系统的动态性、多样化任务需求及个体与环境差异——或采用固定权重分配跨脑区信息,无法应对动态视觉场景中信息的实时变化;或依赖人工预定义脑区信号融合参数,难以适配不同复杂视觉任务对脑区信息的差异化需求;或采用固定网络结构,无法兼容个体大脑结构功能差异及光照、物体运动等环境因素对视觉感知的影响,最终限制了模型性能的进一步提升。
针对现有单区域建模局限及跨脑区模型的不足,本文围绕V1~V3区视觉编码问题,提出基于跨区域编码的视觉编码模型框架GaborMMoE。该框架通过动态平衡跨区信息交互与干扰抑制,集成专家网络与图像驱动的门控机制,在提取多区域共性特征的同时维持区域特异性表征,既能突破单区域建模的信息割裂问题,又无需依赖复杂先验约束,有效提升了视觉编码性能。

1 所提方法

1.1 编码模型的构建及训练

本文提出了一种多任务学习框架下的视觉编码模型GaborMMoE。该模型将不同视觉皮层区域的编码任务视作相似任务,通集成多门控混合专家网络的架构,实现了对视觉皮层中不同区域的并行建模,如图1所示。图1(a)中,在构建GaborMMoE编码模型时,本文设计的MMoE层的设计涵盖了3个核心组件:紧致表示层、专家网络和门控函数。首先,紧致表示层是通过两层Gabor卷积层实现的,分别对应Gabor滤波器的实部和虚部输出;其次,专家网络(Brain Network)由两层下采样层和1层ConvNeXt卷积层组成。专家网络的数量不是固定的,而是根据联合训练任务的数量确定的。为确保模型能够更好地适应多脑区联合训练的需求,设置了与联合训练脑区数量相等的专家网络。最后,门控函数用于动态地调节不同专家网络的贡献度。它由1个全连接层和1个Softmax层组成,Softmax层的作用是将全连接层的输出转换为概率分布,使所有专家网络的权重和为1。门控函数的数量也与联合训练的脑区数量保持一致,以确保每个脑区都能得到相应的权重调整。使模型能够灵活地处理不同脑区之间的信息交互和任务相关性。在GaborMMoE模型中,输入图像首先经过Gabor卷积层的处理,生成一系列可解释性强的Gabor特征。这些特征随后被分流至两个并行的处理路径:一方面,它们被送入多个结构相同的专家网络,能够学习不同视觉皮层编码任务间的内在联系。通过聚合这些专家网络的输出,模型能够捕获不同视觉皮层区域间的隐含信息,进而丰富其编码表征。另一方面,Gabor特征还同时输入到两个结构相同的门控函数(Gate)中,如图1(b)所示。这些门控函数根据不同的视觉皮层编码任务,动态地为每个专家网络分配权重,使模型能够灵活应对不同的编码需求。通过多个门控函数的协同作用,MMoE架构进一步捕捉了不同编码任务间的相关性和差异性。每个门控函数都能够学习到特定编码任务对专家网络的偏好和依赖模式,从而增强了模型对任务间关系的理解能力,提升了多任务学习的效能。最终,这些经过不同专家网络加权组合的特征表示,根据各自对应的视觉皮层区域编码任务,被送入特定的Tower层中进行大脑响应的预测,如图1(c)所示。通过这种方式,GaborMMoE模型实现了对视觉信息的多层次、多任务处理,最终在各个低级区都得到了更好的编码表现。

1.2 联合训练中视觉皮层区域选择策略

相邻的视觉皮层区域在面对同一刺激时可能展现出相似的响应模式,可以将相邻脑区的编码任务视为高度相关的类似任务进行联合训练。为探索不同脑区在联合训练中表现组合,本文设计一系列消融实验。这些实验旨在确定在多任务学习框架内,哪组脑区的联合训练能带来编码模型的最优预测性能。首先,通过一组实验来确定最佳的联合训练脑区组合。如图2所示,同一通路层联合策略以腹侧通路(V1v、V2v、V3v)为例,背侧面路(V1d、V2d、V3d)的组合方式与之类似,比较了3种不同情况下编码模型的性能表现:1)将同一视觉皮层区域内的腹侧视觉通路和背侧视觉通路视为类似的编码任务进行联合训练。例如,将V1区的腹侧部分(V1v)和背侧部分(V1d)进行联合训练。2)在同一视觉通路内,将不同的视觉皮层区域视为类似的编码任务进行联合训练。例如,同时训练腹侧通路内的V1、V2和V3区。3)同时训练所有低级视觉皮层区域。通过上述实验设计可评估不同脑区组合在联合训练中的效果,并最终确定最佳的脑区组合,以优化多任务学习框架下的视觉编码模型性能。

2 实验结果及分析

2.1 实验细节

实验环境细节如下:Microsoft Windows 10(x64)操作系统,配备Intel(R)Core(TM)i9-9900X@3.50 GHz CPU、64 GB内存,并装有4块NVIDIA GeForce RTX 2080Ti显卡。使用的深度学习框架是PyTorch 1.8.0,编程语言是Python 3.9,优化算法选用Adam优化器。

2.2 数据集

本文选取NSD数据集[19]来验证紧致多尺度神经特征表示模型的性能,并按照8∶2的比例将数据分为训练集和验证集两部分。该数据集由美国明尼苏达大学Kay研究团队发布的世界首个大规模7T fMRI视觉数据集的功能磁共振成像实验数据组成,数据集包括8名参与者的数据。

2.3 模型编码性能对比及分析

在低级视觉区编码任务中,一般采用体素响应的预测准确率作为评估模型预测性能的指标。具体而言,针对每个体素,本文计算其在测试集上的真实响应P与视觉编码模型预测响应P'之间的皮尔逊相关系数ρ,如式(1)所示:

ρ=iPi-P¯Pi'-P'¯iPi-P¯2iPi'-P'¯2

为了确定预测准确率的显著性阈值,本文进行了置换检验。该检验通过随机打乱测试数据集中图像的真实响应与预测响应之间的对应关系,并重新计算每个体素的预测准确率。经过1 000次置换后得到了零假设分布,并设定预测准确率的显著性阈值为0.11(p<0.001)。若某个体素的预测准确率高于此阈值,则认为该体素可以被模型准确预测。

图3为GaborMMoE与对照模型GaborNet在6个低级视觉皮层区域的体素预测性能散点图。图中,数据点代表两模型同一体素的预测准确率比值;红色数据点代表GaborMMoE更优;绿色数据点代表GaborNet更优;蓝色数据点代表不可预测体素。

表1统计了GaborMMoE与GaborNet模型在各脑区预测体素优势数量占比。由图3可见,各脑区红色数据点远多于绿色,V1d区大量红点聚集于对角线下方、V2d区红点占主导,直观体现GaborMMoE的优势。

综合图3表1可知,GaborMMoE在各低级视觉皮层区域的绝大多数体素预测准确率显著优于GaborNet,能精准捕捉同脑区不同体素的特征差异,单脑区预测性能突出。综上,GaborMMoE在同脑区不同体素编码中有效,且引入多视觉皮层区域数据为编码模型提供关键补充,通过学习跨区域相似表示,显著提升了各视觉区域的编码性能。

2.4 最佳联合训练视觉区域组

为验证跨脑区编码模型有效性,设计消融实验,对比单脑区独立建模、同区域通路联合建模、同侧层级通路联合建模及全脑区混合建模的预测性能,详细结果见表2

单脑区建模呈现明确规律:视觉通路脑区层级与预测准确率呈负相关,初级区V1d、V1v准确率显著高于高级区V3d、V3v。这表明随脑区层级提升,单脑区建模已无法满足需求,高级脑区需跨区域信息整合以实现精准预测。

同区域背腹通路联合建模表现亮眼,各脑区准确率提升0.3%~2.0%,其中中级区V2提升最突出。该现象证明同区域内背腹通路信息整合可有效增强模型对脑区信息的处理能力,进而提升预测准确率。

同侧层级通路联合建模亦有优化效果:背侧流V2d准确率提升至61.28%,腹侧流V3v提升至55.74%,体现跨层级联动对中级区、高级区的积极作用;而初级区V1保持稳定,得益于模型对干扰的有效抑制。

反观全脑区联合建模结果超预期:所有脑区准确率均低于同区域/同侧联合策略,确凿证实无差别信息整合不仅无法提升性能,反而会引入冗余噪声干扰模型运作。​

综上所述,本文通过设计基于不同解剖结构的脑区组合,探究并确定了最优跨脑区信息解析组合,同时验证了基于MMoE设计的多脑区信息融合策略,该方法可有效解决跨脑区编码难题。

3 结束语

人类视觉系统中的相邻区域对视觉刺激的响应存在相似性,而现有低级区视觉编码模型多局限于单一区域建模,易忽略跨区域的潜在有效信息。为此,本文提出基于 MMoE 框架的多区域信息融合模型 GaborMMoE,通过多专家网络和门控函数适配不同视觉区域编码任务的差异,实现多区域任务的联合训练。实验结果显示,该模型在各低级视觉区的优势体素预测准确率平均达到93.47%,验证了纳入相邻视觉区域联合训练可学习多区域相似表示,提升编码性能。

参考文献

[1]

HUANG L Q. Comprehensive exploration of visual working memory mechanisms using large-scale behavioral experiment[J]. Nature Communications2025,16:No.1383.

[2]

PARK JSOUCY ESEGAWA Jet al. Immersive scene representation in human visual cortex with ultra-wide-angle neuroimaging[J]. Nature Communications2024,15:No.5477.

[3]

ZHOU Y KGAO SDENG L Let al. A group based network analysis for Alzheimer’s disease fMRI data[J]. Scientific Reports2025,15:No.10888.

[4]

WANG E YFAHEY P GDING Z Ket al. Foundation model of neural activity predicts response to new stimulus types[J]. Nature2025640(8058):470-477.

[5]

NONAKA SMAJIMA KAOKI S Cet al. Brain hierarchy score: which deep neural networks are hierarchically brain-like?[J]. iScience202124(9):No.103013.

[6]

KHERADPISHEH S RGHODRATI MGANJTABESH Met al. Humans and deep networks largely agree on which kinds of variation make object recognition harder[J]. Frontiers in Computational Neuroscience2016,10:No.92.

[7]

POSPISIL D APASUPATHY ABAIR W. ‘Artiphysiology’reveals V4-like shape tuning in a deep network trained for image classification[J]. eLife2018,7:No.38242.

[8]

LASKAR M N UGIRALDO L G SSCHWARTZ O. Correspondence of deep neural networks and the brain for visual textures[EB/OL].(2018-06-07)[2025-11-04].

[9]

DODGE SKARAM L. Can the early human visual system compete with deep neural networks[C]∥Proceedings of 2017 IEEE International Conference on Computer Vision Workshops. Piscataway,USA: IEEE, 2017:2798-2804.

[10]

GRUBER L ZHARUVI ABASRI Ret al. Perceptual dominance in brief presentations of mixed images: human perception vs. deep neural networks[J]. Frontiers in Computational Neuroscience2018,12:No.57.

[11]

FELLEMAN D JVAN ESSEN D C. Distributed hierarchical processing in the primate cerebral cortex[J]. Cerebral Cortex19911(1):1-47.

[12]

MALACH RLEVY IHASSON U. The topography of high-order human object areas[J]. Trends in Cognitive Sciences20026(4):176-184.

[13]

DICARLO J JZOCCOLAN DRUST N C. How does the brain solve visual object recognition?[J]. Neuron201273(3):415-434.

[14]

ZHONG H XWANG R B. A new discovery on visual information dynamic changes from V1 to V2: corner encoding[J]. Nonlinear Dynamics2021105(4):3551-3570.

[15]

TOOTELL R B HDALE A MSERENO M Iet al. New images from human visual cortex[J]. Trends in Neurosciences199619(11):481-489.

[16]

ZHENG Y JJIA S SYU Z Fet al. Unraveling neural coding of dynamic natural visual scenes via convolutional recurrent neural networks[J]. Patterns20212(10):No.100350.

[17]

SUN JLI MCHEN Zet al. Contrast, attend and diffuse to decode high-resolution images from brain activities[J]. Advances in Neural Information Processing Systems202336: 12332-12348.

[18]

ZHONG H XWANG H YDAI W Pet al. Emergent orientation maps: mechanisms, coding efficiency and robustness[EB/OL].(2025-05-15)[2025-05-30].

[19]

ALLEN E JST-YVES GWU Y Het al. A massive 7T fMRI dataset to bridge cognitive neuroscience and artificial intelligence[J]. Nature Neuroscience202125(1):116-126.

基金资助

国家自然科学基金(62106285)

AI Summary AI Mindmap
PDF (3097KB)

75

访问

0

被引

详细

导航
相关文章

AI思维导图

/