基于眼动信息的视觉交互技术研究进展

胡易东 ,  童莉 ,  高源龙 ,  曾颖 ,  李中锐 ,  闫镔

信息工程大学学报 ›› 2025, Vol. 26 ›› Issue (03) : 266 -274.

PDF (1799KB)
信息工程大学学报 ›› 2025, Vol. 26 ›› Issue (03) : 266 -274. DOI: 10.3969/j.issn.1671-0673.2025.03.003
计算机科学与技术

基于眼动信息的视觉交互技术研究进展

作者信息 +

Survey of Research Progress in Visual Interaction Technology Based on Eye Movement Information

Author information +
文章历史 +
PDF (1842K)

摘要

个体执行视觉任务时眼球运动随之产生,其蕴含着丰富的视觉信息,能够揭示眼球在视觉注意、感知、资源分配及认知方面的内在状态。目前,基于眼动信息的分析已为视觉交互多个领域带来丰富的应用场景。为增强研究者对该领域最新研究成果的了解,在梳理面向视觉交互的眼动数据采集技术的基础上,重点讨论基于眼动的视觉计算增强、视觉交互控制和人员注视状态评估这3个目前应用最广泛的视觉交互技术。此外,还对基于眼动的视觉交互技术的挑战和研究方向进行探讨,为推动眼动在视觉交互相关领域的技术进步和应用创新提供有益的参考。

Abstract

When individuals perform visual tasks, eye movements occur. These movements contain rich visual information, revealing their internal states in visual attention, perception, resource allocation and cognition. Currently, analysis based on eye movement information has brought various application scenarios in many fields of visual interaction. To update researchers on the latest research findings, after reviewing eye movement data acquisition techniques for visual interaction, it is focused on three widely used visual interaction technologies which are eye movement-based visual computing enhancement, visual interaction control, and gaze state assessment. Additionally, challenges and research directions in eye movement-based visual interaction technologies are further explored. This provides a useful reference for advancing technology and application innovation in related fields of visual interaction.

Graphical abstract

关键词

眼动信息 / 视觉交互 / 注意分配 / 眼动追踪 / 视觉信息处理

Key words

eye movement information / visual interaction / attention allocation / eye-tracking / visual information processing

引用本文

引用格式 ▾
胡易东,童莉,高源龙,曾颖,李中锐,闫镔. 基于眼动信息的视觉交互技术研究进展[J]. 信息工程大学学报, 2025, 26(03): 266-274 DOI:10.3969/j.issn.1671-0673.2025.03.003

登录浏览全文

4963

注册一个新账户 忘记密码

眼动信息作为反映人类视觉行为的重要数据源,近年来在视觉交互技术领域引起了广泛关注[1]。其不仅能够实时、精确地揭示个体在特定任务下的视觉注意分配和信息筛选过程,还为学者理解人类的视觉认知机制提供了有力的支持[2]。因此,基于眼动信息的视觉交互技术逐渐成为人机交互、虚拟现实、广告设计及认知科学研究等领域的研究热点。随着眼动追踪技术的不断发展和完善,研究者们能够更加准确地获取和分析眼动数据,从而更深入地理解用户的视觉行为[3]和心理状态[4-5]。这为优化智能系统性能、提升用户体验及增强交互效果提供了有力的数据支持。
同时,基于眼动信息的视觉交互技术也在计算机视觉、医学诊断、人机交互等领域展现出巨大的应用潜力[6-8]。本文结构如下:1)梳理眼动数据采集技术及支撑科学研究的公开数据集;2)分析眼动交互在视觉计算增强、视觉交互控制和人员注视状态评估的技术进展与应用;3)探讨眼动交互技术的挑战与下一步研究方向。

1 眼动数据采集技术

用来捕捉并记录眼球运动,获取眼动视觉信息的设备称之为眼动追踪设备。该设备凭借前沿的传感器技术和精细算法,能够精准捕捉并深入剖析眼球运动的细微动态,实现眼球的连续运动与视觉焦点的灵活切换的高效捕捉与记录。依据是否与被追踪者的眼部直接接触或干预以获取眼动数据,可划分为接触式和非接触式两大类。

1.1 接触式眼动追踪数据采集

接触式眼动追踪设备是一种通过手术或其他方式将设备植入眼球内部或附近,从而实现眼球运动的直接测量。其中,眼电图法和搜索线圈法是接触式眼动追踪的两种主要方法。眼电图法通过测量眼球转动引起的皮肤电势变化来追踪眼动,适用于长时间连续监测,如阅读、观看视频等任务。眼电图法适用于需要长时间连续监测眼动的场景,如阅读、观看视频等视觉任务。郑敏敏等[9]提出了一种结合数学形态学和眼电特征的算法,用于分析日常阅读行为和注意力水平。搜索线圈法通过眼球附近线圈测量磁场变化追踪眼球运动,适用于高精度直接接触眼球的场景,如微小运动测量[10]或眼疾研究。

尽管接触式眼动追踪技术在特定领域取得了显著进展,但仍存在一些不容忽视的局限性。首先,手术植入设备的方式不仅可能带来潜在的风险,还可能引发患者的不适感,这在很大程度上限制了其在更广泛场景中的应用和接受度。其次,长时间的设备使用或植入可能会对眼球产生不良刺激或潜在影响,这仍需要进一步的研究和深入评估。此外,现有技术在某些特定情境下可能仍面临追踪精度和稳定性的挑战,这要求研究者们对算法和设备设计进行持续优化和改进。

详细的方法研究与总结可参见表1

1.2 非接触式眼动追踪数据采集

与接触式眼动追踪技术相比较,非接触式眼动追踪技术的显著之处在于其无需与眼球发生任何物理接触,而是完全依赖于视频记录与分析技术。

角膜反射法是非接触式眼动追踪的一种,利用红外光照射角膜反射,由摄像头捕捉反射光并分析其位置变化,追踪眼球运动轨迹。Hua等[11]研发的头戴式显示器集成眼动追踪,采用高分辨率摄像机采集眼动数据,并开发算法识别瞳孔和角膜反射,提升追踪精度,带来自然流畅的交互体验。

部分眼动仪基于瞳孔—角膜反射现象,同步分析瞳孔和角膜反射光追踪眼球运动,实时捕捉注视点变化、眼跳及追随运动等细微动作。基于此原理,文献[12]研发出低成本远程眼动追踪器,能在多变条件下保持稳定性能,有效提升用户体验。

尽管非接触式眼动追踪技术已经取得了显著的发展,但在某些复杂场景下,如光线剧烈变化、眼球快速运动或个体差异较大时,其追踪精度和稳定性可能会受到一定的影响。此外,瞳孔中心角膜反射法虽然具有稳定的追踪性能,但对红外光源和摄像机的要求较高,增加了设备的成本和复杂性。同时,非接触式眼动追踪技术需要更高效的数据处理和分析算法,以及更强大的计算能力来支持实时、准确的眼动追踪。

总体而言,接触式眼动追踪技术与非接触式眼动追踪技术各自在特定领域内发挥着不可或缺的作用。前者凭借其在高精度测量与特殊科研医疗需求中的良好表现,占据了独特地位;而后者则凭借其无需接触、操作便捷的优势,赢得了广泛的认可与应用。

未来,随着技术的进步与创新,两种技术有望在各自领域内实现更进一步的优化与提升,共同推动眼动追踪技术的全面发展。

1.3 面向视觉交互的眼动追踪公开数据集

眼动数据集对视觉交互技术研发至关重要,非接触式眼动追踪技术因其便捷、无接触、高精度成为首选采集方式。本文归纳了常见公开眼动数据集,如表2所示。

1.3.1 基于图像刺激的眼动数据集

1)自然图像刺激的眼动数据集——MIT300、CUB-GHA、SALICON。MIT300由Judd等[13]创建,包含300张自然图像及其对应39人的眼动数据。CUB-GHA由Yao等[14]建立,含200种鸟类的11 788张图片及其对应25人的眼动数据。SALICON由Jiang等[15]建立,囊括Microsoft COCO数据集中的20 000张图像。

2)遥感影像刺激的眼动数据集——GeoEye。GeoEye由He等[16]建立,含500张地理空间图像及110人的眼动数据。该数据集提供3种数据形式:视觉显著图、原始眼动数据和刺激材料。

3)医学影像刺激的眼动数据集——Chest X-ray。Chest X-ray由文献[17]创建,含1 083张经医生审查的胸部X射线图像,分为CHF、Normal和Pneumonia这3种类别。另含对齐的放射学报告文本、口述音频及眼睛注释数据。

1.3.2 基于视频刺激的眼动数据集

BDD-A与BDD-X分别由Xia等[18]和Kim等[19]建立。前者收45人1 232条紧急驾驶眼动数据,后者包含多种驾驶条件下的6 970个视频眼动追踪信息,如日夜时段、城市、乡村道路等。DR(eye)VE[20],记录了8名驾驶员在多变环境、交通、天气等复杂条件下5 min驾驶时间内555 000个视频眼动数据。

1.3.3 基于文本刺激的眼动数据集

1)中文文本刺激的眼动数据集——Chinese Eye-Movement。Chinese Eye-Movement由Zhang等[21]创建,涵盖57项中文阅读实验,涉及1 718名被试、8 015个句子及近140万注视点,计算了8 551个词的9项眼动指标。

2)英文文本刺激的眼动数据集——DocTrack。DocTrack由Wang等[22]建立,包含从FUNSD、SeaBill、Infographic这3个数据集中随机选取的409篇训练文档和130篇测试文档,目前主要用于支撑大脑阅读认知机理研究。

尽管眼动刺激材料已覆盖主要信息载体,但在医学影像分类、逆合成孔径雷达(Inverse Synthetic Aperture Radar, ISAR)图片判读等掩蔽性高、依赖专家经验的领域,眼动数据仍匮乏。这些领域专业人员培养成本高,且现有机器智能系统精度不足。因此,亟需深入研究以丰富眼动数据集,提升机器智能系统性能。

2 基于眼动的视觉交互分类与应用

基于眼动的视觉交互技术利用眼电图、眼动仪等设备检测眼球位置与注视方向,实现用户与计算机的交互。

该技术分为接触式和非接触式。其中:接触式因侵入性受限,主要用于医疗;非接触式被广泛使用,应用于视觉计算增强、交互控制、状态评估等领域,研究总结见表3所示。

2.1 基于眼动的视觉计算增强

起初,眼动信息被用于开发有监督视觉模型增强技术,需依赖眼动信息保持效能。因其局限性,研究者开发了眼动约束的视觉模型训练增强方法,通过构建损失函数或注意力模块,实现无需眼动数据的应用,拓宽了技术范围。

2.1.1 基于眼动的有监督视觉模型增强

由于机器视觉模型的先验知识引入、复杂场景的语义理解等局限,难以有效应对现实世界中复杂多变的视觉任务。当前,引入眼动数据是一种增强模型“视觉”能力的有效途径。

文献[23]提出眼动引导的图像分类模型,将眼动信息与机器学习相结合,能识别4种动物和4种场景,如图1所示。该研究使用支持向量机(Support Vector Machine, SVM)训练眼动凝视特征,通过距离决策边界评估分类难易,并转化为模糊度评分。

随后,文献[24]提出凝视指导注意力模型(Gaze-guided Self-Attention, GSA),用于生物性别鉴定。该模型融合眼动信息与卷积神经网络,解通过Hadamard乘积为特征映射分配眼动权重,聚焦关键区域,削弱背景干扰。即便样本有背景偏差,GSA也通过眼动信息增大性别特征距离,提升识别准确性和鲁棒性。

在医学图像分析中,纯机器视觉面临疾病复杂性和微小误差挑战。Wang等[25]提出凝视引导的图神经网络(Gaze-guided Graph Neural Network, GazeGNN)模型,用于优化疾病分类,见图2。该模型融合位置、凝视和图像特征,通过k近邻算法构建图的节点和边,实现图像与眼动信息的集成。这种方法增强了模型解析能力,为医学图像分析提供精准智能支持。

此外,Ma等[26]将眼动信息与Transformer技术相结合,提出凝视指导的Vision Transformer模型(Eye Gaze-guided Vision Transformer, EG-ViT),构建高效计算机辅助诊断系统,如图3所示。利用眼动数据生成注意力图,结合原始图像筛选关键图像斑块(Patch Tokens),并通过残差连接增强全局信息。

尽管基于眼动的有监督视觉模型增强技术在图像分类和医学图像分析领域成效显著,但其模型训练与测试阶段均需依赖眼动数据的局限性,限制了其实际应用范围。因此,如何仅将眼动数据的需求限定于模型训练阶段,而无需在测试或应用阶段使用,已成为亟待攻克的关键问题。

2.1.2 眼动约束的视觉模型训练增强

为减少对眼动数据的依赖,研究者开发了眼动约束的视觉模型训练增强技术,该技术仅在训练时使用眼动数据。通过融入人类视觉知识,强化模型学习。Yao等[14]针对细粒度分类任务提出眼动约束的视觉增强模型,如图4所示。该模型在训练阶段利用眼动数据精确提取显著区域特征,再与图像特征结合,使其更聚焦关键区域以提升分类准确性。

在计算机视觉领域,均方差(Mean Squared Error, MSE)、交叉熵(Cross Entropy, CE)及交并比等损失函数(Intersection over Union, IOU)等常用,如下式:

LMSE=1ny-y^2  
LCE=-y×log2 y^
LIOU=yy^yy^                

式中:yy^分别为真实值与预测值;n为类别数。但它们主要基于图像特征,难以引导模型聚焦关键区域。研究者通过融入眼动信息,设计视觉注意损失函数等,增强模型视觉聚焦能力。

Moinak等[27]融合广义交并损失[42](Generalized Intersection over Union, GIoU)和均方误差损失(Mean Squared Error, MSE)提出视觉注意损失函数。该函数通过衡量模型在预测视觉注意图和注视点上的差距,实现视觉注意引导的疾病分类框架。通过线性加权综合两种损失,模拟人类视觉注意力机制。Sharath等[28]引入注视—注意交叉损失函数训练Vision Transformer(ViT)[43]模型,用于疾病分类。通过点积运算量化ViT多头注意力权重与人类注意力图的信息交流,并与原损失函数线性加权,优化模型与人类视觉注意力的对齐。

也有学者构建注意力一致性模块,以损失函数为核心约束网络与人类注意力图一致。Zhang等[29]以最小化网络注意力图与人类注意力图之间的均方误差为核心,构建了用于掩码图像分类任务的监督学习框架。然而,Wang等[30]指出用户判读习惯和随机扫视行为对此模块的实现带来挑战,进而提出用均方差不确定性模拟视觉注意,通过高斯模型量化不确定性并最大化对数似然优化网络,减少观察者差异影响,提升模型模拟人类视觉注意力的准确性。

2.2 基于眼动的视觉交互控制优化

眼动信息在视觉交互中备受关注,其直接、自然、双向的特点有助于实现高效交互体验。研究者正探索眼动信息在用户意图解码和视线交互控制方面的应用,旨在实现“所见即所得”的流畅自然交互体验。

2.2.1 基于眼动的用户意图解码

眼动视觉信息是视觉交互控制智能化的关键,蕴含丰富的用户意图信息。捕捉并解码这些信息,作为控制指令输入系统,能大幅提升交互效率,实现“所见即所得”的优质体验。文献[31]提出基于动态凝视路径的意图识别算法,用于人机共享任务。该算法结合边缘捆绑[44]和Mean-Shift聚类算法,构建眼动数据相似性体系,并通过基于快速相关性的滤波器[45](Fast Correlation-based Filter, FCF)筛选关键特征,提升用户意图解码准确率。

助力型机器人系统旨在帮助行动不便者。但将低级别控制转化为高级指令是人机交互的难题。为了克服这一难题,文献[32]研发基于3D注视点估计和意图感知的算法,实现用户意图的实时解码,便于与机器人直观交互。该算法通过3D注视点编码物体位置,利用神经网络精准检测用户交互意图,实现直观的人机物理交互。

另外,Qian等[33]也提出了注视导向视觉基础网络(Gaze-directed Visual Grounding Network, GVGNet),旨在消除参考表达理解(Referring Expression Comprehension, REC)和参考表达分割(Referring Expression Segmentation, RES)联合任务中对象引用意图歧义,如图5所示。该网络融合引用文本、场景图片和凝视热力图,并利用GLOVE编码器[46]、CSPDarknet[47]以及ResNet-18分别提取特征。通过多模态融合,补充文本特征的语义位置描述,再与视觉特征结合,经上采样、下采样后与GARAN注意力模块[48]相连,输出分类结果。

2.2.2 基于眼动的视觉交互控制

眼动信息优化视觉交互控制,引领新型眼动交互方式。通过精准捕捉眼球运动,将视觉行为转化为机器指令,实现流畅自然交互,达到“所视即所得”。这简化了操作,提升了用户与机器协作效率。文献[41]提出基于眼动的视线控制技术,增强社交机器人交互自然性。依据人类凝视模式理论[42],选取自发观看模式(Spontaneous Viewing, SV)和任务或场景相关观看模式(Task or Scene-Relevant Viewing, TV or SRV)为输入,采用图像梯度向量场算法精准识别,通过SVM分类眼动模式,提升交互自然性。文献[35]则直接将眨眼行为作为基于视觉的人机交互系统的输入,通过眼宽比(Eye Aspect Ratio, EAR)度量和阈值时间设置准确检测自主眨眼,实现眼睛控制鼠标,为残疾人提供便捷交流方式。

2.3 基于眼动的注视状态评估

注视状态评估技术广泛应用于人机协作,尤其在汽车、飞机等交通工具的驾驶领域潜力巨大。它已成为自动驾驶和辅助驾驶系统的核心功能之一,通过被动分析眼动信息,实时监测驾驶员状态,预防事故,增强安全。同时,该技术能预测行车意图,快速调整车辆状态保障安全。

2.3.1 基于眼动的人员状态监测

道路安全关乎生命财产,疲劳与分心驾驶是事故主因。此类状态下,眼部活动呈现异常,如频繁眨眼、注视不稳定,预示着潜在风险。借助基于眼动的人员状态监测技术,能精准捕捉并分析这些特征,实时评估驾驶者状态,并通过语音警示、座椅振动等非侵入性方式及时提醒,预防交通事故。文献[36]开发了一种基于眼动的驾驶员视线检测算法。该算法融合了眼跳速度、方向等关键参数,并借助转向事件检测(Detecting Steering Events, DSE)技术[50]与MERCY算法[51],实现了对驾驶员注意力水平的评估与监测。

Zhao等[37]研发了门控驾驶员注意力预测器(Gated Driver Attention Predictor, Gate-DAP),该模型能够在多种道路、场合、光线及天气条件下有效监测与评估驾驶员的注意力。通过空间区域门控(Spatial-region Gating, SpaG)、长短期记忆门控(Long-Short-Term Memory Gating, LSTMG)及信息类型门控(Information-type Gating, InfoG)3大机制,模型将眼动信息与图像特征相融合,实现了对驾驶员注意力的精确评估与预测。

此外,文献[48]研究用于评估驾驶员分心程度的眼动指标,提出一种以驾驶员对次要任务的扫视次数与非道路扫视最大持续时间为核心的驾驶状态识别算法。这些研究成果不仅丰富了眼动视觉信息在智能驾驶领域的应用,也为提升驾驶安全性和可靠性提供了有力保障。

2.3.2 基于眼动注视行为的智能辅助

城市道路交通复杂,易出现驾驶不当肇事。基于眼动注视行为的智能辅助系统可通过精准捕捉和处理眼动信息,有效预测驾驶员的行车意图,如减速、加速、停车等,助力驾驶者从容应对十字路口拥堵、行人突现、车辆急停等突发状况,降低交通事故风险。陈文翔[37]发现眼动轨迹与驾驶操作同步,为预判驾驶、提升安全提供了可能。文献[40]利用C3D网络融合眼动数据,开发出预测驾驶注视焦点的深度学习模型,能预判危险行为并提醒关注区域。后又提出多分支深度架构模型[20],融合视频、运动、眼动数据,通过粗细模块训练最小化KL散度,预测驾驶中注视转移、速度调控、变道及转弯等行为。

与此同时,Xia等[18]针对危急驾驶情境结合眼动信息构建注意力预测模型。运用人类加权采样算法评估视频帧重要性,并利用KL散度设定采样权重,确保关键帧受更多关注。之后,进一步提出外围—中央凹多分辨率驾驶模型[41]。该模型通过模仿人类视觉系统,协同多模块工作,预测未来一秒驾驶员行车速度。

3 技术挑战与发展方向

眼动交互技术在多领域表现卓越,但面对现实复杂情况常显不足,限制了应用推广[52]。目前,眼动数据采集、信息传输和可持续性方面问题突出。

3.1 眼动数据采集

眼动追踪技术虽然有了一定的成熟度,但在系统复杂度、数据采集质量上仍存在一定挑战。现有滤波算法难以完全去除生理噪声,影响数据纯净度。实验数据的有效性常依赖主试主观判断,且难以区分被试“走神”时的无效数据。为提升采集效率与质量,需融入实时准确的人体状态监测模块,并研发更智能的滤波算法,自动剔除无效数据。这有望为心理学、神经科学等领域提供更坚实的数据支持。

3.2 眼动数据多样性

眼动数据具备多样性,涵盖注视位置、时长、瞳孔尺寸、眨眼频次等多个数据类型,且受数据来源和个体差异影响。这种多样性提升了数据处理与分析的难度。未来,智能化工具的研发至关重要。集成化工具将简化流程,降低技术门槛。交互式工具则增强研究人员自定义分析的能力,提升灵活性和精确度。

3.3 多模态融合

眼动交互技术面临两大挑战:无意识眨眼影响指令传输效率和准确性[53];长时间用眼导致视觉疲劳和认知负荷增加[54]。一种潜在解决途径是考虑结合语音、手势、脑电等多模态交互,弥补单一模式不足,提高交互效率和准确性[55],系统可自动匹配最优交互方式,根据环境、任务和用户需求智能切换,降低交互成本,提升便捷性和舒适度[54]

4 结束语

综述了眼动信息在视觉交互技术中的进展,涵盖眼动采集技术、数据集及多元化研究领域,并聚焦于视觉计算增强、视觉交互控制和注视状态评估中的关键作用。同时,还分析眼动数据采集、多样性及多模态数据融合的挑战,并对未来研究方向进行了展望。随着AI和机器学习的发展,眼动交互技术将结合认知科学、心理学,实现更自然高效的人机交互。

参考文献

[1]

STARTSEV MZEMBLYS R. Evaluating eye movement event detection: a review of the state of the art[J]. Behavior Research Methods202355(4):1653-1714.

[2]

LIM J ZMOUNTSTEPHENS J, TEO J. Eye-tracking feature extraction for biometric machine learning[J]. Frontiers in Neurorobotics2022,15:No.796895.

[3]

SUN M LZOU WHU N, et al. Iterative brain tumor retrieval for MR images based on user’s intention model[J]. Pattern Recognition2022,127:No.108650.

[4]

SYLWESTER BADRIANNA S.Toward innovations[M]. Poznań Poland: Poznań University of Economics and Business Press, 2021.

[5]

HERSHMAN RMILSHTEIN DHENIK A. The contribution of temporal analysis of pupillometry measurements to cognitive research[J]. Psychological Research202387(1):28-42.

[6]

THAKUR R KSUNBEAM M N SGOECKS V G,et al.Imitation learning with human eye gaze via multi-objective prediction[DB/OL].(2021-02-25) [2024-09-03].

[7]

WEBER DSANTINI TZELL A, et al. Distilling location proposals of unknown objects through gaze information for human-robot interaction[C]∥Proceedings of the 2020 IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway, USA: IEEE, 2020:11086-11093.

[8]

郑敏敏,高小榕.基于眼电的阅读状态检测研究[J]. 北京生物医学工程201433(2):172-178.

[9]

张李娜.巩膜搜索线圈对微扫视性眼球运动幅度影响的观察与分析[D].天津:天津医科大学,2014:1-49.

[10]

HUA HKRISHNASWAMY PROLLAND J P. Video-based eyetracking methods and algorithms in head-mounted displays[J]. Optics Express200614(10):4328-4350.

[11]

DO P THUYNH L QLE D C, et al. Design of low cost-remote eye tracker using Pupil Center-Corneal Reflection technique[J]. Science & Technology Development Journal-Engineering and Technology20214(3):1079-1092.

[12]

JUDD TEHINGER KDURAND F, et al. Learning to predict where humans look[C]∥Proceedings of the 2009 IEEE 12th International Conference on Computer Vision. Piscataway, USA: IEEE, 2009:2106-2113.

[13]

YAO RXU W JAKATA Z, et al.Human attention in fine-grained classification[C]∥Proceedings of the 32nd British Machine Vision Conference. Manchester, UK: BMVA,2021:1-19.

[14]

JIANG MHUANG S SDUAN J Y, et al. SALICON: saliency in context[C]∥Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, USA: IEEE, 2015:1072-1080.

[15]

HE BDONG W HLIAO H, et al. A geospatial image based eye movement dataset for cartography and GIS[J]. Cartography and Geographic Information Science202350(1):96-111.

[16]

KARARGYRIS AKASHYAP SLOURENTZOU I, et al. Creation and validation of a chest X-ray dataset with eye-tracking and report dictation for AI development[J]. Scientific Data2021,8:No.92.

[17]

XIA YZHANG D QKIM J, et al. Predicting driver attention in critical situations[C]∥Proceedings of the Computer Vision-ACCV 2018. Cham, Switzerland: Springer, 2019:658-674.

[18]

KIM JROHRBACH ADARRELL T, et al. Textual explanations for self-driving vehicles[C]∥Proceedings of the Computer Vision-ECCV 2018. Cham, Switzerland: Springer, 2018:577-593.

[19]

PALAZZI AABATI DCALDERARA S, et al. Predicting the driver’s focus of attention: the DR(eye)VE project[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence201941(7):1720-1733.

[20]

ZHANG G YYAO P PMA G J, et al. The database of eye-movement measures on words in Chinese reading[J]. Scientific Data2022,9:No.411.

[21]

WANG HWANG QLI Y,et al.Docrack:a visually-rich document dataset really aligned with human eye movement for machine reading[DB/OL].(2023-10-23) [2024-09-03].

[22]

ISHIBASHI TSUGANO YMATSUSHITA Y. Gaze-guided image classification for reflecting perceptual class ambiguity[C]∥Proceedings of the Adjunct Proceedings of the 31st Annual ACM Symposium on User Interface Software and Technology. New York, USA: ACM, 2018:26-28.

[23]

NISHIYAMA MINOUE MIWAI Y. Gender recognition using a gaze-guided self-attention mechanism robust against background bias in training samples[J]. IEICE Transactions on Information and Systems2022105(2):415-426.

[24]

WANG BPAN H YABOAH A, et al. GazeGNN: a gaze-guided graph neural network for chest X-ray classification[C]∥Proceedings of the 2024 IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway, USA: IEEE, 2024:2183-2192.

[25]

MA CZHAO LCHEN Y Z, et al. Eye-gaze-guided vision transformer for rectifying shortcut learning[J]. IEEE Transactions on Medical Imaging202342(11):3384-3394.

[26]

MOINAK BSHUBHAM JPRATEEK P.RadioTransformer:a cascaded global-focal Transformer for visual attention-guided disease classification[DB/OL].(2022-02-23) [2024-09-03].

[27]

SHARATH KNIKOLAS P M J L.Gaze-informed vision transformers: predicting driving decisions under uncertainty[DB/OL].(2023-08-26)[2024-09-03].

[28]

ZHANG R KHOU L BLU R N, et al. A mask image recognition attention network supervised by eye movement[C]∥Proceedings of the Human Brain and Artificial Intelligence. Cham, Switzerland: Springer, 2023:30-38.

[29]

WANG SOUYANG XLIU T M, et al. Follow my eye: using gaze to supervise computer-aided diagnosis[J]. IEEE Transactions on Medical Imaging202241(7):1688-1698.

[30]

ARONSON R MSANTINI TKÜBLER T C, et al. Eye-hand behavior in human-robot shared manipulation[C]∥Proceedings of the 2018 ACM/IEEE International Conference on Human-Robot Interaction. New York, USA: ACM, 2018:4-13.

[31]

SHAFTI AORLOV PFAISAL A A. Gaze-based, context-aware robotic system for assisted reaching and grasping[C]∥Proceedings of the 2019 International Conference on Robotics and Automation. Piscataway, USA: IEEE, 2019:863-869.

[32]

QIAN KZHANG Z YSONG W, et al. GVGNet: gaze-directed visual grounding for learning under-specified object referring intention[J]. IEEE Robotics and Automation Letters20238(9):5990-5997.

[33]

DAS D, RASHED M GKOBAYASHI Y, et al. Supporting human-robot interaction based on the level of visual focus of attention[J]. IEEE Transactions on Human-Machine Systems201545(6):664-675.

[34]

KABRA AAGRAWAL CPALLAB JYOTI DUTTA H, et al. Vision based communicator[C]∥Proceedings of the 2020 IEEE Applied Signal Processing Conference. Piscataway, USA: IEEE, 2020:293-297.

[35]

BRAUNAGEL CROSENSTIEL WKASNECI E. Ready for take-over a new driver assistance system for an automated classification of driver take-over readiness[J]. IEEE Intelligent Transportation Systems Magazine20179(4):10-22.

[36]

ZHAO T CBAI XFANG J W, et al. Gated driver attention predictor[C]∥/Proceedings of the 2023 IEEE 26th International Conference on Intelligent Transportation Systems. Piscataway, USA: IEEE, 2023:270-276.

[37]

ZEEB KBUCHNER ASCHRAUF M. What determines the take-over time an integrated model approach of driver take-over after automated driving[J]. Accident Analysis & Prevention201578:212-221.

[38]

陈文翔.驾驶员与行人交互中的意图识别过程及其影响因素[D].西安:陕西师范大学,2020:1-69.

[39]

PALAZZI ASOLERA FCALDERARA S, et al. Learning where to attend like a human driver[C]∥Proceedings of the 2017 IEEE Intelligent Vehicles Symposium. Piscataway, USA: IEEE, 2017:920-925.

[40]

XIA YKIM JCANNY J, et al. Periphery-fovea multi-resolution driving model guided by human attention[C]∥Proceedings of the 2020 IEEE Winter Conference on Applications of Computer Vision. Piscataway, USA: IEEE, 2020:1756-1764.

[41]

REZATOFIGHI HTSOI NGWAK J, et al. Generalized intersection over union: a metric and a loss for bounding box regression[C]∥Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, USA: IEEE, 2019:658-666.

[42]

ALEXEY DLUCAS BALEXANDER K,et al.An image is worth 16x16 words:transformers for image recognition at scale[DB/OL].(2020-10-22) [2024-09-03].

[43]

VAN DER ZWAN MCODREANU VTELEA A. CUBu: universal real-time bundling for large graphs[J]. IEEE Transactions on Visualization and Computer Graphics201622(12):2550-2563.

[44]

YU LLIU H.Feature selection for High-Dimensional data:a fast Correlation-Based filter solution[C]∥Proceedings of the 20th International Conference on Machine learning. Washington, USA:AAAI,2003:856-863.

[45]

PENNINGTON JSOCHER RMANNING C. Glove: global vectors for word representation[C]∥Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, USA: ACL, 2014:1532-1543.

[46]

ALEXEY BWANG C YLIAO H M.YOLOv4:optimal speed and accuracy of object detection[DB/OL].(2020-04-23) [2024-09-03].

[47]

ZHOU Y YJI R RLUO G, et al. A real-time global inference network for one-stage referring expression comprehension[J]. IEEE Transactions on Neural Networks and Learning Systems202334(1):134-143.

[48]

DAVID S. The social organization of dying[M]. Englewood Cliffs, USA: Prentice-Hall, 1968:438-439.

[49]

GALLEY LHENTSCHEL E HKUHN K P, et al.Verfahren und steuergerät zum fahrerindividuellen erkennen von unaufmerksamkeiten des fahrers eines fahrzeuges[P/OL]. 2005-10-26)[2005-09-06].

[50]

BRAUNAGEL CGEISLER DSTOLZMANN W, et al. On the necessity of adaptive eye movement classification in conditionally automated driving scenarios[C]∥Proceedings of the Ninth Biennial ACM Symposium on Eye Tracking Research & Applications. New York, USA: ACM, 2016:19-26.

[51]

LYU M TLI FXU G Y, et al. Leveraging eye-tracking technologies to promote aviation safety- a review of key aspects, challenges, and future perspectives[J]. Safety Science2023,168:No.106295.

[52]

高海东.基于路径积分和深度学习方法的眼动行为分析[D].广州:广东工业大学,2022:1-71.

[53]

蔡佳琪.基于眼动交互的远程控制系统的设计与实现[D].南京:南京大学,2017:1-71.

[54]

刘昕.基于眼动的智能人机交互技术与应用研究[D]. 南京:南京大学,2019:1-78.

基金资助

国家科技创新2030重大专项(2022ZD0208500)

AI Summary AI Mindmap
PDF (1799KB)

1190

访问

0

被引

详细

导航
相关文章

AI思维导图

/