利用基于位置的增强现实技术量化停留时间：利用视觉Transformer对移动眼动追踪数据进行动态AOI分析| MDPI Journal of Eye Movement Research —论文

来源：Journal of Eye Movement Research 发布时间：2026/5/14 13:52:02

选择字号：小中大

利用基于位置的增强现实技术量化停留时间：利用视觉Transformer对移动眼动追踪数据进行动态AOI分析| MDPI Journal of Eye Movement Research

论文标题：Quantifying Dwell Time With Location-based Augmented Reality: Dynamic AOI Analysis on Mobile Eye Tracking Data With Vision Transformer

论文链接：https://www.mdpi.com/1995-8692/17/3/15

期刊名：Journal of Eye Movement Research

期刊主页：https://www.mdpi.com/journal/jemr

一、引言

移动眼动追踪（MET）适用于自然主义研究，但其数据噪声大，尤其在户外、多参与者、多时段采集时。动态兴趣区（AOI）分析面临两大挑战：1）相机与目标物体均非线性移动，可能消失或重现；2）现有分析工具仅适用于线性运动目标。因此，研究者常依赖耗时的手动标注，限制了MET在自然主义研究中的广泛应用。本文提出基于微调视觉Transformer（ViT）模型的方法，对叠加注视标记的视频帧进行分类。在由三个时期的1.98%（=7845帧）整个数据组成的手动标记训练集上对模型进行微调后，根据保留数据评估，模型达到了99.34%的准确率。该方法用于量化户外增强现实生物多样性教育应用中用户在平板上的注视时间，并讨论了其优势、局限及可迁移性。

二、材料与方法

1.数据收集：使用Tobii Glasses 3采集41名参与者的眼动数据（共11小时视频，50Hz），经Tobii Pro Glasses Analyzer软件生成带红色注视标记的以自我为中心的视频。

2.预处理：以10帧/秒提取396,000帧（1920×1080），缩放至320×320像素。

3.训练集标注：随机选取1.98%（7845帧）手动分为三类：“in”（注视点在平板内）、“out”（在平板外）、“none”（无注视标记），耗时2小时24分钟。

4.模型与训练：使用预训练ViT-Base 16模型，替换分类头，采用交叉熵损失、批量大小为24、学习率5×10^-5。先训练3个时期（11分47秒），再续训10个时期（45分48秒）。最佳模型（v1）在训练内验证准确率达99.11%。

5.留出验证：用一名参与者视频（10,210帧）作为留出集，手动标注作对比。模型v1准确率99.34%，高于手动标注（99.16%）。

6.推理与后处理：用模型v1对全部396k帧推理，耗时35小时，输出每帧标签，计算每位参与者的注视时间占比，并生成带标签的可视化视频。

图1. 经调整大小并标注后的数据集样本。该数据集包含三个类别：“in”（注视点位于平板电脑屏幕内）；“out”（注视点位于屏幕外部）；以及“none”（注视点未能被解析，且未叠加视觉标记）。

三、分析与结果

1.模型性能：模型v1准确率99.34%，模型v2为98.76%，手动标注为99.16%。模型在边缘、红色背景、混凝土背景等困难帧上存在一定偏差。

2.注视时间结果：41名参与者平均注视平板内时间占比61.83%（SD=13.99），平板外24.74%（SD=10.24），无法解析的注视点占13.43%（SD=12.22）。

3.效率提升：自动推理耗时35小时，而完全手动标注估计需141.5小时，大幅节省时间，且避免了重复劳动的精神消耗。

图2. 争议帧示例：(a)和(b)两种模型都倾向于错误标记平板电脑边缘的标记，而手动标记此处也较为困难。(c)和(d)模型v2错误标记了其他手持平板电脑的人。(e)纯混凝土背景的标记错误率高于植被背景。(f)后方有一辆红色汽车，所有模型均未检测到（同样为红色的）视线标记。

四、讨论

1.方法优势：图像分类方法比目标检测或语义分割更简单、成本更低、准确率更高，且无需几何后处理。ViT能够学习AOI的视觉特征，绕过传统追踪算法的失效问题。

2.局限：依赖带注视标记的视频，标记颜色与背景相似时可能误判；仅针对单个简单几何形状的AOI；留出验证仅使用一名参与者的数据；需进一步验证在更复杂场景和更多AOI下的表现。

3.可扩展性：该方法可推广到更复杂的分类任务，如物种识别、行为分类、环境类型判断等，适用于各种噪声数据的知识提取。

五、结论

本文提出了一种基于ViT图像分类的自动化方法，用于动态AOI的注视时间分析，成功解决了传统方法在非线性移动目标和噪声数据下的失效问题。该方法在准确率上优于手动标注，且显著提升分析效率。实验表明，平板注视时间占比较大，为教育技术设计提供了量化依据。该方法开源且可迁移，有望推动MET在自然主义研究中的广泛应用。

引用格式：

Mercier, J.; Ertz, O.; Bocher, E. Quantifying Dwell Time With Location-based Augmented Reality: Dynamic AOI Analysis on Mobile Eye Tracking Data With Vision Transformer. J. Eye Mov. Res. 2024,17, 1-22.

期刊介绍

主编：Prof. Dr. Rudolf Groner, Department of Psychology, University of Bern, Switzerland.

Journal of Eye Movement Research (JEMR) (ISSN 1995-8692) 是一个国际型开放获取英文学术期刊，内容涵盖眼动功能的各个方面，包括眼动记录方法、神经生理学和认知模型、注意力、阅读，以及在神经病学、人体工程学、媒体研究和其他领域的应用。期刊目前已被Scopus, SCIE (Web of Science), PubMed, PMC等多个数据库收录。

2024 Impact Factor：2.8

2024 CiteScore：3.4

Time to First Decision：29.4 Days

Acceptance to Publication：4.9 Days

特别声明：本文转载仅仅是出于传播信息的需要，并不意味着代表本网站观点或证实其内容的真实性；如其他媒体、网站或个人从本网站转载使用，须保留本网站注明的“来源”，并自负版权等法律责任；作者如果不希望被转载或者联系转载稿费等事宜，请与我们接洽。

编辑部推荐博文
封面文章丨禁渔四年，长江中游的鱼回来了吗？科学网2026年4月十佳博文榜单公布！【有奖互动】体验AI选刊，赢取精美礼品！全球湖泊碳埋藏显著增加，但多数仍呈碳源特征云南蔬菜基于数据驱动与光电建模的2T钙钛矿/CIGS叠层电池优化研究更多>>