基于多模态与Transformer注意力机制的高精度视线估计方法
本发明公开了基于多模态与Transformer注意力机制的高精度视线估计方法,包括眼部图像特征提取部分、面部图像特征提取部分、特征融合部分;针对眼部图像,通过膨胀卷积层进行卷积处理,并通过全连接层得到眼部特征。针对面部图像,采用预训练的VGG16网络作为基础,并结合空间注意力机制进一步增强对眼部的关注度,最终通过全连接层得到面部特征。在特征融合部分,采用的Transformer结构独立地增强多模态特征的内部表示。最后,通过融合注意力机制,根据多模态特征在视线估计中的重要性动态调整各特征,从而实现更为精准的视线估计。
基于多模态与Transformer注意力机制的高精度视线估计方法具有广阔的应用前景。随着虚拟现实(VR)、增强现实(AR)和智能交互设备的快速发展,精准的视线追踪技术成为提升用户体验的关键。多模态数据(如眼动、头部姿态、场景图像)的融合能显著提高复杂环境下的鲁棒性,而Transformer的全局注意力机制可有效捕捉长距离依赖关系,优化视线方向预测。此外,该方法在智能驾驶(疲劳监测)、医疗诊断(自闭症研究)、人机交互(广告效果分析)等领域潜力巨大。未来,结合轻量化设计与边缘计算,该技术有望在移动端普及,推动下一代智能设备的商业化落地。
1.本发明引入了空间注意力机制,旨在增强对面部图像中眼部特征的关注,以更有效地捕捉眼部微小的变化。这一技术使本发明能够生成更专注于眼部变化的面部特征,从而显著提高了视线估计的准确性。
2.本发明采用Transformer编码器来更有效地处理眼睛和面部特征,以独立增强每个特征的内部表示。这使得在特征融合时可以更充分地利用多模态信息,捕捉它们之间复杂的关系。这一创新旨在充分利用面部和眼部的综合信息,从而提高估计的准确性。
3.本发明针对现有视线估计任务中由于微妙的眼部特征变化而导致的误差较大问题提出了有效的解决方案。
联系方式
王进
17332172210
江苏省南通市啬园路9号
请填写以下信息
联系人:
手机号:
单位名称:
备注: