关键词:
深度学习
增强现实
物体6自由度姿态估计
特征融合
注意力机制
摘要:
增强现实技术是智慧城市的重要入口之一,其通过计算目标物体在真实环境中的姿态,进而将数字化城市信息精准叠加在目标物体特定位置上,增强人与物的实时交互能力,在智慧工厂、智慧交通、智慧旅游等领域有广阔的应用前景。目标物体6自由度姿态估计从实时拍摄的图像中精确估计目标物体6自由度姿态,从而确定用于增强目标物体的数字化增强信息在图像中的位置,是增强现实的核心技术之一。然而,目标物体的种类多样性、真实环境的复杂多变性都增加了物体6自由度姿态估计难度。因此,本文基于深度学习,针对弱纹理的小物体6自由度姿态估计精度低和模型遮挡鲁棒性差的问题展开研究,具体研究内容如下:1.提出一种基于高斯滤波和高斯噪声注入改进的在线数据增强方法。由于实拍图像6自由度姿态标注困难,本文使用物体6自由度姿态合成图像扩容实拍图像数据集,但合成图像很难重现真实拍摄时的光照变化、运动模糊等影响因素,同时还存在显著的人工痕迹,这都导致模型泛化性低。因此,基于FFB6D在线数据增强方法,调优其高斯滤波超参数,充分平滑人工痕迹,避免模型借助人工痕迹等特征学习目标物体区域;增添高斯噪声注入操作,模拟实拍图像噪声,增强模型对噪声干扰和冗余信息的过滤能力。2.提出一种基于特征融合和注意力机制的物体6自由度姿态估计模型(FA6D)。真实环境的复杂多变和人眼强大的辨误能力,要求物体6自由度姿态估计有高的估计精度和强壮的遮挡鲁棒性。首先,在RGB图像特征提取网络的首个卷积块中加入卷积注意力模块,提升弱纹理的小物体区域显著度;其次,在基于编解码器的RGB图像特征提取网络中引入基于卷积注意力模块的跳跃连接,弥补深层姿态语义特征缺乏细节外观特征的问题;然后,使用通道注意力模块改进池化金字塔模块,增强目标物体可见区域与遮挡区域的联系,提升遮挡鲁棒性;接着,使用卷积注意力模块重构解码器输出的姿态语义特征,增强相似外观特征的区分度,从而降低外观相似物体对物体6自由度姿态估计的干扰;最后,调优语义分割损失函数权重,增强模型从遮挡环境中精准辨识目标物体的能力。3.提出一种基于多模态特征融合的FA6D优化方法。多模态特征融合充分发挥了外观特征与几何特征的互补优势,但其关键问题在于制定恰当的融合策略。首先,删除FA6D特征提取网络解码器阶段冗余的双向融合模块,防止模型在解码器阶段通过双向融合模块引入噪声;然后,使用全局平均池化改进双向融合模块中RGB图像到点云的融合功能部分,在共享外观显著性特征的基础上,同时共享外观的上下文信息,实现从外观和几何两个角度共同辨识目标物体。实验表明,本文提出的面向增强现实的物体6自由度姿态估计模型具有弱纹理的小物体6自由度姿态估计精度高和模型遮挡鲁棒性强的优点。