关键词:
光学字符识别(OCR)
场景文本识别(STR)
对抗样本
生成对抗网络(GAN)
深度学习
序列模型
摘要:
文本识别技术可以分为光学字符识别(optical character recognition,OCR)和场景文本识别(scene text recog⁃nition,STR),其中STR是在OCR基础上针对日益复杂的应用场景衍生出来的。依托深度学习,OCR技术近年来取得了长足进步并大规模商业落地,但深度学习面临的对抗样本攻击问题也给OCR带来了安全威胁。目前大多数OCR模型均存在识别自然扰动和防御对抗样本攻击能力差的问题,如OCR模型在噪声、水印和梯度等攻击算法下的识别准确率大大降低。相比图像领域,文本识别领域的对抗样本攻击研究还远远不够。文本识别通常被视为一个序列到序列的问题,其中输入(如图像中的像素)和输出(像素对应的字符)都是序列,这使得对抗样本的生成更具挑战性。本文对文本识别的对抗样本攻击和防御方法进行研究综述,梳理了近年来文本识别领域的对抗样本攻击方法并进行对比分析,根据攻击类型、应用场景和模型可知性,对攻击方式进行了系统分类。具体来说,按照攻击类型,可分为基于梯度的攻击、基于优化的攻击和基于生成模型的攻击;按照应用场景,可以分为OCR攻击和STR攻击;按照模型可知性,可分为白盒攻击和黑盒攻击。除了回顾文本识别对抗样本攻击方法,还简要介绍了防御技术,具体分为数据预处理、文本篡改检测和传统对抗防御技术。通过这些技术的应用,可以有效地提升文本识别模型的安全性和鲁棒性。最后,总结了文本识别领域对抗样本攻击及防御面临的挑战,并对未来发展方向做出展望。