关键词:
入侵检测
海量流量数据
类别不平衡
自动编码器
k均值综合少数过采样技术
摘要:
近年来,随着互联网技术的不断发展,入侵检测在维护网络空间安全方面发挥着越来越重要的作用。但是,由于网络入侵行为的数据稀疏性,已有的检测方法对于海量流量数据的检测效果较差,模型准确率、F-measure等指标数值较低,并且高维数据处理的成本过高。为了解决这些问题,本文提出了一种基于稀疏异常样本数据场景下的新型深度神经网络入侵检测方法,该方法能够有效地识别不平衡数据集中的异常行为。本文首先使用k均值综合少数过采样方法来处理不平衡的流量数据,解决网络流量数据类别分布不平衡问题,平衡网络流量数据分布。再采用自动编码器来处理海量高维数据并训练检测模型,来提升海量高维流量中异常行为的检测精度,并在两个真实典型的入侵检测数据集上进行了大量的实验。实验结果表明,本文所提出的方法在两个真实典型数据集上的检测准确率分别为99.06%和99.16%,F-measure分别为99.15%和98.22%。相比于常用的欠采样和过采样方法,k均值综合少数过采样技术能够有效地解决网络流量数据类别分布不平衡的问题,提升模型对低频攻击行为的检测效果。同时,与已有的网络入侵检测方法相比,本文所提出的方法在准确率、F-measure和检测性能上均有明显提升,证明了本文所提出的方法对于海量网络流量数据的检测具有较高的检测精度和良好的应用前景。