关键词:
故障诊断
主题模型
词向量
权重
文本聚类
摘要:
针对信号设备故障文本数据存在的长度短、专业性强及难以智能化再利用等问题,提出基于改进的词对主题模型和词向量融合(IBTM-TMW)的信号设备故障文本聚类方法。首先,为减少数据噪音,提升数据质量,在数据预处理过程中引入自建词典和保留动名词处理;其次,在词对的吉布斯采样建模过程中引入词的差异性重要度作为加权因素,利用改进的词对主题模型(IBTM)提升文本主题特征的学习能力,并将词频-改进逆文档频率权重(TF-MIDF)嵌入到Word2vec词向量的生成过程,将词的文本重要性与Word2vec词向量融合,完善文本词特征向量的表示;最后,通过融合文本主题特征向量和词特征向量,增强文本特征的表示能力,并采用K-means++算法进行故障聚类分析。结果表明:同一试验数据集下,所提方法生成的文本特征向量明显优于其他传统模型,其诊断精度达到89.9%,高于K-means,GMM,AGNES和BIRCH等聚类模型(诊断精度分别为78.3%,68.1%,87.9%和81.7%)。该方法可增强故障文本特征与类别间关联关系的识别能力,为基于文本数据驱动的故障诊断提供参考。