关键词:
BERT
术语权重
不均衡数据集
事故隐患分类
隐患分类系统
摘要:
随着建筑企业信息化建设的推进,智慧化管理需求日益增长,因此,如何构建建筑企业的隐患管理信息系统就成为了目前的研究热点及难点。安全检查通报作为建设项目上最为普及的事故隐患排查方法,其记录着在建项目全周期的隐患变化情况,但对通报进行人工分类需要耗费大量的时间和人力,对人员的知识背景也有较高要求。因此实现建筑事故隐患自动分类功能,提升建筑事故隐患排查效率,对隐患信息的智能化管理具有借鉴意义。本文为实现事故隐患排查信息的自动分类分类功能,提升安全检查通报的实用性和适用性,提出了用于建筑事故隐患分类的Bert改进及压缩模型,并基于Tkinter库建立了隐患自动分类交互系统。本文的主要工作如下:(1)对某建筑公司2013年1月—2020年8月近8年间企业管理系统中的安全检查通报进行了整理,获取了共612份安全检查通报,并对其进行数据清洗、去噪等人工预处理操作剔除了特殊字符、无用信息和全半角混用等语料集噪声,再通过双向交换数据标注的方式进行语料集标注,最终整理得到16033条包含12个隐患类别标签的建筑事故隐患文本数据集,用于后续模型分类性能的验证。(2)使用Word2vec和Bert模型作为文本表示试验模型,设计了3组模型对比试验,并在两者之后接入相同的分类模型,以探究Bert模型对试验语料集的语义表达能力。同时针对试验语料集中的现存问题,提出了Bert模型相应的优化方案:为量化相同术语在不同隐患类别间的重要性差异,使用了基于TF-IDF的术语多类别加权方案,以实现对Bert模型词嵌入过程的改进;为缓解各类别数据分布不均衡对模型分类性能的影响,运用遗传算法优化了focal loss函数的类别权重因子α,即α在自定义适应度函数不断的监督训练下,最终取得了12类最优的类别权重值,替代了Bert模型中不适用于不平衡数据集的交叉熵损失函数,从而减缓了在处理文本多分类数据不均衡任务时,模型性能不佳的问题。(3)对Bert模型采用了基于模型替换的模型压缩方法—BERT-of-Theseus,并依次从不同模块替换、不同替换率、模块替换策略和教师模型层数四个层面对BERT-of-Theseus压缩效果进行对比分析,以探究最优的压缩效果,从而达到简化模型的目的。(4)基于Ktinter框架,从整体目标和功能需求、实现过程等多个方面进行了阐述,并依据建筑企业的实际需求,构建了建筑事故隐患分类系统,对已完成框架进行了可视化展示,最后通过测试语料集验证,其较好的完成了隐患分类系统的基本功能。