关键词:
主动学习
建筑工程
聚类
机器学习
建筑结构分类
摘要:
随着世界城市化进程的不断推进,城市建筑需求量急剧增加,其相应的一系列建材和资源也产生了广阔的市场。识别建筑结构类型是衡量特定建筑所需建筑资源负担的先决条件,有助于建立建筑结构、材料和资源需求之间的联系以及建筑物抗震能力检测等等,从而有助于建立智慧城市形态、推进城市新陈代谢和生态规划等可持续城市研究。机器学习可有效助力建筑结构分类问题,其通常需要大量的有标注样本作为训练集构建机器学习模型。但在实际应用场景中,样本通常是稀缺的,可以获取到的样本中绝大部分为未标注样本。在建筑工程领域中,对于满足一定标注精度的建筑结构类型标注工作往往要求标注人员具有较高的领域知识,这种现象也普遍存在于医学、军事等领域。因此这注定了研究过程中的样本标注工作要花费巨大的时间和费用成本。在此背景下,主动学习逐渐引起了学者们的重视,其所蕴含的关键思想是,如果机器学习算法可以主动选择其所需要学习的数据,那么它可以实现用更少的训练数据达到期望的模型精度。主动学习通常被用于降低模型构建过程中的数据标注成本,但在建筑工程领域中并没有现有的主动学习框架以用于当前建筑结构分类问题,为了填补建筑工程领域相关知识的空白,本文提出了一种名为预聚类主动学习的建筑结构分类方法。本研究将监督学习、无监督学习和主动学习三者结合,提出了一种预聚类主动学习方法并将其用于当前建筑结构分类问题,同时这也是主动学习首次被应用于建筑工程领域的建筑结构分类问题。预聚类主动学习在机器学习模型训练开始之前对训练集进行聚类,基于对聚类结果的分析提高了主动学习查询效率。其次,该方法在预聚类处理过程中对训练集中噪音样本进行了有效的剔除,提高了主动学习迭代查询过程中机器学习模型性能的稳定性。除此之外,该方法采样分层采样的方式对各类别样本进行了采样,从而提高了初始训练集中各类别样本之间的平衡性。同时,预聚类主动学习将各类别簇边缘的非核心样本加入机器学习模型初始训练集,提高了非核心样本的利用率。预聚类主动学习方法改进了现有的主动学习研究中机器学习模型初始训练集的构建方式,提高了主动学习迭代查询过程中模型的稳定性和最终机器学习模型的泛化能力。本文在当前建筑结构数据集上进行了多组对照实验以验证主动学习有效性和预聚类主动学习的有效性。在主动学习有效性验证实验中,本文选取了6个经典的机器学习算法并设置了无主动学习的传统机器学习和主动学习两个情境用以分析当前建筑结构分类问题下主动学习的性能表现,算法包括:GBDT、Decision Tree(DT)、Random Forest(RF)、k-Nearest Neighbors(k NN)、Support Vector Machines(SVM)、Multi-Layer Perceptron(MLP)。实验结果显示,GBDT在结合主动学习前后均获得了最佳性能。其中,GBDT在无主动学习的传统机器学习情境下可达到90.6%的模型精度,训练集大小为2491;在主动学习情境下可达到90.4%的模型精度,接近传统机器学习所能达到模型性能。但主动学习模型所用的训练集大小为1500,仅为传统机器学习的60%。实验证明,主动学习在当前建筑结构分类问题中可以在保证预期模型性能的前提下,极大程度降低模型训练过程中的样本标注成本。在预聚类主动学习有效性验证实验中,本文选取了前述实验中表现最好的GBDT作为机器学习算法并设置了主动学习和预聚类主动学习两个情境用以分析当前建筑结构分类问题下预聚类主动学习的有效性。实验结果显示,GBDT在预聚类主动学习情境下可达到91.8%模型精度,训练集大小为1500。该模型精度相比常规主动学习的90.4%有所提升,且主动学习过程中模型的稳定性也更好。相比传统机器学习,预聚类主动学习模型在所用样本仅为传统机器学习模型所用样本的60%的情况下实现了模型精度从90.6%到91.8%的提升。实验结果表明,本研究提出的基于预聚类主动学习的建筑结构分类方法在显著降低样本标注成本的前提下,提升了建筑结构分类模型的性能。