关键词:
建筑结构分类
互信息
混合式特征选择
最大贡献度
摘要:
随着世界城市化进程不断推进,城市建设规模不断扩大,城市开始涌现各种不同结构类型的建筑,如住宅和商业办公楼等。建筑是人造环境系统中的重要组成部分,它建立了城市形态,实现了城市功能。研究城市建筑材料及其资源分布有助于推动城市可持续健康发展。城市建筑物的建造主要依赖钢铁、水泥和砖块等建材。但是建筑物具体需要何种建材主要取决于其建筑结构类型,因此识别建筑结构类型是衡量建筑材料资源需求的先决条件。识别建筑结构类型不仅有助于建立城市形态,而且有助于建立建筑结构、建筑材料和资源需求之间的联系,这将大大推进城市新陈代谢和生态规划等城市可持续发展进程。用机器学习来做建筑结构分类将大大减轻工作量,但是结构类别在建筑的外部特征中并没有明确地表现出来,所以建筑结构分类仍然具有挑战性。目前可通过图像数据来对建筑结构进行有效区分,但这些数据通常难以收集,因此需要搜集其他类型数据对建筑结构进行区分。为了获取可对建筑结构进行分类的数据,本研究从Auto Navi自动导航地图中获取了新的数据集,该数据集包含了建筑外部轮廓数据信息和建筑POI。但其中并非所有特征都与识别任务密切相关,仅有少部分特征能够作为分类依据,其余特征为冗余特征或不相关特征。这些不利于建筑结构分类的特征占据了数据存储的空间资源,降低了计算效率,还会对机器学习过程造成干扰,不利于机器学习挖掘有用的信息,使得模型分类精度下降。特征数量过多还会导致后续建立的学习模型出现过拟合的情况,机器学习模型无法获得较高的精度。因此如何优化数据集是一个重要的问题。只有选择合适的特征选择方法,才能从大量数据中找到需要的特征子集。如果特征选择方法选择不当,就有可能会出现两种情况,一种是选取的特征子集中存在冗余特征,使得模型解释性差、模型分类精度低;另一种是选取的特征子集数量过少,重要特征未被选取,造成分类结果出现严重的误差。但是在选取最优的特征选择方法时仍然面临着一定的挑战。因为本研究数据集呈现以下几方面缺陷:(1)数据集中离散型数据和连续型数据共存。当数据集中离散性特征和连续性特征共存时,通常的做法是将特征离散化。但目前数据集中部分连续特征的取值差别不明显,使得本就难以明显区分类别标签的特征更具有相似性。因为如果对数据进行离散化,会造成数据丢失,使得不同结构类型的样本中特征的取值更加趋近,更加大了建筑结构分类的难度;(2)特征变量之间存在强相关性,存在特征间冗余的情况。在选择特征子集的时候,就应该同时考虑特征与标签之间的相关性以及特征间的冗余。在建筑领域中,过滤式特征选择方法是应用最多的特征选择方法,而该方法也是缺乏了对特征间冗余的考虑;(3)特征解释性不强,与标签之间关系不明确,可能存在线性关系和非线性关系。目前的特征选择方法往往不能同时考虑特征与类别之间的线性关系和非线性关系。当某一特征选择方法仅能判定特征与类别之间的线性关系时,该算法会根据其相应的评价准则对特征进行评估,若得分高则表明特征与类别之间存在很强的线性关系,即判定为特征与类别之间相关性高,若得分较低,即使类别与特征之间存在极强的非线性关系,也会因为无法捕捉,导致该特征被判定为无关特征或弱相关特征,然后将其剔除;(4)存在噪音特征,噪音特征可能与重要特征间存在群组效应。噪音在很大程度会干扰学习模型的训练。为了解决上述问题,本文的主要工作如下:(1)提出了一种改进的基于最大贡献度互信息的特征选择方法(Maximum Mutual Information Contribution,MMIC),引入联合互信息作为冗余项,计算特征与类别标签之间的重复贡献互信息,同时考虑了特征与类别标签之间的相关性和特征间的冗余性;(2)本文提出了一种基于MMIC-RFE的混合式的特征选择算法,将MMIC特征选择算法与递归消除法结合,先使用MMIC算法计算每一个特征的最大贡献度互信息,经过初次过滤得到相关性较高的特征子集,再将该特征子集作为递归消除特征选择方法的输入,最终得到最优的特征子集。本研究设置了4组对照实验。以建筑结构预测结果的分类精度作为评价标准,通过对比实验来验证新特征选择算法的有效性。结果表明,未进行特征选择时对应的学习模型分类精度为90.8%,采用基于最大贡献度互信息的特征选择方法(MMIC)对数据集进行筛选后训练出的模型分类精度为91.56%,相比使用原始特征子集提升了0.6%。对比采用互信息特征选择方法,对应的模型分类精度提升0.06%。采用混合式特征选择方法MMIC-RFE时,将选取的特征子集作为学习模型的输入,其模型分类精度达到91.7%,相比采用MMIC特征选择方法提升了0.14%。由实验结果可得,基于最大贡献度互信息的特征选择方法(MMIC)优于互信息特征选择方法,基于MMIC-RFE的混合式的特征选择算法优于MMIC特征选择方法,同时优于其他组