关键词:
资产评估报告
文档解析
要素抽取
命名实体识别
摘要:
互联网时代企业信息化建设如火如荼,企业电子文档的数量呈现爆炸式增长,对其管理和分析的需求也日益迫切。如何有效地分析和管理海量的非结构化文档,并从中发现对企业有价值的结构化数据,是企业信息化建设面临的重要和困难问题。资产评估报告是一种具有高度专业性和重要信息含量的金融文档,它虽然遵循特定的章节结构,但是内容复杂、篇幅较长、冗余文字过多。本文针对企业资产评估报告信息录入任务的繁琐性和低效性,设计了智能化的方法和工具,实现了对资产评估报告的文档解析和要素抽取。首先,本文分析了资产评估报告的结构和内容特征,据此设计了文档智能分析方案:1)Word文档解析,通过遍历XML节点的方式解析文档内容和章节结构,获得章节文本块。2)建立关键词词典,在人工搜集的关键词基础上,基于资产评估报告文本训练词向量模型,通过word2vec生成同近义词的方式扩充关键词词典。3)评估报告要素抽取,对章节文本块根据关键词词典进行文本分割,获得关键词所属文本;再基于定义好的要素列表,在目标文本中分别使用基于规则和基于命名实体识别的方式抽取键值型要素和实体型要素,将抽取结果存储为结构化数据。其次,基于上述方案,运用软件工程的理论和方法设计并实现了一套功能完备、交互良好的资产评估报告文档智能分析系统,系统具有文档管理、文档分析、数据管理和用户管理等主要功能。该系统通过了周密的线上测试,运行情况良好,实现了设计的目标功能,满足了企业的实际业务需求。本文的创新工作和贡献主要体现在两个方面:一是根据资产评估报告文档的特征和需求,构建了智能分析方案和报告词典,为该类文档的自动处理提供了有效的解决方案;二是针对文档内容复杂的难题,提出了一种先进行文档解析,再根据关键词分割文本,最后用不同方法抽取要素的串行流程方案,提高了信息识别和抽取的准确性。