关键词:
中文AMR
虚词
分布
功能
摘要:
目前汉语语义自动分析的研究逐渐深入,但分析精度并不高,原因之一就是在分析过程中未能完全利用理解句子语义的必要信息,如虚词信息。而虚词作为现代汉语一种重要的语法手段,对理解句子的句法语义有着至关重要的作用。虚词信息在中文信息处理领域的各项任务中利用率不高,主要有以下几点原因:(1)中文信息处理领域中的虚词分类囿于传统的为教学法设计的词类体系。虽然传统虚词的判定和分类基本都以功能为标准,但本身存在争议,这加大了虚词标注的难度,也降低了标注资源的适用性;(2)目前尚缺乏合适的形式化表示方式来表示虚词的功能,且虚词的用法规则仅根据其搭配词的词性来编写;(3)虚词的专项知识库资源稀缺,其他资源库中的虚词标注深度参差不齐,难以给出各虚词在各功能下的概率信息。为了表示虚词功能信息,力求解决以上问题,本文开展了以下工作:(1)针对中文信息处理领域中的虚词分类问题,本文首先尝试从中文信息处理的角度界定虚词的范围和类别。本文从虚词的语法功能出发,对虚词的范围进行了划定,确定了本文中的虚词包括介词、连词、助词、语气词四类。并考虑到这四类在表达功能上的异同,将虚词归为两类:语气词、部分助词归为表示概念的虚词;介词、连词、部分助词归为对应概念间关系的虚词。由此,尽量规避了传统词类体系带来的争议,保证了虚词判定的功能标准,并且新的虚词类别和传统词类进行了对应,突出了虚词的功能,也便于后续的资源建设与应用。(2)针对虚词的形式化表示方式缺乏的问题,本文引入基于概念图的语义表示方法AMR,并在此基础上介绍了中文AMR突出虚词功能的标注方法。首先,根据虚词的功能,对表示概念的虚词和对应概念间关系的虚词以两种方式进行标注。前者标注为节点,以表示句中承担的概念。后者与对应的语义关系一同标注在有向弧上,以表示由有向弧连接的概念间的关系,尽量合理地标注虚词功能。其次,中文AMR设计了全新的编号方案并纳入标注,使得句子的词汇实例可以和概念和关系进行对齐,较为直观地标注出虚词及其功能。最后,中文AMR对语义关系进行了扩充,加上其可以灵活增删概念的标注机制,可以动态地描写出虚词的功能。(3)针对中文信息处理领域虚词资源稀缺、难以给出虚词概率信息的问题,本文构建了8,586句标注了虚词功能的中文AMR语料库以及含19,803条虚词词例信息的知识库。在语料库基础上,本文统计分析了虚词的分布规律和具体功能。第一,虚词的使用广泛,对应概念间关系的虚词使用频率较高。语料中共有259个虚词词型,19,803个虚词词例。含有虚词的句子占句子总数的89.42%。表示为概念节点的虚词词型占23.17%,对应概念间关系的虚词词型占76.83%。表示为概念节点的虚词词例占37.43%,对应概念间关系的虚词词例占62.57%。第二,在所有虚词词例中,部分虚词与其相关节点上的词语之间存在其他词语。标为概念节点的虚词词例中,有80.27%的助词和44.76%的语气词和其父节点上的词语紧密相连。标在有向弧上的虚词词例中,有82.55%的助词、57.46%的介词和39.75%的连词在句子中和其对应节点上的词语紧密相连。第三,在所有虚词词例中,虚词相关节点上的词语存在词类使用偏好,有93.94%的标注在节点上的助词、80.34%的语气词的父节点词语词性为动词。有向弧上虚词的对应节点和父节点中,64.10%的介词为“名词-动词”搭配,而连词由于受复句影响,有54.67%为“动词-动词”搭配。第四,各类虚词的功能存在较大差异。表示概念的助词主要为体助词,3个助词词型表达出句子中91.91%的体信息。表示不同语气时,虚词的参与度及所用虚词词型各异,其中表达判断和祈使语气的参与程度最高。对应概念间关系的助词主要为结构助词,其中“的”使用频率最高,可表示功能也最多。介词的功能较为灵活,而连词表示的功能更加固定。最后,本文将各类虚词的位置、相关节点、例句等信息整合,构建出计算机可用的虚词知识库。通过该知识库,可以得到各虚词在各分布、功能下的动态概率信息,以期为后续的研究和应用奠定基础。