关键词:
大学课程总结性文本
BERT模型
多特征融合
摘要:
目前大学非考试课程的成绩评价中常常会包含对课程总结性文本的评价,总结性文本通常由学生以书面描述的方式总结课程内容及学习收获。这种评价方式相对于传统的试题如选择题、是非题类通过直接回答的简单题型的评测更加有效。在近年大规模的在线学习和网络考核系统的热潮下,虽然已经有不少提高系统性能和有效性的研究工作,但大学课程总结性文本自动评价仍是一个很有必要解决的问题。根据新华字典以及百度百科的解释,作文是指撰写文章或学生的写作练习,因此大学课程总结性文本可归属于作文一类。随着计算机技术的快速发展,AES(Automated Essay Scoring,作文自动评分)系统得到了进一步应用,AES系统能够对作文进行自动分析和评价,相较于教师直接批改作文,其拥有更低的人工成本以及更高的评阅效率。目前构建和评价AES系统的常用模型仍为神经网络模型与手工制作特征相结合的方式,然而大学课程总结性文本类型具有高度可变性,且大学课程总结性文本通常是较长的非结构化文档,对上下文语义信息有更高的要求,这对建立总结性文本自动评价模型提出了挑战。因此,针对以上的问题,本文基于BERT(Bidirectional Encoder Representation from Transformers)模型并对其进行了优化处理,以使得AES更好地应用于大学课程总结性文本自动评价领域。论文主要包括如下三个内容:(1)由于BERT模型是一个庞大复杂的层次模型,在进行预训练任务时可能会发生梯度消失的问题,使用BERT预训练模型融入Real Former方法来适应研究;针对基础BERT预训练模型的训练语料与本文研究领域无关的问题,收集专业领域语料对预训练模型重新训练;使用Mean-Max-Pooled方法获取更多文本语义信息,提高模型泛化能力。最终得到优化BERT模型,完成大学课程总结性文本自动评分任务。模型准确性达到79.17%,比基础模型准确性提高12.5%。(2)提出了一个针对大学课程总结性文本的评价指标体系,具体包含关键词、关键句、主题词三个特征。首先使用优化BERT模型对文本进行特征向量提取,并对多特征进行融合,其次采用文本分类的方法对文本进行训练,最后完成对大学课程总结性文本的自动评分任务,使用此方法实验结果对比基本模型准确性提升3.22%。(3)使用基于前文的研究得到的优化BERT模型成功搭建一个大学课程总结性文本自动评价系统,并应用到实际环境,有效地进行了课程总结性文本的评价,验证了以上研究技术的有效性。