edmund

自动文档摘要评价方法:Edmundson,ROUGE

懵懂的女人 提交于 2019-11-27 12:44:27
自动文档摘要评价方法大致分为两类: (1) 内部评价方法(Intrinsic Methods) :提供参考摘要,以参考摘要为基准评价系统摘要的质量。系统摘要与参考摘要越吻合, 质量越高。 (2) 外部评价方法(Extrinsic Methods) :不提供参考摘要,利用文档摘要代替原文档执行某个文档相关的应用。例如:文档检索、文档聚类、文档分类等, 能够提高应用性能的摘要被认为是质量好的摘要。 一、Edmundson:   Edmundson评价方法比较简单,可以客观评估,就是通过比较机械文摘(自动文摘系统得到的文摘)与目标文摘的句子重合率(coselection rate)的高低来对系统摘要进行评价。也可以主观评估,就是由专家比较机械文摘与目标文摘所含的信息,然后给机械文摘一个等级评分。 类如等级可以分为:完全不相似,基本相似,很相似,完全相似等。   Edmundson比较的基本单位是句子,通过句子级标号分隔开的文本单元,句子级标号包括“。”“:”“;”“!”“?”,并且只允许专家从原文中抽取句子,而不允许专家根据自己对原文的理解重新生成句子,专家文摘和机械文摘的句子都按照在原文中出现的先后顺序给出。    计算公式为: \[ \text{重合率p}=\text{匹配句子数}/\text{专家文摘句子数}\times \] 每一个机械文摘的重合率为按三个专家给出的