自动文摘评测方法:Rouge |
您所在的位置:网站首页 › rough的翻译是什么意思 › 自动文摘评测方法:Rouge |
Rouge-L 的初认识
本人参加百度机器阅读理解比赛,发现阅读理解比赛的评价标注,以Rouge-L为主,若 Rouge-L相同的 话,则看 BLEU-4。由此可见,Rough-L 作为自动文摘评测方法是特别有用的,接下来我讲解一下。 Rouge-L 论文: https://www.aclweb.org/anthology/W04-1013 BLEU-4 的学习,可以看我的另一篇博客,有助于理解Rouge-N: https://blog.csdn.net/ding_programmer/article/details/89740078 什么是Rouge呢? Rouge(Recall-Oriented Understudy for Gisting Evaluation),是评估自动文摘以及机器翻译的一组指标。它通过将自动生成的摘要或翻译与一组参考摘要(通常是人工生成的)进行比较计算,得出相应的分值,以衡量自动生成的摘要或翻译与参考摘要之间的“相似度”。 Rouge-N Rouge-1、Rouge-2、Rouge-N
分母是n-gram的个数,分子是参考摘要和自动摘要共有的n-gram的个数。直接借用文章[2]中的例子说明一下: 自动摘要YY(一般是自动生成的): the cat was found under the bed 参考摘要(标准答案),X1X1(gold standard ,人工生成的): the cat was under the bed summary的1-gram、2-gram如下,N-gram以此类推:
分子是待评测摘要和参考摘要都出现的1-gram的个数,分子是参考摘要的1-gram个数。(其实分母也可以是待评测摘要的,但是在精确率和召回率之间,我们更关心的是召回率Recall,同时这也和上面ROUGN-N的公式相同) 同样, Rouge-L L即是LCS(longest common subsequence,最长公共子序列)的首字母,因为Rouge-L使用了最长公共子序列。Rouge-L计算方式如下图:
其中
对于什么是召回率、什么是准确率,F-measure 可以看我的另一篇博客: https://blog.csdn.net/ding_programmer/article/details/89740668
当
所以 当,
参考文献: https://blog.csdn.net/qq_25222361/article/details/78694617#t2 https://www.aclweb.org/anthology/W04-1013
|
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |