您的位置：首页 > 运维架构

#Paper Reading# Manifold-Ranking Based Topic-Focused Multi-Document Summarization

2017-07-01 17:58 344 查看

论文题目：Manifold-Ranking Based Topic-Focused Multi-Document Summarization

论文地址：http://www.aaai.org/Papers/IJCAI/2007/IJCAI07-467.pdf

论文发表于：IJCAI 2007(CCF A类)

论文大体内容：

本文将流形排序（Manifold-ranking）应用到多文档摘要（extractive式）中，通过实验发现取得了不错的效果。

1、manifold-ranking基于2个假设：

①邻近的点有相同的分数；

②相同结构的点也有相同的分数；

2、manifold-ranking使用一个权重网络，每两个结点有一条权重连线，通过网络之间的权重传播，不断迭代各连线的权重值，最终得到一个稳定的权重（类PageRank）；

3、本文作者从信息丰富度（与主题T的关系）和信息新奇度（与已有摘要的区别）2方面来考虑extractive式摘要的生成；

4、信息丰富度

①这里将每个文档拆分为句子（权重网络的结点），计算TFISF，得到D矩阵（维度为M*N，M为词典大小，N为句子数），然后通过consine计算每两个句子之间的相似度，得到W矩阵，作对称正则化（Symmetrically normalize）S=diag(W*1)^(-1/2)*W*diag(W*1)^(-1/2)；

②每个句子的打分为f向量，f(t+1)=α*S*f(t)+(1-α)*y；其中α是超参数，y中除了主题描述句的值为1外，其它句子值为0，不断迭代f，直到稳定，从而得到句子的打分；

③考虑到句子在相同文档内与不同文档的差异，作者令W=λ1*W(同一文档)+λ2*W(不同文档)；

5、信息新奇度（diversity）

①生成摘要的时候，每次从剩下的句子中抽取最高分的句子；

②抽取了一个句子作为摘要句子后，对剩下的未被抽取的句子做一个减分操作，主要原则是i被选择为摘要，那么跟i比较密切的j句子，会因为相似性而减分，与i越相近，减的分越多；

③不断抽取，直到抽取的句子数足够为止；

实验

6、数据集

①DUC2003

②DUC2005

7、评测标准

ROUGE

8、Baseline

①Similarity-Ranking1简化给各个句子打分的步骤，直接用句子与topic句子的相似度来打分，然后继续用diversity选择；(去掉manifold-ranking步骤)

②Similarity-Ranking2更为简单，把1的使用diversity选择也略去，直接选择打分最高的；（去掉manifold-ranking和diversity步骤）

③Lead baseline只选择最后一篇document的第一个句子；

④Coverage baseline选择所有document的第一个句子；

⑤数据集任务中的参赛者成绩

9、实验结果

以上均为个人见解，因本人水平有限，如发现有所错漏，敬请指出，谢谢！

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航