#Paper Reading# Manifold-Ranking Based Topic-Focused Multi-Document Summarization
2017-07-01 17:58
344 查看
论文题目:Manifold-Ranking Based Topic-Focused Multi-Document Summarization
论文地址:http://www.aaai.org/Papers/IJCAI/2007/IJCAI07-467.pdf
论文发表于:IJCAI 2007(CCF A类)
论文大体内容:
本文将流形排序(Manifold-ranking)应用到多文档摘要(extractive式)中,通过实验发现取得了不错的效果。
1、manifold-ranking基于2个假设:
①邻近的点有相同的分数;
②相同结构的点也有相同的分数;
2、manifold-ranking使用一个权重网络,每两个结点有一条权重连线,通过网络之间的权重传播,不断迭代各连线的权重值,最终得到一个稳定的权重(类PageRank);
![](https://img-blog.csdn.net/20170701183355699?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvSm9objE1OTE1MQ==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
3、本文作者从信息丰富度(与主题T的关系)和信息新奇度(与已有摘要的区别)2方面来考虑extractive式摘要的生成;
4、信息丰富度
①这里将每个文档拆分为句子(权重网络的结点),计算TFISF,得到D矩阵(维度为M*N,M为词典大小,N为句子数),然后通过consine计算每两个句子之间的相似度,得到W矩阵,作对称正则化(Symmetrically normalize)S=diag(W*1)^(-1/2)*W*diag(W*1)^(-1/2);
②每个句子的打分为f向量,f(t+1)=α*S*f(t)+(1-α)*y;其中α是超参数,y中除了主题描述句的值为1外,其它句子值为0,不断迭代f,直到稳定,从而得到句子的打分;
③考虑到句子在相同文档内与不同文档的差异,作者令W=λ1*W(同一文档)+λ2*W(不同文档);
5、信息新奇度(diversity)
①生成摘要的时候,每次从剩下的句子中抽取最高分的句子;
②抽取了一个句子作为摘要句子后,对剩下的未被抽取的句子做一个减分操作,主要原则是i被选择为摘要,那么跟i比较密切的j句子,会因为相似性而减分,与i越相近,减的分越多;
![](https://img-blog.csdn.net/20170701175649411?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvSm9objE1OTE1MQ==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
③不断抽取,直到抽取的句子数足够为止;
实验
6、数据集
①DUC2003
②DUC2005
7、评测标准
ROUGE
8、Baseline
①Similarity-Ranking1简化给各个句子打分的步骤,直接用句子与topic句子的相似度来打分,然后继续用diversity选择;(去掉manifold-ranking步骤)
②Similarity-Ranking2更为简单,把1的使用diversity选择也略去,直接选择打分最高的;(去掉manifold-ranking和diversity步骤)
③Lead baseline只选择最后一篇document的第一个句子;
④Coverage baseline选择所有document的第一个句子;
⑤数据集任务中的参赛者成绩
9、实验结果
![](https://img-blog.csdn.net/20170701175711768?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvSm9objE1OTE1MQ==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
![](https://img-blog.csdn.net/20170701175728514?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvSm9objE1OTE1MQ==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
![](https://img-blog.csdn.net/20170701175737467?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvSm9objE1OTE1MQ==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
![](https://img-blog.csdn.net/20170701175746299?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvSm9objE1OTE1MQ==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
![](https://img-blog.csdn.net/20170701175753654?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvSm9objE1OTE1MQ==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
以上均为个人见解,因本人水平有限,如发现有所错漏,敬请指出,谢谢!
论文地址:http://www.aaai.org/Papers/IJCAI/2007/IJCAI07-467.pdf
论文发表于:IJCAI 2007(CCF A类)
论文大体内容:
本文将流形排序(Manifold-ranking)应用到多文档摘要(extractive式)中,通过实验发现取得了不错的效果。
1、manifold-ranking基于2个假设:
①邻近的点有相同的分数;
②相同结构的点也有相同的分数;
2、manifold-ranking使用一个权重网络,每两个结点有一条权重连线,通过网络之间的权重传播,不断迭代各连线的权重值,最终得到一个稳定的权重(类PageRank);
3、本文作者从信息丰富度(与主题T的关系)和信息新奇度(与已有摘要的区别)2方面来考虑extractive式摘要的生成;
4、信息丰富度
①这里将每个文档拆分为句子(权重网络的结点),计算TFISF,得到D矩阵(维度为M*N,M为词典大小,N为句子数),然后通过consine计算每两个句子之间的相似度,得到W矩阵,作对称正则化(Symmetrically normalize)S=diag(W*1)^(-1/2)*W*diag(W*1)^(-1/2);
②每个句子的打分为f向量,f(t+1)=α*S*f(t)+(1-α)*y;其中α是超参数,y中除了主题描述句的值为1外,其它句子值为0,不断迭代f,直到稳定,从而得到句子的打分;
③考虑到句子在相同文档内与不同文档的差异,作者令W=λ1*W(同一文档)+λ2*W(不同文档);
5、信息新奇度(diversity)
①生成摘要的时候,每次从剩下的句子中抽取最高分的句子;
②抽取了一个句子作为摘要句子后,对剩下的未被抽取的句子做一个减分操作,主要原则是i被选择为摘要,那么跟i比较密切的j句子,会因为相似性而减分,与i越相近,减的分越多;
③不断抽取,直到抽取的句子数足够为止;
实验
6、数据集
①DUC2003
②DUC2005
7、评测标准
ROUGE
8、Baseline
①Similarity-Ranking1简化给各个句子打分的步骤,直接用句子与topic句子的相似度来打分,然后继续用diversity选择;(去掉manifold-ranking步骤)
②Similarity-Ranking2更为简单,把1的使用diversity选择也略去,直接选择打分最高的;(去掉manifold-ranking和diversity步骤)
③Lead baseline只选择最后一篇document的第一个句子;
④Coverage baseline选择所有document的第一个句子;
⑤数据集任务中的参赛者成绩
9、实验结果
以上均为个人见解,因本人水平有限,如发现有所错漏,敬请指出,谢谢!
相关文章推荐
- #Paper Reading# Joint Matrix Factorization and Manifold-Ranking for Topic-Focused Multi-Document Sum
- #Paper Reading# Online Knowledge-Based Model for Big Data Topic Extraction
- Paper reading:Global Contrast based Salient Region Detection
- #Paper Reading# Robust Word-Network Topic Model for Short Texts
- #Paper Reading# Fast Online EM for Big Topic Modeling
- #Paper Reading# SumView: A Web-based engine for summarizing product reviews and customer opinions
- #Paper Reading# Mining Aspect-Specific Opinion using a Holistic Lifelong Topic Model
- #Paper Reading# Leveraging Multi-Domain Prior Knowledge in Topic Models
- #Paper Reading# Lifelong Machine Learning for Topic Modeling and Beyond
- #Paper Reading# Multi-document Summarization Based on Cluster Using Non-negative Matrix
- #Paper Reading# Topic Modeling using Topics from Many Domains, Lifelong Learning and Big Data
- #Paper Reading# SummaRuNNer: A RNN based Sequence Model for Extractive Summarization of Documents
- [Paper Reading]开始写Paper Reading Report
- LDA主题模型用于BUG修复人推荐《DRETOM: developer recommendation based on topic models for bug resolution》
- Paper-[acmi 2015]Image based Static Facial Expression Recognition with Multiple Deep Network Learning
- #One paper per week# Search Engine Click Spam Detection Based on Bipartite Graph Propagation
- #Paper Reading# X-means:Extending K-means with Efficient Estimation of the Number of Clusters
- #Paper Reading# CLOSET+
- #Paper Reading# Nonnegative Sparse PCA
- [Paper Reading] Attention to Scale: Scale-aware Semantic Image Segmentation