您的位置：首页 > 其它

#Paper Reading# Multi-Document Summarization via Sentence-Level Semantic Analysis and SMF

2017-03-19 08:55 344 查看

论文题目：Multi-Document Summarization via Sentence-Level Semantic Analysis and Symmetric Matrix Factorization

论文地址：http://dl.acm.org/citation.cfm?id=1390387

论文发表于：SIGIR 2008（CCF A类会议）

论文大体内容：

本文提出一个基于sentence level的语义分析（SLSS）与对称NMF（SNMF）的多文档摘要方法，能够更好的考虑语义层面的关系，已达到一个更好的效果。

1、方法的整体过程如下：

2、构造sentence level的句子相似矩阵（∈R^(S*S)）

①将文档拆分成句子；

②句子划分为frames（每个动词以及其附近的词组成一个frame），

③对frames中的terms进行词性标注（semantic role），以此判断两个terms是否related；

④计算各个frame下，semantic role的相似度（terms的交集累加）；

⑤计算frames的相似度（累加）；

⑥计算sentences的相似度（最大值），从而得出sentence level的相似矩阵；

3、SNMF（对称NMF）聚类

①目标方程如下；

②使用拉格朗日展开，加上KKT，梯度下降，得出更新方程如下；

4、SNMF的特性

①近正交性；

②等价于谱聚类的一种形式（谱聚类将对象映射成无向图中的点，对象之间的相似度做为点之间的边的权值，然后基于一些准则设计出合适的图划分算法[1]。Normalized Cuts是其中一种）；

③等价于Kernel K-means

5、对每个类别的句子进行打分排序，同时考虑两个因素（Mp）：

①与同一类的其它句子的平均相似度（M1）；

②句子与给定主题的相似度（M2）；

实验

6、Dataset：DUC2005，DUC2006

7、Baseline：

①LeadBase：直接对所有句子排序；

②Random：随机选句子；

③LSA：使用其他学者提出的基于LSA的方法；

④NMFBase：使用其他学者提出的基于NMF的方法；

8、对比实验，分别用不同的方法来处理三个关键步骤：

①句子相似矩阵（SLSS，keyword-based）；

②聚类（SNMF，K-means，NMF）；

③句子排序方法（Mp，M1，M2）；