[论文阅读笔记]Neural Relation Extraction with Selective Attention over Instances
2016-10-07 09:35
645 查看
这篇论文主要介绍了一个弱监督的关系抽取算法。主要思想是对于每一对实体对,存在多个句子,表达实体之间的关系,传统的方法认为包含两个实体的句子都表示两个实体之间的关系,作为弱监督语料,弱监督必然伴随着错误label的问题,会使关系抽取的效果大打折扣,为了缓解这个问题,这篇文章在句子的层面建立的一个attention机制,可以动态减少噪声句子的权重,做到了充分利用各个句子的信息。
整个的流程分为两部分,第一部分是句子的编码部分,第二部分是attention的方法。
首先对句子进行encoding,然后对encoding之后的句子计算attention机制给出权重,然后使用softmax方法分类。
首先看句子编码器。输入包含word embedding和position embedding,位置信息借鉴的14年的一篇论文,使用的距离两个实体的距离表示。然后经过卷积,赤化、非线性变换输出句子向量,文章为了更好的说明ATT的效果,分别使用CNN和PCNN两种方法进行编码,CNN是指将句子以两个实体为节点分为三段,分别进行卷积、池化、非线性变换,最终再将输出的向量拼接在一起。
然后就是ATTENTION model,为了使用到同一实体对的所有句子的信息,会对每个实体对的所有句子计算一个和向量,对包含相同实体对的句子会进行一个加和,输出一个S向量,这篇文章采用了对不同的句子计算通过底下这个公式进行一个计算,得到一个该句子对表示这种关系的重要程度的指标。采用了双线性的变换,Xi是句子向量,A是一个对角线矩阵,R是表示关系的一个向量。
和他作比较的方法有两个,第一是这个方法的baseline,对所有句子求平均,得到S向量,第二是15年论文的一种做法,对每个实体对,选择概率最大的一个句子。
接下来是实验部分。论文使用的数据集是freebase中的实体和关系,和纽约时报中的实体对其得到的一个数据集,并且拿2005,06年的句子做训练,07年的句子做测试集。
实验结果首先是对attention的分析,AVE>CNN,说明句子间信息的互补可以提高性能,就是说它虽然引入了噪声,但是同一实体对多个句子之间信息的一个相互补充对提高效果还是有帮助的,ONE
> CNN, 说明原始集合中包含很多噪声句子,整体的分类效果肯定不如只选择影响力最强的那个句子分类效果好,当然ATT效果最好,因为它对不同的句子赋予了不同的权重,可以有效降低噪声句子的影响,是有效句子发挥作用,同时也是用到了多个句子的信息。
然后是对句子个数的一个分析,这个个数是指测试集中每个实体对的句子数,训练的时候还是用到了所有句子。从整体可以看出,实例个数越多,优势越明显。其中在单实例测试中,AVE/ATT > ONE说明训练是使用的句子越多,效果越好。
最后的两个case_study具体展现了对这两种关系,这两种关系更明确的句子的权重更高,说明了方法的有效性。
整个的流程分为两部分,第一部分是句子的编码部分,第二部分是attention的方法。
首先对句子进行encoding,然后对encoding之后的句子计算attention机制给出权重,然后使用softmax方法分类。
首先看句子编码器。输入包含word embedding和position embedding,位置信息借鉴的14年的一篇论文,使用的距离两个实体的距离表示。然后经过卷积,赤化、非线性变换输出句子向量,文章为了更好的说明ATT的效果,分别使用CNN和PCNN两种方法进行编码,CNN是指将句子以两个实体为节点分为三段,分别进行卷积、池化、非线性变换,最终再将输出的向量拼接在一起。
然后就是ATTENTION model,为了使用到同一实体对的所有句子的信息,会对每个实体对的所有句子计算一个和向量,对包含相同实体对的句子会进行一个加和,输出一个S向量,这篇文章采用了对不同的句子计算通过底下这个公式进行一个计算,得到一个该句子对表示这种关系的重要程度的指标。采用了双线性的变换,Xi是句子向量,A是一个对角线矩阵,R是表示关系的一个向量。
和他作比较的方法有两个,第一是这个方法的baseline,对所有句子求平均,得到S向量,第二是15年论文的一种做法,对每个实体对,选择概率最大的一个句子。
接下来是实验部分。论文使用的数据集是freebase中的实体和关系,和纽约时报中的实体对其得到的一个数据集,并且拿2005,06年的句子做训练,07年的句子做测试集。
实验结果首先是对attention的分析,AVE>CNN,说明句子间信息的互补可以提高性能,就是说它虽然引入了噪声,但是同一实体对多个句子之间信息的一个相互补充对提高效果还是有帮助的,ONE
> CNN, 说明原始集合中包含很多噪声句子,整体的分类效果肯定不如只选择影响力最强的那个句子分类效果好,当然ATT效果最好,因为它对不同的句子赋予了不同的权重,可以有效降低噪声句子的影响,是有效句子发挥作用,同时也是用到了多个句子的信息。
然后是对句子个数的一个分析,这个个数是指测试集中每个实体对的句子数,训练的时候还是用到了所有句子。从整体可以看出,实例个数越多,优势越明显。其中在单实例测试中,AVE/ATT > ONE说明训练是使用的句子越多,效果越好。
最后的两个case_study具体展现了对这两种关系,这两种关系更明确的句子的权重更高,说明了方法的有效性。
相关文章推荐
- 论文阅读 - 《Neural Relation Extraction with Selective Attention over Instances》
- 知识图谱5-【继续看论文《Neural Relation Extraction with Selective Attention over Instances》】
- [ACL2016]Neural Relation Extraction with Selective Attention over Instances
- 【论文笔记】Neural Relation Extraction with Multi-lingual Attention
- 论文阅读 - 《Neural Sentiment Classification with User and Product Attention》
- 论文笔记:Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks
- [深度学习论文笔记][Attention]Show, Attend, and Tell: Neural Image Caption Generation with Visual Attention
- 【论文笔记】An End-to-End Model for QA over KBs with Cross-Attention Combining Global Knowledge
- An unsupervised neural attention model for aspect extraction 读论文笔记
- 论文笔记:Show, Attend and Tell: Neural Image Caption Generation with Visual Attention
- 【论文笔记】Information Extraction over Structured Data: Question Answering with Freebase
- 论文阅读笔记(一)——Deep Convolutional Neural Network with Independent
- 论文阅读笔记-CoType: Joint Extraction of Typed Entities and Relations with Knowledge Bases
- 论文阅读:Neural Image Caption Generation with Visual Attention
- 【论文阅读笔记】DEEP COMPRESSION:COMPRESSING DEEP NEURAL NETWORKS WITH PRUNING, TRAINED QUANTIZATION...
- [论文阅读笔记]DyTa: dynamic symbolic execution guided with static verification results
- 论文笔记之:Multiple Object Recognition With Visual Attention
- 论文笔记之:Hybrid computing using a neural network with dynamic external memory
- 论文阅读(XiangBai——【AAAI2017】TextBoxes_A Fast Text Detector with a Single Deep Neural Network)
- Attention to Scale: Scale-Aware Semantic Image Segmentation论文阅读笔记