【论文笔记】Character-Aware Neural Language Models
2017-10-24 00:10
726 查看
一、概要
该文章发于AAAI 2016,作者提出了仅建立在字符输入,预测在词水平上进行的一个神经语言模型(NLM)。当输入一个LSTM循环神经网络语言模型(RNN-LM)时,该模型在字符上启用了一个卷积神经网络(CNN),让该CNN的输出通过一个 Highway Network,使得效果得到进一步提升。该模型非常适用于形态丰富的语言上,因为其可以获取到丰富的语义和拼写信息。
二、模型方法
2.1 模型结构
如上图所示,该模型首先是character-level representation经过卷积神经网络,输入经过Highway network,然后再作为LSTM结果的输入,最后经过一个softmax输出概率。
2.2 Character-level Convolutional Neural Network
假设C为字符集合,d为character embeddings维度的大小,那么Q∈Rd⋅|C|为character embeddings矩阵,假设存在单词k由字符[c1,...,cl]组成,其中l为单词k的长度,那么单词k的 character-level representation可以表示为Ck∈Rd⋅l,第j列即代表单词中第j个字符的character embedding。
我们可以使用不同宽度的卷积核H∈Rd×w和非线性函数对上面得到的character embedding获得feature map fk∈Rl−w+1,即:
fk[i]=tanh(⟨Ck[∗,i:i+w−1],H⟩+b)
其中Ck[∗,i:i+w−1]是指Ck的第 i到(i+w−1)列 ,⟨A, B⟩ = Tr(ABT )表示內积。之后我们使用Max pooling取最重要的特征,即:
yk=maxifk[i]
在这里可以取不同大小的卷积核,对应一种卷积核可以设置多个数量,最后把所有的输入进行组合。
下图为大小语言模型的一些参数。
2.3 Highway Network
对于上面CNN的输入,让其经过Highway Network,假设单词k在CNN中的输出为yk,单层Highway Network的结构为:
z=g(Wy+b)
z=t⊙g(WHy+bH)+(1−t)⊙y
其中g为非线性函数,t=σ(WTy+bT) 称为 transform gate, (1−t) 称为carry gate。
2.4 Recurrent Neural Network Language Model
这里使用的是LSTM,关于具体的LSTM可以看这里【Deep Learning】LSTM(Long Short-Term Memory)及变体。假设V为语料单词集合,存在句子w1:t=[w1,...,wt],在训练中对应的目标为w=[w2,...,wt,w1],在经过每个单词k经过Highway Network之后作为LSTM的time t的输入,其输入经过Softmax即可得到:
Pr(wt+1=j|w1:t)=exp(ht·pj+qj)∑i∈Vexp(ht·pi+qi)
训练时,假设句子长度为T,那目标是最小化代价函数negative log-likelihood (N LL)为:
NLL=−∑Tt=1logPr(wt|w1:t−1)
语言模型常用的评价标准是perplexity (PPL):
PPL=exp(NLLT)
三、实验结果
作者除了在英语数据集Penn Treebank (PTB)外,还在其他语言上做了实验,具体可以看原论文,这里主要说一下英语语料结果。
通过实验结果可以看到在之前的模型上,除了最后一个结果是做了模型融合,作者提出的模型结果是最好的,并且参数也是非常少的,并且基于字符的模型不会出现OOV(out of vocabulary)的问题,同时,值得注意的是,作者发现,通过Character-level和Highway Network可以使得意思相近词的余弦相似度更小,如下图:
四、结论与思考
作者提出了仅建立在字符输入,预测在词水平上进行的一个神经语言模型(NLM),在减少参数的基础上,可以取得比word/morpheme embeddings作为输入更好的效果,通过char embeddings可以取得更加丰富的语义和拼写信息,最后作者认为CharCNN和highway layers是仍然是未来representation learning的光明大道,以及本文可能在机器翻译等领域可能存在一定的意义。
五、个人思考:
①文章使用了Highway Network,从某种角度上讲Highway Network与LSTM中的遗忘门和输入门非常类似,作者尝试使用multilayer perceptron代替,但是效果却不理想,因而作者假设Highway Network适合与CNN,这个是值得商榷的。
②作者尝试使用char embeddings和word embeddings结合的方法,但效果变得不好,与前人的在part- of-speech tagging (dos Santos and Zadrozny 2014) and named entity recognition(dos Santos and Guimaraes 2015) 结合两种方法可以取得更好效果的结论相悖,作者认为在某些任务上word embeddings是多余的,char embeddings就足够了,是否可以取不同的权重可以达到充分利用其信息,这可能也是可以尝试的。
参考文献:
①Yoon Kim,Yacine Jernite.Character-Aware Neural Language Models
②代码链接:https://github.com/yoonkim/lstm-char-cnn。
该文章发于AAAI 2016,作者提出了仅建立在字符输入,预测在词水平上进行的一个神经语言模型(NLM)。当输入一个LSTM循环神经网络语言模型(RNN-LM)时,该模型在字符上启用了一个卷积神经网络(CNN),让该CNN的输出通过一个 Highway Network,使得效果得到进一步提升。该模型非常适用于形态丰富的语言上,因为其可以获取到丰富的语义和拼写信息。
二、模型方法
2.1 模型结构
如上图所示,该模型首先是character-level representation经过卷积神经网络,输入经过Highway network,然后再作为LSTM结果的输入,最后经过一个softmax输出概率。
2.2 Character-level Convolutional Neural Network
假设C为字符集合,d为character embeddings维度的大小,那么Q∈Rd⋅|C|为character embeddings矩阵,假设存在单词k由字符[c1,...,cl]组成,其中l为单词k的长度,那么单词k的 character-level representation可以表示为Ck∈Rd⋅l,第j列即代表单词中第j个字符的character embedding。
我们可以使用不同宽度的卷积核H∈Rd×w和非线性函数对上面得到的character embedding获得feature map fk∈Rl−w+1,即:
fk[i]=tanh(⟨Ck[∗,i:i+w−1],H⟩+b)
其中Ck[∗,i:i+w−1]是指Ck的第 i到(i+w−1)列 ,⟨A, B⟩ = Tr(ABT )表示內积。之后我们使用Max pooling取最重要的特征,即:
yk=maxifk[i]
在这里可以取不同大小的卷积核,对应一种卷积核可以设置多个数量,最后把所有的输入进行组合。
下图为大小语言模型的一些参数。
2.3 Highway Network
对于上面CNN的输入,让其经过Highway Network,假设单词k在CNN中的输出为yk,单层Highway Network的结构为:
z=g(Wy+b)
z=t⊙g(WHy+bH)+(1−t)⊙y
其中g为非线性函数,t=σ(WTy+bT) 称为 transform gate, (1−t) 称为carry gate。
2.4 Recurrent Neural Network Language Model
这里使用的是LSTM,关于具体的LSTM可以看这里【Deep Learning】LSTM(Long Short-Term Memory)及变体。假设V为语料单词集合,存在句子w1:t=[w1,...,wt],在训练中对应的目标为w=[w2,...,wt,w1],在经过每个单词k经过Highway Network之后作为LSTM的time t的输入,其输入经过Softmax即可得到:
Pr(wt+1=j|w1:t)=exp(ht·pj+qj)∑i∈Vexp(ht·pi+qi)
训练时,假设句子长度为T,那目标是最小化代价函数negative log-likelihood (N LL)为:
NLL=−∑Tt=1logPr(wt|w1:t−1)
语言模型常用的评价标准是perplexity (PPL):
PPL=exp(NLLT)
三、实验结果
作者除了在英语数据集Penn Treebank (PTB)外,还在其他语言上做了实验,具体可以看原论文,这里主要说一下英语语料结果。
通过实验结果可以看到在之前的模型上,除了最后一个结果是做了模型融合,作者提出的模型结果是最好的,并且参数也是非常少的,并且基于字符的模型不会出现OOV(out of vocabulary)的问题,同时,值得注意的是,作者发现,通过Character-level和Highway Network可以使得意思相近词的余弦相似度更小,如下图:
四、结论与思考
作者提出了仅建立在字符输入,预测在词水平上进行的一个神经语言模型(NLM),在减少参数的基础上,可以取得比word/morpheme embeddings作为输入更好的效果,通过char embeddings可以取得更加丰富的语义和拼写信息,最后作者认为CharCNN和highway layers是仍然是未来representation learning的光明大道,以及本文可能在机器翻译等领域可能存在一定的意义。
五、个人思考:
①文章使用了Highway Network,从某种角度上讲Highway Network与LSTM中的遗忘门和输入门非常类似,作者尝试使用multilayer perceptron代替,但是效果却不理想,因而作者假设Highway Network适合与CNN,这个是值得商榷的。
②作者尝试使用char embeddings和word embeddings结合的方法,但效果变得不好,与前人的在part- of-speech tagging (dos Santos and Zadrozny 2014) and named entity recognition(dos Santos and Guimaraes 2015) 结合两种方法可以取得更好效果的结论相悖,作者认为在某些任务上word embeddings是多余的,char embeddings就足够了,是否可以取不同的权重可以达到充分利用其信息,这可能也是可以尝试的。
参考文献:
①Yoon Kim,Yacine Jernite.Character-Aware Neural Language Models
②代码链接:https://github.com/yoonkim/lstm-char-cnn。
相关文章推荐
- 论文笔记:A Neural Probabilistic Language Model
- A Diversity-Promoting Objective Function for Neural Conversation Models 论文阅读零散笔记
- 【论文阅读】Neural Language Correction with Character-Based Attention
- 论文笔记-An Analysis of Deep Neural Network Models for Practical Applications
- [NLP论文阅读] The Fixed-Size Ordinally-Forgetting Encoding Method for Neural Network Language Models
- 【Deep Learning学习笔记】NEURAL NETWORK BASED LANGUAGE MODELS FOR HIGHLY INFLECTIVE LANGUAGES_google2009
- A Diversity-Promoting Objective Function for Neural Conversation Models论文阅读笔记
- 论文笔记——Data-free Parameter Pruning for Deep Neural Networks
- Learning both Weights and Connections for Efficient Neural Network -- 论文笔记
- 论文阅读笔记:MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications
- [深度学习论文笔记][Image Classification] ImageNet Classification with Deep Convolutional Neural Networks
- 论文原创笔记:Learning Multi-Domain Convolutional Neural Networks for Visual Tracking
- [论文笔记] CRNN(Convolutional Recurrent Neural Network)_2015 学习笔记
- 论文笔记之:Progressive Neural Network
- 【论文笔记】Question Answering over Freebase with Multi-Column Convolutional Neural Networks
- Sampled Softmax 论文笔记:On Using Very Large Target Vocabulary for Neural Machine Translation
- A Neural Probabilistic Language Model笔记
- 论文笔记系列-Efficient Neural Architecture Search via Parameter Sharing
- [论文笔记] reCAPTCHA: Human-Based Character Recognition via Web Security Measures (Science, 2008)
- 论文笔记——Channel Pruning for Accelerating Very Deep Neural Networks