您的位置：首页 > 其它

A Neural Probabilistic Language Model笔记

2017-07-14 11:14 956 查看

1.经典之paper，虽然之前一直有了解，但是未及细读，现在终于有时间好好研究一下了。

2.首先是一个概率模型：

3.然后是两个假设条件：First, it is not taking into account contexts farther than 1 or 2 words,1 second it is not taking into account the “similarity” between words.

所以模型：

4.具体模型

4.1输入层（第一层）：一个C映射，wi的维度是1xV，C的维度是Vxm，所以1xVxVxm=1xm；第二层tanh函数进行计算，在最后的实验中，Bengio 发现直连边虽然不能提升模型效果，但是可以少一半的迭代次数。同时他也猜想如果没有直连边，可能可以生成更好的词向量；输出层：softmax函数。

4.2目标函数

每一层的参数，和维度

最终训练的C就是我们需要的词向量

5.伪代码

6.训练的时候要找一个好点的语料库，因为自己的文本词频一般都不够。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航