您的位置：首页 > 其它

知识本体论文研究

2018-01-03 14:31 176 查看

(Ivan Vuli´c et al., ACL 2017)morph-fitting：fine-tuning word vector spaces with simple language-specitic rules

解决的问题：低频的词语置信度不高，反义词语义相近的问题。

数据集： SimLex-999、SimVerb-3500、对话状态跟踪（NLP下游的应用）

主要思想：同义词应该进行拉近，反义词就拉远。

具体方法：

（1）先使用skip-gram + negative sampling 预生成词向量。

（2）进入三轮阶段：

第一阶段，同义词拉近：

· 公式的原理：找出最相近的非同义词，同义词的相关程度要比非同义词的更相近。它是损失函数。

· 公式的细节：词向量相乘是可以得到它们的相关程度的。xl-xr是同义词对。tl是xl最相近的非同义词。tr同理。δ的作用是间隔边界作用，是一个常数。B是batch，即小批数据。A是ATTRACT，即同义词起吸引作用。

第二阶段：

· 公式的原理：反义词的相关程度要比非反义词的更远。与同义词的原理差不多，只是加号和减号换了一下位置。

· 公式的细节：红色的r个人认为是要变成l的，见另一篇与它最想关的论文。xl-xr是反义词对。tl是xl最远的非反义词。tr同理。R是repel，即反义词起抵制作用。

第三阶段：

· 公式的原理：不希望改变初始的词向量程度太大，于是用改变后的词向量与初始的词向量计算L2距离作为损失。

· 公式的细节：init是原始词向量，λ是常系数。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航