您的位置:首页 > 其它

知识本体论文研究

2018-01-03 14:31 176 查看

(Ivan Vuli´c et al., ACL 2017)morph-fitting:fine-tuning word vector spaces with simple language-specitic rules

解决的问题:低频的词语置信度不高,反义词语义相近的问题。

数据集: SimLex-999、SimVerb-3500、对话状态跟踪(NLP下游的应用)

主要思想:同义词应该进行拉近,反义词就拉远。

具体方法:

(1)先使用skip-gram + negative sampling 预生成词向量。

(2)进入三轮阶段:

第一阶段,同义词拉近:



· 公式的原理:找出最相近的非同义词,同义词的相关程度要比非同义词的更相近。它是损失函数。

· 公式的细节:词向量相乘是可以得到它们的相关程度的。xl-xr是同义词对。tl是xl最相近的非同义词。tr同理。δ的作用是间隔边界作用,是一个常数。B是batch,即小批数据。A是ATTRACT,即同义词起吸引作用。

第二阶段:



· 公式的原理:反义词的相关程度要比非反义词的更远。与同义词的原理差不多,只是加号和减号换了一下位置。

· 公式的细节:红色的r个人认为是要变成l的,见另一篇与它最想关的论文。xl-xr是反义词对。tl是xl最远的非反义词。tr同理。R是repel,即反义词起抵制作用。

第三阶段:



· 公式的原理:不希望改变初始的词向量程度太大,于是用改变后的词向量与初始的词向量计算L2距离作为损失。

· 公式的细节:init是原始词向量,λ是常系数。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: