知识本体论文研究
2018-01-03 14:31
176 查看
(Ivan Vuli´c et al., ACL 2017)morph-fitting:fine-tuning word vector spaces with simple language-specitic rules
解决的问题:低频的词语置信度不高,反义词语义相近的问题。数据集: SimLex-999、SimVerb-3500、对话状态跟踪(NLP下游的应用)
主要思想:同义词应该进行拉近,反义词就拉远。
具体方法:
(1)先使用skip-gram + negative sampling 预生成词向量。
(2)进入三轮阶段:
第一阶段,同义词拉近:
· 公式的原理:找出最相近的非同义词,同义词的相关程度要比非同义词的更相近。它是损失函数。
· 公式的细节:词向量相乘是可以得到它们的相关程度的。xl-xr是同义词对。tl是xl最相近的非同义词。tr同理。δ的作用是间隔边界作用,是一个常数。B是batch,即小批数据。A是ATTRACT,即同义词起吸引作用。
第二阶段:
· 公式的原理:反义词的相关程度要比非反义词的更远。与同义词的原理差不多,只是加号和减号换了一下位置。
· 公式的细节:红色的r个人认为是要变成l的,见另一篇与它最想关的论文。xl-xr是反义词对。tl是xl最远的非反义词。tr同理。R是repel,即反义词起抵制作用。
第三阶段:
· 公式的原理:不希望改变初始的词向量程度太大,于是用改变后的词向量与初始的词向量计算L2距离作为损失。
· 公式的细节:init是原始词向量,λ是常系数。
相关文章推荐
- 知识相关度的计量研究—以“国共合作”本体为例
- 学科领域知识本体建设方法研究
- 本体建模与语义Web知识发现 4 基于频繁模式挖掘的XML网页分类技术
- 市场研究中的数据分析知识整理 (五)-线性模型拓展
- 市场研究中的数据分析知识整理 (六)-数据模拟
- 看懂论文的机器学习基本知识(二)
- 二十一个最火的研究论文ICCV 2015: Twenty one hottest research papers
- 有关DataForm组件的研究_基础知识和实现服务端批量CURD——Silverlight学习笔记[23]
- 故障诊断专家系统研究之三-----知识表示结构
- Goodfellow新研究:对抗样例让机器与人类双双上当 | 论文
- 超越ImageNet?李飞飞力赞高徒的视频描述研究入选计算机视觉最前沿的十大论文
- 谷歌大脑2017技术研究总结 | Jeff Dean执笔(附论文 & 数据集)
- 撰写科技研究论文之要领
- AJAX研究之一--基础知识
- 论文笔记:《机器学习安全性问题及其防御技术研究综述》
- 如何写出优秀的研究论文 Chapter 1. How to Write an A+ Research Paper
- 了解天才科学家的研究历程,了解知识贴近生活的一面,学习就是一件充满乐趣的事儿
- 无聊的时候研究下小知识
- 看懂信息检索和网络数据挖掘领域论文的必备知识总结
- 张志鹏论文 CNC齿轮测量中心自编程系统的研究与开发