您的位置:首页 > 其它

文章标题

2017-05-23 09:09 281 查看

word2vec学习

word2vector是将语言中的字词转换为计算机可以理解的稠密向量,进而可以做自然语言处理的工作,如,文本分类,机器翻译等。中文常译文词向量。

word2vec提出的原因,

基于计数的N-元语言模型,数据稀疏,忽略语义相似性。

one-hot encoder 与Vector space model存在两个问题:数据稀疏,字词间可能存在的关系。

word2vec主要分为两种模式,

cbow,从原始的句子推目标词,适合小型的数据库。

skip-gram,从目标词推原始的句子,适合大型的语料。

使用word2vec训练语料后,语义相近的词在空间中的位置离得比较近。

简单的说:word2vec用一个一层的神经网络(CBOW的本质)把one-hot形式的词向量映射到分布式形式的词向量,为了加快训练速度,用了Hierarchical softmax,negative sampling 等trick。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: