您的位置:首页 > 其它

120G+训练好的word2vec模型(中文词向量)

2018-01-11 16:32 2371 查看
从网上了解到,很多人缺少大语料训练的word2vec模型,在此分享下使用120G+语料训练好的word2vec模型。

训练语料:

百度百科800w+条,20G+

搜狐新闻400w+条,12G+(数据下载链接见其它博文)

小说:90G左右



模型参数:

window=5

min_count=5

size=64

ps:其它参数见gensim库,执行代码为:Word2Vec(sentence, window=5, min_count=5,size=64, workers=4)
其它相关:

分词词典使用了130w+词典。分词代码:jieba.lcut(sentence),默认使用了HMM识别新词;

剔除了所有非中文字符;

最终得到的词典大小为6115353;

目前只跑了64维的结果,后期更新128维词向量;

模型格式有两种bin和model;
下载链接:链接: https://pan.baidu.com/s/1eUgu8Cy 密码: 4is8

本文转自 https://weibo.com/p/23041816d74e01f0102x77v#_loginLayer_1515659232344
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息