120G+训练好的word2vec模型(中文词向量)
2018-01-11 16:32
2371 查看
从网上了解到,很多人缺少大语料训练的word2vec模型,在此分享下使用120G+语料训练好的word2vec模型。
训练语料:
百度百科800w+条,20G+
搜狐新闻400w+条,12G+(数据下载链接见其它博文)
小说:90G左右
模型参数:
window=5
min_count=5
size=64
ps:其它参数见gensim库,执行代码为:Word2Vec(sentence, window=5, min_count=5,size=64, workers=4)
其它相关:
分词词典使用了130w+词典。分词代码:jieba.lcut(sentence),默认使用了HMM识别新词;
剔除了所有非中文字符;
最终得到的词典大小为6115353;
目前只跑了64维的结果,后期更新128维词向量;
模型格式有两种bin和model;
下载链接:链接: https://pan.baidu.com/s/1eUgu8Cy 密码: 4is8
本文转自 https://weibo.com/p/23041816d74e01f0102x77v#_loginLayer_1515659232344
训练语料:
百度百科800w+条,20G+
搜狐新闻400w+条,12G+(数据下载链接见其它博文)
小说:90G左右
模型参数:
window=5
min_count=5
size=64
ps:其它参数见gensim库,执行代码为:Word2Vec(sentence, window=5, min_count=5,size=64, workers=4)
其它相关:
分词词典使用了130w+词典。分词代码:jieba.lcut(sentence),默认使用了HMM识别新词;
剔除了所有非中文字符;
最终得到的词典大小为6115353;
目前只跑了64维的结果,后期更新128维词向量;
模型格式有两种bin和model;
下载链接:链接: https://pan.baidu.com/s/1eUgu8Cy 密码: 4is8
本文转自 https://weibo.com/p/23041816d74e01f0102x77v#_loginLayer_1515659232344
相关文章推荐
- word2vec词向量训练及中文文本类似度计算
- word2vec词向量训练及中文文本相似度计算
- [置顶] 语言模型1-word2vec为什么能训练出相似向量
- 基于word2vec的中文词向量训练
- word2vec (四) 动手训练一个词向量空间
- 用数据玩点花样!如何构建skim-gram模型来训练和可视化词向量
- 利用 word2vec 训练的字向量进行中文分词
- word2vec模型原理与实现 word2vec是Google在2013年开源的一款将词表征为实数值向量的高效工具. gensim包提供了word2vec的python接口. word2vec采用
- 利用crf++来训练一个中文分词模型
- 使用word2vec(C语言版本)训练中文语料 并且将得到的vector.bin文件转换成txt文件
- win10环境下使用gensim实现word2vec模型训练及测试
- Spark下的word2vec模型训练
- 利用 word2vec 训练的字向量进行中文分词
- windows环境下使用wiki中文百科及gensim工具库训练词向量
- Windows下使用Word2vec继续词向量训练
- 用Word2vec训练中文wiki,构造词向量并做词聚类
- gensim 中文语料训练 word2vec
- [sphinx]中文语言模型训练
- 从头开始编写基于隐含马尔可夫模型HMM的中文分词器之二 - 模型训练与使用
- OpenNLP进行中文命名实体识别(上:预处理及训练模型)