word2vec 中文训练小试牛刀
2015-02-09 00:36
260 查看
word2vec 中文训练小试牛刀
所用语料: 1998年人民日报语料,北京大学提供。测试环境: Ubunt 14.10
下载好的语料已经是分好词的,把词性标注去掉就直接用作词向量的训练了。总大小 8.2 MB。
由于训练语料库的特殊性,算出来的 distance 很有意思,如下:
相关文章推荐
- 使用word2vec(C语言版本)训练中文语料 并且将得到的vector.bin文件转换成txt文件
- word2vec词向量训练及中文文本相似度计算
- word2vec 自己训练中文语料
- 基于word2vec的中文词向量训练
- gensim 中文语料训练 word2vec
- 120G+训练好的word2vec模型(中文词向量)
- 中文语料上的word2vec训练
- word2vec词向量训练及中文文本类似度计算
- word2vec中文语料小试牛刀
- kaldi中文语音识别thchs30模型训练代码功能和配置参数解读
- Tesseract-OCR识别中文与训练字库实例
- 深入word2vec(1) - 第一次训练
- Tesseract 3.02中文字库训练----整理
- Windows下使用Word2vec继续词向量训练
- Windows下使用Word2vec继续词向量训练
- 基于python的gensim word2vec训练词向量
- OpenNLP进行中文命名实体识别(上:预处理及训练模型)
- Windows下使用Word2vec继续词向量训练
- 中文译文:Minerva-一种可扩展的高效的深度学习训练平台(Minerva - A Scalable and Highly Efficient Training Platform for Deep Learning)
- 维基百科数据库处理,用于训练word2vec